🧠 語言模型MoE3 版本MIT

DeepSeek V3

DeepSeek V3 最新版本,671B MoE 模型(激活 37B),MIT 授權,在 llm-stats.com 排行榜名列前茅,需要多機多 GPU 部署。

📅 發布:2024-12🔄 最新:2025-01資料更新:2026年3月25日

選擇版本(參數量)

VRAM 計算器

我的 GPU VRAM:
量化等級
上下文長度
Q4_K_M · 8K context
模型權重 + KV Cache + 0.5 GB overhead
384.0 GB
完整 VRAM 對照表(所有量化 × 上下文)
量化1K4K8K16K32K64K128K
FP16 / BF161343.4 GB1346.0 GB1348.6 GB1353.1 GB1361.1 GB1375.1 GB1399.6 GB
Q2_K219.4 GB222.0 GB224.7 GB229.2 GB237.2 GB251.2 GB275.6 GB
Q3_K_M294.9 GB297.5 GB300.1 GB304.7 GB312.7 GB326.7 GB351.1 GB
Q4_K_M378.8 GB381.4 GB384.0 GB388.6 GB396.6 GB410.5 GB435.0 GB
Q5_K_M462.7 GB465.3 GB467.9 GB472.5 GB480.4 GB494.4 GB518.9 GB
Q6_K546.6 GB549.2 GB551.8 GB556.3 GB564.3 GB578.3 GB602.8 GB
Q8_0714.3 GB716.9 GB719.5 GB724.1 GB732.1 GB746.0 GB770.5 GB

部署指南

方法二:llama.cpp

適合進階用戶,支援 CPU 和 GPU 混合推理,可精確控制量化等級。

# Download GGUF model from Hugging Face, then run:
./llama-cli -m model.gguf -p "Hello" -n 128

方法三:vLLM(高效能伺服器)

適合生產環境,支援批次推理和 OpenAI 相容 API。

pip install vllm
vllm serve DeepSeek V3 --dtype auto

規格

參數量671B (A37B)
最大上下文128K tokens
HF 下載量2.8M/月

模型強項

旗艦級性能超大上下文MoE高效能開源商用多機部署

推薦用途

  • 適用於需要處理大量文本、進行複雜推理和分析的企業級應用開發。
  • 適合構建需要長時間記憶和多輪對話能力的智能客服或虛擬助手。
  • 可作為研究機構或大型企業進行前沿AI模型開發與實驗的基礎模型。

標籤

MoE旗艦MIT128K

部署工具

vLLMSGLangllama.cpp

使用心得

分享你的使用體驗,幫助其他人了解這個模型

0/1000
還沒有評論,成為第一個分享心得的人!