🧠 語言模型MoEMIT

DeepSeek-R1-Zero

DeepSeek-R1-Zero 是純強化學習訓練版本(無 SFT),展示了 RL 在推理能力上的突破,學術研究價值極高。

資料更新:2026年3月25日

VRAM 計算器

我的 GPU VRAM:
量化等級
上下文長度
Q4_K_M · 8K context
模型權重 + KV Cache + 0.5 GB overhead
381.0 GB
完整 VRAM 對照表(所有量化 × 上下文)
量化1K4K8K16K32K64K128K
FP16 / BF161342.9 GB1344.2 GB1345.5 GB1347.8 GB1351.8 GB1358.8 GB1371.0 GB
Q2_K219.0 GB220.3 GB221.6 GB223.9 GB227.9 GB234.9 GB247.1 GB
Q3_K_M294.5 GB295.8 GB297.1 GB299.4 GB303.4 GB310.4 GB322.6 GB
Q4_K_M378.4 GB379.7 GB381.0 GB383.3 GB387.3 GB394.2 GB406.5 GB
Q5_K_M462.2 GB463.5 GB464.9 GB467.1 GB471.1 GB478.1 GB490.3 GB
Q6_K546.1 GB547.4 GB548.7 GB551.0 GB555.0 GB562.0 GB574.2 GB
Q8_0713.9 GB715.2 GB716.5 GB718.8 GB722.8 GB729.7 GB742.0 GB

部署指南

方法二:llama.cpp

適合進階用戶,支援 CPU 和 GPU 混合推理,可精確控制量化等級。

# Download GGUF model from Hugging Face, then run:
./llama-cli -m model.gguf -p "Hello" -n 128

方法三:vLLM(高效能伺服器)

適合生產環境,支援批次推理和 OpenAI 相容 API。

pip install vllm
vllm serve DeepSeek --dtype auto

規格

參數量671B (A37B)
最大上下文128K tokens
HF 下載量5K/月

模型強項

純強化學習推理能力卓越學術研究價值超長上下文MoE 高效能

推薦用途

  • 適合學術研究人員探索強化學習在大型語言模型推理能力上的突破與應用。
  • 適用於需要處理極長文本輸入,並進行複雜邏輯推理的應用場景。

標籤

MoE推理128KMIT純強化學習

部署工具

vLLMSGLang

使用心得

分享你的使用體驗,幫助其他人了解這個模型

0/1000
還沒有評論,成為第一個分享心得的人!