DeepSeek Coder V2,236B MoE 模型(激活 21B),程式碼生成能力超越 GPT-4 Turbo,支援 128K 上下文,需要多 GPU。
| 量化 | 1K | 4K | 8K | 16K | 32K | 64K | 128K |
|---|---|---|---|---|---|---|---|
| FP16 / BF16 | 473.4 GB | 475.9 GB | 478.5 GB | 483.0 GB | 490.8 GB | 504.6 GB | 528.6 GB |
| Q2_K | 78.1 GB | 80.6 GB | 83.2 GB | 87.7 GB | 95.5 GB | 109.3 GB | 133.3 GB |
| Q3_K_M | 104.6 GB | 107.2 GB | 109.7 GB | 114.2 GB | 122.1 GB | 135.8 GB | 159.9 GB |
| Q4_K_M★ | 134.1 GB | 136.7 GB | 139.2 GB | 143.7 GB | 151.6 GB | 165.3 GB | 189.4 GB |
| Q5_K_M | 163.6 GB | 166.2 GB | 168.7 GB | 173.2 GB | 181.1 GB | 194.8 GB | 218.9 GB |
| Q6_K | 193.1 GB | 195.7 GB | 198.2 GB | 202.7 GB | 210.6 GB | 224.3 GB | 248.4 GB |
| Q8_0 | 252.1 GB | 254.7 GB | 257.2 GB | 261.7 GB | 269.6 GB | 283.3 GB | 307.4 GB |
適合進階用戶,支援 CPU 和 GPU 混合推理,可精確控制量化等級。
# Download GGUF model from Hugging Face, then run: ./llama-cli -m model.gguf -p "Hello" -n 128
適合生產環境,支援批次推理和 OpenAI 相容 API。
pip install vllm vllm serve DeepSeek --dtype auto
分享你的使用體驗,幫助其他人了解這個模型