DeepSeek V3 最新版本,671B MoE 模型(激活 37B),MIT 授權,在 llm-stats.com 排行榜名列前茅,需要多機多 GPU 部署。
| 量化 | 1K | 4K | 8K | 16K | 32K | 64K | 128K |
|---|---|---|---|---|---|---|---|
| FP16 / BF16 | 1343.4 GB | 1346.0 GB | 1348.6 GB | 1353.1 GB | 1361.1 GB | 1375.1 GB | 1399.6 GB |
| Q2_K | 219.4 GB | 222.0 GB | 224.7 GB | 229.2 GB | 237.2 GB | 251.2 GB | 275.6 GB |
| Q3_K_M | 294.9 GB | 297.5 GB | 300.1 GB | 304.7 GB | 312.7 GB | 326.7 GB | 351.1 GB |
| Q4_K_M★ | 378.8 GB | 381.4 GB | 384.0 GB | 388.6 GB | 396.6 GB | 410.5 GB | 435.0 GB |
| Q5_K_M | 462.7 GB | 465.3 GB | 467.9 GB | 472.5 GB | 480.4 GB | 494.4 GB | 518.9 GB |
| Q6_K | 546.6 GB | 549.2 GB | 551.8 GB | 556.3 GB | 564.3 GB | 578.3 GB | 602.8 GB |
| Q8_0 | 714.3 GB | 716.9 GB | 719.5 GB | 724.1 GB | 732.1 GB | 746.0 GB | 770.5 GB |
適合進階用戶,支援 CPU 和 GPU 混合推理,可精確控制量化等級。
# Download GGUF model from Hugging Face, then run: ./llama-cli -m model.gguf -p "Hello" -n 128
適合生產環境,支援批次推理和 OpenAI 相容 API。
pip install vllm vllm serve DeepSeek V3 --dtype auto
分享你的使用體驗,幫助其他人了解這個模型