Mistral Large 3,675B 參數,256K 上下文,Mistral 最新旗艦,多語言和推理能力頂尖,需多機多 GPU 部署。
| 量化 | 1K | 4K | 8K | 16K | 32K | 64K | 128K |
|---|---|---|---|---|---|---|---|
| FP16 / BF16 | 1351.8 GB | 1355.5 GB | 1359.3 GB | 1365.9 GB | 1377.4 GB | 1397.5 GB | 1432.8 GB |
| Q2_K | 221.1 GB | 224.9 GB | 228.6 GB | 235.2 GB | 246.7 GB | 266.9 GB | 302.2 GB |
| Q3_K_M | 297.1 GB | 300.8 GB | 304.6 GB | 311.2 GB | 322.7 GB | 342.8 GB | 378.1 GB |
| Q4_K_M★ | 381.4 GB | 385.2 GB | 389.0 GB | 395.5 GB | 407.1 GB | 427.2 GB | 462.5 GB |
| Q5_K_M | 465.8 GB | 469.6 GB | 473.3 GB | 479.9 GB | 491.4 GB | 511.6 GB | 546.9 GB |
| Q6_K | 550.2 GB | 553.9 GB | 557.7 GB | 564.3 GB | 575.8 GB | 596.0 GB | 631.3 GB |
| Q8_0 | 718.9 GB | 722.7 GB | 726.5 GB | 733.0 GB | 744.6 GB | 764.7 GB | 800.0 GB |
適合進階用戶,支援 CPU 和 GPU 混合推理,可精確控制量化等級。
# Download GGUF model from Hugging Face, then run: ./llama-cli -m model.gguf -p "Hello" -n 128
適合生產環境,支援批次推理和 OpenAI 相容 API。
pip install vllm vllm serve Mistral --dtype auto
分享你的使用體驗,幫助其他人了解這個模型