Mistral Magistral Medium,123B 推理模型,256K 上下文,Mistral 最新推理旗艦,需 70 GB+ VRAM(Q4 約 74 GB)。
| 量化 | 1K | 4K | 8K | 16K | 32K | 64K | 128K |
|---|---|---|---|---|---|---|---|
| FP16 / BF16 | 247.8 GB | 251.5 GB | 255.3 GB | 261.9 GB | 273.4 GB | 293.5 GB | 328.8 GB |
| Q2_K | 41.7 GB | 45.5 GB | 49.2 GB | 55.8 GB | 67.3 GB | 87.5 GB | 122.8 GB |
| Q3_K_M | 55.6 GB | 59.3 GB | 63.1 GB | 69.7 GB | 81.2 GB | 101.3 GB | 136.6 GB |
| Q4_K_M★ | 70.9 GB | 74.7 GB | 78.5 GB | 85.0 GB | 96.6 GB | 116.7 GB | 152.0 GB |
| Q5_K_M | 86.3 GB | 90.1 GB | 93.8 GB | 100.4 GB | 111.9 GB | 132.1 GB | 167.4 GB |
| Q6_K | 101.7 GB | 105.4 GB | 109.2 GB | 115.8 GB | 127.3 GB | 147.5 GB | 182.8 GB |
| Q8_0 | 132.4 GB | 136.2 GB | 140.0 GB | 146.5 GB | 158.1 GB | 178.2 GB | 213.5 GB |
適合進階用戶,支援 CPU 和 GPU 混合推理,可精確控制量化等級。
# Download GGUF model from Hugging Face, then run: ./llama-cli -m model.gguf -p "Hello" -n 128
適合生產環境,支援批次推理和 OpenAI 相容 API。
pip install vllm vllm serve Mistral --dtype auto
分享你的使用體驗,幫助其他人了解這個模型