Mistral Codestral 22B,專為程式碼生成設計,支援 80+ 程式語言和 256K 上下文,Q4 約需 14 GB VRAM。
| 量化 | 1K | 4K | 8K | 16K | 32K | 64K | 128K |
|---|---|---|---|---|---|---|---|
| FP16 / BF16 | 45.3 GB | 47.7 GB | 50.1 GB | 54.3 GB | 61.6 GB | 74.4 GB | 96.9 GB |
| Q2_K | 8.4 GB | 10.8 GB | 13.2 GB | 17.4 GB | 24.8 GB | 37.6 GB | 60.0 GB |
| Q3_K_M | 10.9 GB | 13.3 GB | 15.7 GB | 19.9 GB | 27.2 GB | 40.1 GB | 62.5 GB |
| Q4_K_M★ | 13.7 GB | 16.1 GB | 18.5 GB | 22.6 GB | 30.0 GB | 42.8 GB | 65.3 GB |
| Q5_K_M | 16.4 GB | 18.8 GB | 21.2 GB | 25.4 GB | 32.7 GB | 45.6 GB | 68.0 GB |
| Q6_K | 19.2 GB | 21.6 GB | 24.0 GB | 28.1 GB | 35.5 GB | 48.3 GB | 70.8 GB |
| Q8_0 | 24.7 GB | 27.1 GB | 29.5 GB | 33.6 GB | 41.0 GB | 53.8 GB | 76.3 GB |
安裝 Ollama 後直接執行,自動下載並運行模型。
ollama run codestral:22b
適合進階用戶,支援 CPU 和 GPU 混合推理,可精確控制量化等級。
# Download GGUF model from Hugging Face, then run: ./llama-cli -m model.gguf -p "Hello" -n 128
適合生產環境,支援批次推理和 OpenAI 相容 API。
pip install vllm vllm serve Mistral --dtype auto
ollama run codestral:22b分享你的使用體驗,幫助其他人了解這個模型