月之暗面 Kimi K2.5,超大規模 MoE 模型,在 llm-stats.com 開源排行榜名列前茅,需要多機多 GPU 部署。
| 量化 | 1K | 4K | 8K | 16K | 32K | 64K | 128K |
|---|---|---|---|---|---|---|---|
| FP16 / BF16 | 2000.9 GB | 2002.2 GB | 2003.5 GB | 2005.8 GB | 2009.8 GB | 2016.8 GB | 2029.0 GB |
| Q2_K | 325.9 GB | 327.2 GB | 328.5 GB | 330.8 GB | 334.8 GB | 341.8 GB | 354.0 GB |
| Q3_K_M | 438.4 GB | 439.7 GB | 441.0 GB | 443.3 GB | 447.3 GB | 454.3 GB | 466.5 GB |
| Q4_K_M★ | 563.4 GB | 564.7 GB | 566.0 GB | 568.3 GB | 572.3 GB | 579.3 GB | 591.5 GB |
| Q5_K_M | 688.4 GB | 689.7 GB | 691.0 GB | 693.3 GB | 697.3 GB | 704.3 GB | 716.5 GB |
| Q6_K | 813.4 GB | 814.7 GB | 816.0 GB | 818.3 GB | 822.3 GB | 829.3 GB | 841.5 GB |
| Q8_0 | 1063.4 GB | 1064.7 GB | 1066.0 GB | 1068.3 GB | 1072.3 GB | 1079.3 GB | 1091.5 GB |
適合進階用戶,支援 CPU 和 GPU 混合推理,可精確控制量化等級。
# Download GGUF model from Hugging Face, then run: ./llama-cli -m model.gguf -p "Hello" -n 128
適合生產環境,支援批次推理和 OpenAI 相容 API。
pip install vllm vllm serve Kimi --dtype auto
分享你的使用體驗,幫助其他人了解這個模型