🧠 語言模型MoE2 版本Modified MIT

Kimi

月之暗面 Kimi K2.5，超大規模 MoE 模型，在 llm-stats.com 開源排行榜名列前茅，需要多機多 GPU 部署。

📅 發布：2025-07↻資料更新：2026年3月25日

選擇版本（參數量）

我的 GPU VRAM：

量化等級

上下文長度

Q4_K_M · 8K context

模型權重 + KV Cache + 0.5 GB overhead

566.0 GB

完整 VRAM 對照表（所有量化 × 上下文）

適合進階用戶，支援 CPU 和 GPU 混合推理，可精確控制量化等級。

# Download GGUF model from Hugging Face, then run:
./llama-cli -m model.gguf -p "Hello" -n 128

適合生產環境，支援批次推理和 OpenAI 相容 API。

pip install vllm
vllm serve Kimi --dtype auto

參數量1.0T (A32B)

最大上下文128K tokens

HF 下載量560K/月

超長上下文MoE高效能中文旗艦多機部署

vLLMSGLangllama.cpp

分享你的使用體驗，幫助其他人了解這個模型

0/1000

還沒有評論，成為第一個分享心得的人！