🧠 語言模型MoE2 版本Modified MIT

Kimi

月之暗面 Kimi K2.5,超大規模 MoE 模型,在 llm-stats.com 開源排行榜名列前茅,需要多機多 GPU 部署。

📅 發布:2025-07資料更新:2026年3月25日

選擇版本(參數量)

VRAM 計算器

我的 GPU VRAM:
量化等級
上下文長度
Q4_K_M · 8K context
模型權重 + KV Cache + 0.5 GB overhead
566.0 GB
完整 VRAM 對照表(所有量化 × 上下文)
量化1K4K8K16K32K64K128K
FP16 / BF162000.9 GB2002.2 GB2003.5 GB2005.8 GB2009.8 GB2016.8 GB2029.0 GB
Q2_K325.9 GB327.2 GB328.5 GB330.8 GB334.8 GB341.8 GB354.0 GB
Q3_K_M438.4 GB439.7 GB441.0 GB443.3 GB447.3 GB454.3 GB466.5 GB
Q4_K_M563.4 GB564.7 GB566.0 GB568.3 GB572.3 GB579.3 GB591.5 GB
Q5_K_M688.4 GB689.7 GB691.0 GB693.3 GB697.3 GB704.3 GB716.5 GB
Q6_K813.4 GB814.7 GB816.0 GB818.3 GB822.3 GB829.3 GB841.5 GB
Q8_01063.4 GB1064.7 GB1066.0 GB1068.3 GB1072.3 GB1079.3 GB1091.5 GB

部署指南

方法二:llama.cpp

適合進階用戶,支援 CPU 和 GPU 混合推理,可精確控制量化等級。

# Download GGUF model from Hugging Face, then run:
./llama-cli -m model.gguf -p "Hello" -n 128

方法三:vLLM(高效能伺服器)

適合生產環境,支援批次推理和 OpenAI 相容 API。

pip install vllm
vllm serve Kimi --dtype auto

規格

參數量1.0T (A32B)
最大上下文128K tokens
HF 下載量560K/月

模型強項

超長上下文MoE高效能中文旗艦多機部署

推薦用途

  • 處理和分析超長文件內容,如法律條文、研究報告或書籍,進行摘要與問答。
  • 開發複雜的 AI Agent 應用,利用其強大的上下文理解能力執行多步驟任務。

標籤

MoE旗艦128K中文Agent

部署工具

vLLMSGLangllama.cpp

使用心得

分享你的使用體驗,幫助其他人了解這個模型

0/1000
還沒有評論,成為第一個分享心得的人!