🧠 語言模型Apache 2.0

GLM-4-9B

智譜 AI GLM-4 9B,中文能力頂尖,支援 128K 超長上下文,Apache 2.0 授權,適合中文應用場景。

資料更新:2026年3月25日

VRAM 計算器

我的 GPU VRAM:
量化等級
上下文長度
Q4_K_M · 8K context
模型權重 + KV Cache + 0.5 GB overhead
7.6 GB
完整 VRAM 對照表(所有量化 × 上下文)
量化1K4K8K16K32K64K128K
FP16 / BF1618.8 GB19.6 GB20.5 GB22.0 GB24.6 GB29.2 GB37.2 GB
Q2_K3.7 GB4.6 GB5.4 GB6.9 GB9.5 GB14.1 GB22.1 GB
Q3_K_M4.7 GB5.6 GB6.4 GB7.9 GB10.5 GB15.1 GB23.1 GB
Q4_K_M5.8 GB6.7 GB7.6 GB9.1 GB11.7 GB16.3 GB24.3 GB
Q5_K_M7.0 GB7.8 GB8.7 GB10.2 GB12.8 GB17.4 GB25.4 GB
Q6_K8.1 GB9.0 GB9.8 GB11.3 GB13.9 GB18.5 GB26.5 GB
Q8_010.3 GB11.2 GB12.1 GB13.6 GB16.2 GB20.8 GB28.8 GB

部署指南

方法一:Ollama(最簡單)

安裝 Ollama 後直接執行,自動下載並運行模型。

ollama run glm4:9b

方法二:llama.cpp

適合進階用戶,支援 CPU 和 GPU 混合推理,可精確控制量化等級。

# Download GGUF model from Hugging Face, then run:
./llama-cli -m model.gguf -p "Hello" -n 128

方法三:vLLM(高效能伺服器)

適合生產環境,支援批次推理和 OpenAI 相容 API。

pip install vllm
vllm serve GLM --dtype auto
ollama run glm4:9b

規格

參數量9B
最大上下文128K tokens
HF 下載量149K/月

模型強項

頂尖中文能力超長上下文多功能對話多語言支援高效能推理

推薦用途

  • 適用於需要處理大量中文文本的應用,如智能客服、內容摘要與分析。
  • 開發具備網頁瀏覽、程式碼執行和工具調用能力的智能助手與自動化流程。
  • 在需要理解和生成多語言內容的場景中,提供高品質的翻譯與跨文化交流。

標籤

中文128K推薦

部署工具

OllamavLLMllama.cpp

使用心得

分享你的使用體驗,幫助其他人了解這個模型

0/1000
還沒有評論,成為第一個分享心得的人!