💻 程式碼MoEApache 2.0

Qwen3-Coder 480B A35B

Qwen3-Coder 480B MoE 程式碼旗艦,480B 總參數激活 35B,Apache 2.0 授權,256K 上下文,程式碼生成能力頂尖,需多機多 GPU 部署。

資料更新:2026年3月25日

VRAM 計算器

我的 GPU VRAM:
量化等級
上下文長度
Q4_K_M · 8K context
模型權重 + KV Cache + 0.5 GB overhead
275.2 GB
完整 VRAM 對照表(所有量化 × 上下文)
量化1K4K8K16K32K64K128K
FP16 / BF16961.2 GB963.2 GB965.2 GB968.7 GB974.9 GB985.6 GB1004.5 GB
Q2_K157.2 GB159.2 GB161.2 GB164.7 GB170.9 GB181.6 GB200.5 GB
Q3_K_M211.2 GB213.2 GB215.2 GB218.7 GB224.9 GB235.6 GB254.5 GB
Q4_K_M271.2 GB273.2 GB275.2 GB278.7 GB284.9 GB295.6 GB314.5 GB
Q5_K_M331.2 GB333.2 GB335.2 GB338.7 GB344.9 GB355.6 GB374.5 GB
Q6_K391.2 GB393.2 GB395.2 GB398.7 GB404.9 GB415.6 GB434.5 GB
Q8_0511.2 GB513.2 GB515.2 GB518.7 GB524.9 GB535.6 GB554.5 GB

部署指南

方法二:llama.cpp

適合進階用戶,支援 CPU 和 GPU 混合推理,可精確控制量化等級。

# Download GGUF model from Hugging Face, then run:
./llama-cli -m model.gguf -p "Hello" -n 128

方法三:vLLM(高效能伺服器)

適合生產環境,支援批次推理和 OpenAI 相容 API。

pip install vllm
vllm serve Qwen3 --dtype auto

規格

參數量480B (A35B)
最大上下文256K tokens
HF 下載量83K/月

模型強項

旗艦程式碼模型超長上下文智能代理編程卓越編碼性能

推薦用途

  • 用於複雜軟體專案的程式碼生成、重構與除錯,提升開發效率。
  • 作為智能代理的核心,執行自動化程式碼開發、測試與部署任務。
  • 處理大型程式碼庫的語義理解與分析,支援跨檔案的程式碼重構建議。

標籤

MoE程式碼256KApache 2.0旗艦

部署工具

vLLMSGLang

使用心得

分享你的使用體驗,幫助其他人了解這個模型

0/1000
還沒有評論,成為第一個分享心得的人!