Qwen3-Coder 480B MoE 程式碼旗艦,480B 總參數激活 35B,Apache 2.0 授權,256K 上下文,程式碼生成能力頂尖,需多機多 GPU 部署。
| 量化 | 1K | 4K | 8K | 16K | 32K | 64K | 128K |
|---|---|---|---|---|---|---|---|
| FP16 / BF16 | 961.2 GB | 963.2 GB | 965.2 GB | 968.7 GB | 974.9 GB | 985.6 GB | 1004.5 GB |
| Q2_K | 157.2 GB | 159.2 GB | 161.2 GB | 164.7 GB | 170.9 GB | 181.6 GB | 200.5 GB |
| Q3_K_M | 211.2 GB | 213.2 GB | 215.2 GB | 218.7 GB | 224.9 GB | 235.6 GB | 254.5 GB |
| Q4_K_M★ | 271.2 GB | 273.2 GB | 275.2 GB | 278.7 GB | 284.9 GB | 295.6 GB | 314.5 GB |
| Q5_K_M | 331.2 GB | 333.2 GB | 335.2 GB | 338.7 GB | 344.9 GB | 355.6 GB | 374.5 GB |
| Q6_K | 391.2 GB | 393.2 GB | 395.2 GB | 398.7 GB | 404.9 GB | 415.6 GB | 434.5 GB |
| Q8_0 | 511.2 GB | 513.2 GB | 515.2 GB | 518.7 GB | 524.9 GB | 535.6 GB | 554.5 GB |
適合進階用戶,支援 CPU 和 GPU 混合推理,可精確控制量化等級。
# Download GGUF model from Hugging Face, then run: ./llama-cli -m model.gguf -p "Hello" -n 128
適合生產環境,支援批次推理和 OpenAI 相容 API。
pip install vllm vllm serve Qwen3 --dtype auto
分享你的使用體驗,幫助其他人了解這個模型