Meta Llama 4 Maverick,400B MoE(17B 激活),支援 1M 超長上下文和多模態輸入,在開源模型中性能頂尖。
| 量化 | 1K | 4K | 8K | 16K | 32K | 64K | 128K | 262K |
|---|---|---|---|---|---|---|---|---|
| FP16 / BF16 | 801.2 GB | 803.2 GB | 805.3 GB | 808.9 GB | 815.2 GB | 826.2 GB | 845.4 GB | 879.1 GB |
| Q2_K | 131.2 GB | 133.2 GB | 135.3 GB | 138.9 GB | 145.2 GB | 156.2 GB | 175.4 GB | 209.1 GB |
| Q3_K_M | 176.2 GB | 178.2 GB | 180.3 GB | 183.9 GB | 190.2 GB | 201.2 GB | 220.4 GB | 254.1 GB |
| Q4_K_M★ | 226.2 GB | 228.2 GB | 230.3 GB | 233.9 GB | 240.2 GB | 251.2 GB | 270.4 GB | 304.1 GB |
| Q5_K_M | 276.2 GB | 278.2 GB | 280.3 GB | 283.9 GB | 290.2 GB | 301.2 GB | 320.4 GB | 354.1 GB |
| Q6_K | 326.2 GB | 328.2 GB | 330.3 GB | 333.9 GB | 340.2 GB | 351.2 GB | 370.4 GB | 404.1 GB |
| Q8_0 | 426.2 GB | 428.2 GB | 430.3 GB | 433.9 GB | 440.2 GB | 451.2 GB | 470.4 GB | 504.1 GB |
適合進階用戶,支援 CPU 和 GPU 混合推理,可精確控制量化等級。
# Download GGUF model from Hugging Face, then run: ./llama-cli -m model.gguf -p "Hello" -n 128
適合生產環境,支援批次推理和 OpenAI 相容 API。
pip install vllm vllm serve LLaMA --dtype auto
分享你的使用體驗,幫助其他人了解這個模型