Meta Llama 4 Scout,109B MoE(17B 激活),支援 1M 超長上下文和多模態,比 Maverick 更輕量,可在單機多 GPU 部署。
| 量化 | 1K | 4K | 8K | 16K | 32K | 64K | 128K | 262K |
|---|---|---|---|---|---|---|---|---|
| FP16 / BF16 | 219.2 GB | 221.2 GB | 223.3 GB | 226.9 GB | 233.2 GB | 244.2 GB | 263.4 GB | 297.1 GB |
| Q2_K | 36.6 GB | 38.7 GB | 40.7 GB | 44.3 GB | 50.6 GB | 61.6 GB | 80.8 GB | 114.5 GB |
| Q3_K_M | 48.9 GB | 50.9 GB | 53.0 GB | 56.6 GB | 62.8 GB | 73.8 GB | 93.1 GB | 126.8 GB |
| Q4_K_M★ | 62.5 GB | 64.5 GB | 66.6 GB | 70.2 GB | 76.5 GB | 87.5 GB | 106.7 GB | 140.4 GB |
| Q5_K_M | 76.1 GB | 78.2 GB | 80.2 GB | 83.8 GB | 90.1 GB | 101.1 GB | 120.3 GB | 154.0 GB |
| Q6_K | 89.7 GB | 91.8 GB | 93.8 GB | 97.4 GB | 103.7 GB | 114.7 GB | 134.0 GB | 167.7 GB |
| Q8_0 | 117.0 GB | 119.0 GB | 121.1 GB | 124.7 GB | 131.0 GB | 142.0 GB | 161.2 GB | 194.9 GB |
適合進階用戶,支援 CPU 和 GPU 混合推理,可精確控制量化等級。
# Download GGUF model from Hugging Face, then run: ./llama-cli -m model.gguf -p "Hello" -n 128
適合生產環境,支援批次推理和 OpenAI 相容 API。
pip install vllm vllm serve LLaMA --dtype auto
分享你的使用體驗,幫助其他人了解這個模型