🧠 語言模型MoELlama 4

Llama 4 Scout

Meta Llama 4 Scout,109B MoE(17B 激活),支援 1M 超長上下文和多模態,比 Maverick 更輕量,可在單機多 GPU 部署。

📅 發布:2025-04資料更新:2026年3月25日

VRAM 計算器

我的 GPU VRAM:
量化等級
上下文長度
Q4_K_M · 8K context
模型權重 + KV Cache + 0.5 GB overhead
66.6 GB
完整 VRAM 對照表(所有量化 × 上下文)
量化1K4K8K16K32K64K128K262K
FP16 / BF16219.2 GB221.2 GB223.3 GB226.9 GB233.2 GB244.2 GB263.4 GB297.1 GB
Q2_K36.6 GB38.7 GB40.7 GB44.3 GB50.6 GB61.6 GB80.8 GB114.5 GB
Q3_K_M48.9 GB50.9 GB53.0 GB56.6 GB62.8 GB73.8 GB93.1 GB126.8 GB
Q4_K_M62.5 GB64.5 GB66.6 GB70.2 GB76.5 GB87.5 GB106.7 GB140.4 GB
Q5_K_M76.1 GB78.2 GB80.2 GB83.8 GB90.1 GB101.1 GB120.3 GB154.0 GB
Q6_K89.7 GB91.8 GB93.8 GB97.4 GB103.7 GB114.7 GB134.0 GB167.7 GB
Q8_0117.0 GB119.0 GB121.1 GB124.7 GB131.0 GB142.0 GB161.2 GB194.9 GB

部署指南

方法二:llama.cpp

適合進階用戶,支援 CPU 和 GPU 混合推理,可精確控制量化等級。

# Download GGUF model from Hugging Face, then run:
./llama-cli -m model.gguf -p "Hello" -n 128

方法三:vLLM(高效能伺服器)

適合生產環境,支援批次推理和 OpenAI 相容 API。

pip install vllm
vllm serve LLaMA --dtype auto

規格

參數量109B (A17B)
最大上下文1.024M tokens
HF 下載量241K/月

模型強項

超長上下文多模態理解高效能MoE單機部署

推薦用途

  • 處理和分析超長文檔,例如法律合同、學術論文或技術手冊,進行資訊提取和摘要。
  • 整合文字與圖像資訊,進行複雜的內容創作、多模態問答或視覺輔助的決策支援。

標籤

MoE1M 上下文多模態

部署工具

vLLMSGLangllama.cpp

使用心得

分享你的使用體驗,幫助其他人了解這個模型

0/1000
還沒有評論,成為第一個分享心得的人!