🧠 語言模型MoENVIDIA Open Model🔒 需申請存取

Nemotron 3 Super (120B A12B)

NVIDIA Nemotron 3 Super,120B MoE 模型(激活 12B),2026 年 3 月發布,NVIDIA Open Model 授權,128K 上下文,適合企業推理部署。

📅 發布:2025-06資料更新:2026年3月25日

VRAM 計算器

我的 GPU VRAM:
量化等級
上下文長度
Q4_K_M · 8K context
模型權重 + KV Cache + 0.5 GB overhead
76.0 GB
完整 VRAM 對照表(所有量化 × 上下文)
量化1K4K8K16K32K64K128K
FP16 / BF16241.6 GB245.1 GB248.5 GB254.5 GB264.9 GB283.3 GB315.3 GB
Q2_K40.6 GB44.1 GB47.5 GB53.5 GB63.9 GB82.3 GB114.3 GB
Q3_K_M54.1 GB57.6 GB61.0 GB67.0 GB77.4 GB95.8 GB127.8 GB
Q4_K_M69.1 GB72.6 GB76.0 GB82.0 GB92.4 GB110.8 GB142.8 GB
Q5_K_M84.1 GB87.6 GB91.0 GB97.0 GB107.4 GB125.8 GB157.8 GB
Q6_K99.1 GB102.6 GB106.0 GB112.0 GB122.4 GB140.8 GB172.8 GB
Q8_0129.1 GB132.6 GB136.0 GB142.0 GB152.4 GB170.8 GB202.8 GB

部署指南

方法二:llama.cpp

適合進階用戶,支援 CPU 和 GPU 混合推理,可精確控制量化等級。

# Download GGUF model from Hugging Face, then run:
./llama-cli -m model.gguf -p "Hello" -n 128

方法三:vLLM(高效能伺服器)

適合生產環境,支援批次推理和 OpenAI 相容 API。

pip install vllm
vllm serve Nemotron --dtype auto

規格

參數量120B (A12B)
最大上下文128K tokens
HF 下載量350K/月

模型強項

高效能推理超長上下文企業級部署稀疏混合專家

推薦用途

  • 適用於需要處理大量文本資料的企業級應用,如智能客服、內容生成與摘要。
  • 適合在對延遲和吞吐量有高要求的場景下,利用其高效推理能力進行大規模部署。
  • 可用於需要理解和生成超長文檔的任務,例如法律文件分析、技術報告撰寫。

標籤

MoE128K最新NVIDIA

部署工具

vLLMSGLangTensorRT-LLM

使用心得

分享你的使用體驗,幫助其他人了解這個模型

0/1000
還沒有評論,成為第一個分享心得的人!