🧠 語言模型MoENVIDIA Open Model🔒 需申請存取

Nemotron 3 Super (120B A12B)

NVIDIA Nemotron 3 Super,120B MoE 模型(激活 12B),2026 年 3 月發布,NVIDIA Open Model 授權,128K 上下文,適合企業推理部署。

📅 發布:2025-06資料更新:2026年5月12日

VRAM 計算器

我的 GPU VRAM:
量化等級
上下文長度
Q4_K_M · 8K context
模型權重 + KV Cache + 0.5 GB overhead
7.4 GB
完整 VRAM 對照表(所有量化 × 上下文)
量化4K8K16K32K64K128K
Q4_K_M7.0 GB7.4 GB8.2 GB9.8 GB13 GB19 GB
Q8_013 GB13 GB14 GB16 GB19 GB25 GB

部署指南

方法二:llama.cpp

適合進階用戶,支援 CPU 和 GPU 混合推理,可精確控制量化等級。

# Download GGUF model from Hugging Face, then run:
./llama-cli -m model.gguf -p "Hello" -n 128

方法三:vLLM(高效能伺服器)

適合生產環境,支援批次推理和 OpenAI 相容 API。

pip install vllm
vllm serve Nemotron --dtype auto

規格

參數量120B (A12B)
最大上下文128K tokens
HF 下載量893K/月

模型強項

高效能推理超長上下文企業級部署稀疏混合專家

推薦用途

  • 適用於需要處理大量文本資料的企業級應用,如智能客服、內容生成與摘要。
  • 適合在對延遲和吞吐量有高要求的場景下,利用其高效推理能力進行大規模部署。
  • 可用於需要理解和生成超長文檔的任務,例如法律文件分析、技術報告撰寫。

標籤

MoE128K最新NVIDIA

部署工具

vLLMSGLangTensorRT-LLM

關於 Nemotron 3 Super (120B A12B) — 開源 AI 模型

Nemotron 3 Super (120B A12B) 是一個開源語言模型,擁有 120B (A12B) 參數,採用 NVIDIA Open Model 授權。可使用 vLLM、SGLang、TensorRT-LLM 進行部署。適用場景包括:適用於需要處理大量文本資料的企業級應用,如智能客服、內容生成與摘要。、適合在對延遲和吞吐量有高要求的場景下,利用其高效推理能力進行大規模部署。、可用於需要理解和生成超長文檔的任務,例如法律文件分析、技術報告撰寫。。核心優勢:高效能推理、超長上下文、企業級部署、稀疏混合專家。 可在本地硬體上自行部署,完全保護隱私,無需 API 金鑰。

使用心得

分享你的使用體驗,幫助其他人了解這個模型

0/1000
還沒有評論,成為第一個分享心得的人!