MiniMax M2.1,2025 年 12 月發布,230B MoE 模型,支援 1M token 上下文,GPQA 84.5%,SWE-bench 60.2%,Code Arena 51.0%。
| 量化 | 4K | 8K | 16K | 32K | 64K | 128K |
|---|---|---|---|---|---|---|
| Q4_K_M★ | 127 GB | 128 GB | 129 GB | 131 GB | 136 GB | 146 GB |
| Q8_0 | 242 GB | 243 GB | 244 GB | 246 GB | 251 GB | 261 GB |
適合進階用戶,支援 CPU 和 GPU 混合推理,可精確控制量化等級。
# Download GGUF model from Hugging Face, then run: ./llama-cli -m model.gguf -p "Hello" -n 128
適合生產環境,支援批次推理和 OpenAI 相容 API。
pip install vllm vllm serve MiniMax --dtype auto
MiniMax M2.1 是一個開源語言模型,擁有 230B 參數,採用 MiniMax 授權。可使用 vLLM、SGLang 進行部署。適用場景包括:處理和理解超長文件內容,如法律條文、學術論文等,進行摘要、問答與分析。、複雜程式碼的生成、除錯與優化,特別適用於需要高準確性和長程式碼上下文的開發任務。。核心優勢:旗艦級性能、超長上下文、程式碼能力、高推理準確性、MoE高效能。 可在本地硬體上自行部署,完全保護隱私,無需 API 金鑰。
分享你的使用體驗,幫助其他人了解這個模型