MiniMax M2.5,2026 年 2 月發布,230B MoE 模型,支援超長 1M token 上下文,GPQA 80.2%,SWE-bench 76.3%,旗艦開源模型。
| 量化 | 4K | 8K | 16K | 32K | 64K | 128K |
|---|---|---|---|---|---|---|
| Q4_K_M★ | 127 GB | 128 GB | 129 GB | 131 GB | 136 GB | 146 GB |
| Q8_0 | 242 GB | 243 GB | 244 GB | 246 GB | 251 GB | 261 GB |
適合進階用戶,支援 CPU 和 GPU 混合推理,可精確控制量化等級。
# Download GGUF model from Hugging Face, then run: ./llama-cli -m model.gguf -p "Hello" -n 128
適合生產環境,支援批次推理和 OpenAI 相容 API。
pip install vllm vllm serve MiniMax --dtype auto
MiniMax M2.5 是一個開源語言模型,擁有 230B 參數,採用 MiniMax 授權。可使用 vLLM、SGLang 進行部署。適用場景包括:處理和分析極長文件,如法律合同、研究論文或書籍內容,進行摘要與問答。、作為進階程式碼開發助手,進行複雜的程式碼生成、錯誤偵測與修復,提升開發效率。、用於需要高精確度推理的任務,如學術研究、科學計算或專業知識問答系統。。核心優勢:超長上下文、旗艦性能、MoE架構、高準確度、程式碼能力。 可在本地硬體上自行部署,完全保護隱私,無需 API 金鑰。
分享你的使用體驗,幫助其他人了解這個模型