Cohere Command R+ 104B,128K 上下文,RAG 和工具使用能力強,多語言支援,需多 GPU 部署(Q4 約 63 GB)。
| 量化 | 4K | 8K | 16K | 32K | 64K | 128K |
|---|---|---|---|---|---|---|
| Q4_K_M★ | 58 GB | 58 GB | 60 GB | 62 GB | 67 GB | 76 GB |
| Q8_0 | 110 GB | 110 GB | 112 GB | 114 GB | 119 GB | 128 GB |
適合進階用戶,支援 CPU 和 GPU 混合推理,可精確控制量化等級。
# Download GGUF model from Hugging Face, then run: ./llama-cli -m model.gguf -p "Hello" -n 128
適合生產環境,支援批次推理和 OpenAI 相容 API。
pip install vllm vllm serve Cohere --dtype auto
Command R+ 是一個開源語言模型,擁有 104B 參數,採用 CC-BY-NC 授權。可使用 vLLM、llama.cpp、SGLang 進行部署。適用場景包括:處理和分析超長文檔,如法律文件或研究報告,進行精準問答與資訊提取。、開發複雜的智能客服或企業級助手,利用RAG和工具調用能力提供精確資訊與自動化任務。、構建多語言內容生成與理解系統,支援全球化業務的資訊處理與交流。。核心優勢:超長上下文、強大RAG能力、多語言處理、工具調用、企業級應用。 可在本地硬體上自行部署,完全保護隱私,無需 API 金鑰。
分享你的使用體驗,幫助其他人了解這個模型