🔧 部署工具MIT

llama.cpp

llama.cpp 是純 C/C++ 實現的 LLM 推理引擎,支援 CPU 和 GPU,GGUF 量化格式的標準,GitHub 70k+ stars,MIT 授權。

資料更新:2026年5月11日

部署指南

編譯 llama.cpp

輕量級 C++ 推理,無需 Python,支援 CPU 和 GPU。

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp

# CPU only
make

# CUDA GPU
make GGML_CUDA=1

# Run
./llama-cli -m model.gguf -p "Hello" -n 128

規格

參數量
最大上下文

模型強項

CPU 推理多平台部署GGUF 支援輕量高效開源社群

推薦用途

  • 在資源有限的設備上,實現大型語言模型的本地化部署與高效運行。
  • 開發者利用其 C/C++ 介面,將 LLM 推理功能整合到各種應用中。
  • 對 LLM 進行量化格式 GGUF 的研究與實驗,優化模型運行效率。

標籤

部署工具MITCPU 推理GGUF

關於 llama.cpp — 開源 AI 模型

llama.cpp 是一個開源部署工具,採用 MIT 授權。適用場景包括:在資源有限的設備上,實現大型語言模型的本地化部署與高效運行。、開發者利用其 C/C++ 介面,將 LLM 推理功能整合到各種應用中。、對 LLM 進行量化格式 GGUF 的研究與實驗,優化模型運行效率。。核心優勢:CPU 推理、多平台部署、GGUF 支援、輕量高效、開源社群。 可在本地硬體上自行部署,完全保護隱私,無需 API 金鑰。

使用心得

分享你的使用體驗,幫助其他人了解這個模型

0/1000
還沒有評論,成為第一個分享心得的人!