llama.cpp 是純 C/C++ 實現的 LLM 推理引擎,支援 CPU 和 GPU,GGUF 量化格式的標準,GitHub 70k+ stars,MIT 授權。
輕量級 C++ 推理,無需 Python,支援 CPU 和 GPU。
git clone https://github.com/ggerganov/llama.cpp cd llama.cpp # CPU only make # CUDA GPU make GGML_CUDA=1 # Run ./llama-cli -m model.gguf -p "Hello" -n 128
llama.cpp 是一個開源部署工具,採用 MIT 授權。適用場景包括:在資源有限的設備上,實現大型語言模型的本地化部署與高效運行。、開發者利用其 C/C++ 介面,將 LLM 推理功能整合到各種應用中。、對 LLM 進行量化格式 GGUF 的研究與實驗,優化模型運行效率。。核心優勢:CPU 推理、多平台部署、GGUF 支援、輕量高效、開源社群。 可在本地硬體上自行部署,完全保護隱私,無需 API 金鑰。
分享你的使用體驗,幫助其他人了解這個模型