🧠 語言模型3 版本MIT

DeepSeek R1 Distill (Qwen)

DeepSeek-R1 蒸餾版(Qwen 32B 架構),推理能力接近完整 R1,MIT 授權,Q4 約需 20 GB VRAM,RTX 3090/4090 可運行。

資料更新:2026年3月25日

選擇版本(參數量)

VRAM 計算器

我的 GPU VRAM:
量化等級
上下文長度
Q4_K_M · 8K context
模型權重 + KV Cache + 0.5 GB overhead
1.7 GB
完整 VRAM 對照表(所有量化 × 上下文)
量化1K4K8K16K32K64K128K
FP16 / BF163.5 GB3.7 GB3.8 GB4.1 GB4.6 GB5.4 GB6.8 GB
Q2_K1.0 GB1.2 GB1.3 GB1.6 GB2.1 GB2.9 GB4.3 GB
Q3_K_M1.2 GB1.4 GB1.5 GB1.8 GB2.2 GB3.0 GB4.4 GB
Q4_K_M1.4 GB1.5 GB1.7 GB2.0 GB2.4 GB3.2 GB4.6 GB
Q5_K_M1.6 GB1.7 GB1.9 GB2.1 GB2.6 GB3.4 GB4.8 GB
Q6_K1.8 GB1.9 GB2.1 GB2.3 GB2.8 GB3.6 GB5.0 GB
Q8_02.1 GB2.3 GB2.4 GB2.7 GB3.2 GB4.0 GB5.4 GB

部署指南

方法一:Ollama(最簡單)

安裝 Ollama 後直接執行,自動下載並運行模型。

ollama run deepseek-r1:1.5b

方法二:llama.cpp

適合進階用戶,支援 CPU 和 GPU 混合推理,可精確控制量化等級。

# Download GGUF model from Hugging Face, then run:
./llama-cli -m model.gguf -p "Hello" -n 128

方法三:vLLM(高效能伺服器)

適合生產環境,支援批次推理和 OpenAI 相容 API。

pip install vllm
vllm serve DeepSeek R1 Distill (Qwen) --dtype auto

LM Studio(圖形介面)

下載 LM Studio,在搜尋欄輸入模型名稱,點擊下載即可。支援 Windows/Mac/Linux。

ollama run deepseek-r1:1.5b

規格

參數量1.5B
最大上下文128K tokens
HF 下載量1.9M/月

模型強項

高效推理長上下文處理低VRAM需求開源商用蒸餾模型

推薦用途

  • 在資源有限的硬體上進行高效的文本生成與問答,例如在個人電腦上運行AI助手。
  • 處理需要大量上下文理解的任務,如長篇文檔摘要、程式碼分析或複雜對話管理。

標籤

推理128KMIT蒸餾超輕量

部署工具

Ollamallama.cppLM StudiovLLMSGLang

使用心得

分享你的使用體驗,幫助其他人了解這個模型

0/1000
還沒有評論,成為第一個分享心得的人!