🎤️ 語音處理MIT

Whisper large-v3

OpenAI Whisper large-v3,HF 月下載 1820 萬次,業界最準確的開源語音辨識模型,支援 99 種語言,MIT 授權。

📅 發布:2023-11資料更新:2026年5月11日

VRAM 計算器

我的 GPU VRAM:
量化等級
Q4_K_M · 8K context
模型權重 + KV Cache + 0.5 GB overhead

部署指南

版本:

方法一:Ollama(最簡單)

安裝 Ollama 後直接執行,自動下載並運行模型。

ollama run whisper:large-v3

方法:faster-whisper

基於 CTranslate2 的高速推理,支援 GPU 和 CPU。

pip install faster-whisper
python -c "
from faster_whisper import WhisperModel
model = WhisperModel('Systran/faster-whisper-large-v3', device='cuda', compute_type='float16')
segments, info = model.transcribe('audio.mp3')
for segment in segments:
    print(segment.text)"

方法:whisper.cpp

輕量級 C++ 實作,無需 Python,可在 CPU 上運行。

git clone https://github.com/ggerganov/whisper.cpp
cd whisper.cpp && make

# Download model
bash ./models/download-ggml-model.sh large-v3

# Transcribe
./main -m models/ggml-large-v3.bin -f audio.wav
ollama run whisper:large-v3

規格

參數量1.54B
最大上下文
HF 下載量5.0M/月

模型強項

業界最佳語音辨識多語言支援高準確度開源免費

推薦用途

  • 適用於需要高準確度語音轉文字的應用,如會議記錄、語音助手。
  • 適合開發多語言語音辨識系統,支援全球用戶的語音輸入處理。
  • 可用於音訊內容的自動字幕生成,提升影片或廣播的可訪問性。

標籤

HF 熱門語音辨識MIT推薦多語言

部署工具

faster-whisperwhisper.cppOllama

關於 Whisper large-v3 — 開源 AI 模型

Whisper large-v3 是一個開源語音處理,擁有 1.54B 參數,採用 MIT 授權。可使用 faster-whisper、whisper.cpp、Ollama 進行部署。適用場景包括:適用於需要高準確度語音轉文字的應用,如會議記錄、語音助手。、適合開發多語言語音辨識系統,支援全球用戶的語音輸入處理。、可用於音訊內容的自動字幕生成,提升影片或廣播的可訪問性。。核心優勢:業界最佳語音辨識、多語言支援、高準確度、開源免費。 可在本地硬體上自行部署,完全保護隱私,無需 API 金鑰。

使用心得

分享你的使用體驗,幫助其他人了解這個模型

0/1000
還沒有評論,成為第一個分享心得的人!