OpenAI Whisper large-v3,HF 月下載 1820 萬次,業界最準確的開源語音辨識模型,支援 99 種語言,MIT 授權。
安裝 Ollama 後直接執行,自動下載並運行模型。
ollama run whisper:large-v3
基於 CTranslate2 的高速推理,支援 GPU 和 CPU。
pip install faster-whisper
python -c "
from faster_whisper import WhisperModel
model = WhisperModel('Systran/faster-whisper-large-v3', device='cuda', compute_type='float16')
segments, info = model.transcribe('audio.mp3')
for segment in segments:
print(segment.text)"輕量級 C++ 實作,無需 Python,可在 CPU 上運行。
git clone https://github.com/ggerganov/whisper.cpp cd whisper.cpp && make # Download model bash ./models/download-ggml-model.sh large-v3 # Transcribe ./main -m models/ggml-large-v3.bin -f audio.wav
ollama run whisper:large-v3Whisper large-v3 是一個開源語音處理,擁有 1.54B 參數,採用 MIT 授權。可使用 faster-whisper、whisper.cpp、Ollama 進行部署。適用場景包括:適用於需要高準確度語音轉文字的應用,如會議記錄、語音助手。、適合開發多語言語音辨識系統,支援全球用戶的語音輸入處理。、可用於音訊內容的自動字幕生成,提升影片或廣播的可訪問性。。核心優勢:業界最佳語音辨識、多語言支援、高準確度、開源免費。 可在本地硬體上自行部署,完全保護隱私,無需 API 金鑰。
分享你的使用體驗,幫助其他人了解這個模型