F5-TTS,基於 Flow Matching 的零樣本語音克隆,只需 5 秒參考音頻,生成速度快,支援多語言,HF 月下載 87.3 萬次。
使用 Hugging Face Transformers pipeline 快速整合。
pip install transformers torch
python -c "
from transformers import pipeline
tts = pipeline('text-to-speech', model='https://huggingface.co/SWivid/F5-TTS')
audio = tts('Hello, world!')
# Save audio['audio'] to file"F5-TTS 是一個開源語音處理,擁有 300M 參數,採用 CC BY-NC 4.0 授權。可使用 Python、Gradio 進行部署。適用場景包括:為個人化語音助理或有聲書快速生成多樣化語音內容。、在影音內容創作中,僅需少量音頻即可快速克隆人聲並合成旁白。、開發多語言應用程式,提供即時且自然的語音輸出。。核心優勢:零樣本聲音克隆、快速語音生成、多語言支援、高效語音合成、低參考音頻需求。 可在本地硬體上自行部署,完全保護隱私,無需 API 金鑰。
分享你的使用體驗,幫助其他人了解這個模型