🎤️ 語音處理Apache 2.0

Qwen3-TTS-1.7B

Qwen3-TTS 1.7B,HF 月下載 108 萬次,Apache 2.0 授權,支援自訂聲音克隆,多語言 TTS,音質自然流暢,8 GB VRAM 可運行。

📅 發布:2026-01資料更新:2026年5月11日

VRAM 計算器

我的 GPU VRAM:
量化等級
上下文長度
Q4_K_M · 8K context
模型權重 + KV Cache + 0.5 GB overhead
1.3 GB
完整 VRAM 對照表(所有量化 × 上下文)
量化4K8K16K32K64K128K
Q4_K_M1.1 GB1.3 GB1.7 GB2.5 GB4.1 GB7.3 GB
Q8_02.0 GB2.2 GB2.6 GB3.4 GB5.0 GB8.2 GB

部署指南

方法:Transformers(Python)

使用 Hugging Face Transformers pipeline 快速整合。

pip install transformers torch
python -c "
from transformers import pipeline
tts = pipeline('text-to-speech', model='https://huggingface.co/Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice')
audio = tts('Hello, world!')
# Save audio['audio'] to file"

方法三:vLLM(高效能伺服器)

適合生產環境,支援批次推理和 OpenAI 相容 API。

pip install vllm
vllm serve Qwen --dtype auto

規格

參數量1.7B
最大上下文128K tokens
HF 下載量1.7M/月

模型強項

多語言語音合成聲音克隆自然流暢音質低VRAM需求語境理解

推薦用途

  • 適用於需要多語言語音輸出的應用,如國際化客服系統或多語種有聲讀物製作。
  • 適合在資源有限的設備上進行語音合成,例如在邊緣設備上實現即時語音播報。
  • 可用於創建個性化語音助手或品牌專屬的語音形象,透過聲音克隆技術提升用戶體驗。

標籤

HF 熱門語音合成Apache 2.0聲音克隆

部署工具

TransformersvLLM

關於 Qwen3-TTS-1.7B — 開源 AI 模型

Qwen3-TTS-1.7B 是一個開源語音處理,擁有 1.7B 參數,採用 Apache 2.0 授權。可使用 Transformers、vLLM 進行部署。適用場景包括:適用於需要多語言語音輸出的應用,如國際化客服系統或多語種有聲讀物製作。、適合在資源有限的設備上進行語音合成,例如在邊緣設備上實現即時語音播報。、可用於創建個性化語音助手或品牌專屬的語音形象,透過聲音克隆技術提升用戶體驗。。核心優勢:多語言語音合成、聲音克隆、自然流暢音質、低VRAM需求、語境理解。 可在本地硬體上自行部署,完全保護隱私,無需 API 金鑰。

使用心得

分享你的使用體驗,幫助其他人了解這個模型

0/1000
還沒有評論,成為第一個分享心得的人!