🎤️ 語音處理Apache 2.0

Dia-1.6B

Dia-1.6B,Nari Labs 開源 TTS,支援多說話人對話生成,可生成笑聲、嘆氣等非語言聲音,Apache 2.0 授權,8 GB VRAM。

📅 發布:2025-04資料更新:2026年5月11日

VRAM 計算器

我的 GPU VRAM:
量化等級
Q4_K_M · 8K context
模型權重 + KV Cache + 0.5 GB overhead

部署指南

方法:Transformers(Python)

使用 Hugging Face Transformers pipeline 快速整合。

pip install transformers torch
python -c "
from transformers import pipeline
tts = pipeline('text-to-speech', model='https://huggingface.co/nari-labs/Dia-1.6B')
audio = tts('Hello, world!')
# Save audio['audio'] to file"

規格

參數量1.6B
最大上下文
HF 下載量67K/月

模型強項

多角色對話非語言音效情感語氣控制高擬真語音

推薦用途

  • 用於遊戲、動畫或虛擬助理中,生成具備情感與非語言音效的自然對話。
  • 開發多角色語音互動應用,實現更生動、逼真的語音體驗。

標籤

語音合成Apache 2.0對話式

部署工具

PythonTransformers

關於 Dia-1.6B — 開源 AI 模型

Dia-1.6B 是一個開源語音處理,擁有 1.6B 參數,採用 Apache 2.0 授權。可使用 Python、Transformers 進行部署。適用場景包括:用於遊戲、動畫或虛擬助理中,生成具備情感與非語言音效的自然對話。、開發多角色語音互動應用,實現更生動、逼真的語音體驗。。核心優勢:多角色對話、非語言音效、情感語氣控制、高擬真語音。 可在本地硬體上自行部署,完全保護隱私,無需 API 金鑰。

使用心得

分享你的使用體驗,幫助其他人了解這個模型

0/1000
還沒有評論,成為第一個分享心得的人!