一款超逼真的文本转语音生成模型:Dia-1.6B,号称超越 ElevenLabs 和 Sesame
仅仅只有 1.6B 参数,能直接从文本生成高度逼真的对话,还支持控制情感和语调,甚至可以生成笑声、咳嗽等非语言声音。
GitHub:http://github.com/nari-labs/dia
模型下载:http://huggingface.co/nari-labs/Dia-1.6B
主要特性:
- 通过 [S1] 和 [S2] 标签控制生成多角色对话;
- 支持生成笑声、清嗓子、叹息等非语言表达;
- 提供声音克隆功能,可复制特定声音风格;
- 实时生成,A4000 GPU 上约 40 tokens/s。
Dia 直接从文字记录中生成高度逼真的对话。您可以调节音频的输出,从而启用情感和音调控制。该模型还可以产生非语言交流,如大笑、咳嗽、清嗓子等。
为了加快研究速度,我们提供了对预训练模型检查点和推理代码的访问。模型权重托管在 Hugging Face 上。该模型目前仅支持英语生成。
我们还提供了一个演示页面,将我们的模型与 ElevenLabs Studio 和 Sesame CSM-1B 进行比较。

版权声明:本站所有文章版权均归AiNeuOS所有,任何个人、媒体、网站、团体等注明来源后均可以转载。但是不得在非我站的服务器上建立镜像,否则,我站将依法保留追究相关法律责任的权利。