一款超逼真的文本转语音生成模型：Dia-1.6B，号称超越 ElevenLabs 和 Sesame

aineuos
2025年4月23日
AI开源项目

一款超逼真的文本转语音生成模型：Dia-1.6B，号称超越 ElevenLabs 和 Sesame

访问: 608

仅仅只有 1.6B 参数，能直接从文本生成高度逼真的对话，还支持控制情感和语调，甚至可以生成笑声、咳嗽等非语言声音。

GitHub：http://github.com/nari-labs/dia
模型下载：http://huggingface.co/nari-labs/Dia-1.6B

主要特性：

通过 [S1] 和 [S2] 标签控制生成多角色对话；
支持生成笑声、清嗓子、叹息等非语言表达；
提供声音克隆功能，可复制特定声音风格；
实时生成，A4000 GPU 上约 40 tokens/s。

Dia 直接从文字记录中生成高度逼真的对话。您可以调节音频的输出，从而启用情感和音调控制。该模型还可以产生非语言交流，如大笑、咳嗽、清嗓子等。

为了加快研究速度，我们提供了对预训练模型检查点和推理代码的访问。模型权重托管在 Hugging Face 上。该模型目前仅支持英语生成。

我们还提供了一个演示页面，将我们的模型与 ElevenLabs Studio 和 Sesame CSM-1B 进行比较。

版权声明：本站所有文章版权均归AiNeuOS所有，任何个人、媒体、网站、团体等注明来源后均可以转载。但是不得在非我站的服务器上建立镜像，否则，我站将依法保留追究相关法律责任的权利。

上一篇

火山写作，字节推出的免费AI写作助手

下一篇

开源免费的会议笔记 AI 工具：Hyprnote

aineuos

要发表评论，您必须先登录。