Resemble AI开源Chatterbox TTS 文本转语音模型

aineuos
2025年10月16日2025年10月16日
AI开源项目, AI语言翻译

Resemble AI开源Chatterbox TTS 文本转语音模型

访问: 84

介绍

Chatterbox 生产级开源 TTS 模型，支持 23 种开箱即用语言。Chatterbox 获得麻省理工学院的许可，已与 ElevenLabs 等领先的闭源系统进行了基准测试，并在并排评估中始终受到青睞。

无论您是在制作模因、视频、游戏还是 AI 代理，Chatterbox 都能让您的内容跨语言栩栩如生。它也是第一个通过强大的多语言零样本语音克隆支持情绪夸张控制的开源 TTS 模型。立即在我们的 English Hugging Face Gradio 应用程序上试用纯英文版本。或者在我们的多语言 Hugging Face Gradio 应用程序上尝试多语言版本。

如果您喜欢该模型，但需要扩展或调整它以获得更高的准确性，请查看我们价格具有竞争力的 TTS 服务（链接）。它提供可靠的性能和低于 200 毫秒的超低延迟，非常适合在代理、应用程序或交互式媒体中进行生产使用。

项目地址

GitHub仓库：https://github.com/resemble-ai/chatterbox
在线体验Demo：https://huggingface.co/spaces/ResembleAI/Chatterbox

关键特性

支持23种语言的多语言零样本TTS
SoTA 零样本英语 TTS
0.5B 骆驼骨干
独特的夸张/强度控制
超稳定，具有对齐信息推理功能
使用 0.5M 小时的清理数据进行训练
带水印的输出
简单的语音转换脚本
优于 ElevenLabs

应用场景

内容创作：生成高质量语音，用于视频旁白、音频创作等。
游戏开发：提供实时语音交互，增强游戏沉浸感。
AI助手：作为语音引擎，提升智能助手的交互体验。
教育工具：实现个性化语音教学，辅助语言学习。
多语言内容：快速生成多语言语音，满足全球化需求。

支持语言

阿拉伯语（ar） • 丹麦语（da） • 德语（de） • 希腊语（el） • 英语（en） • 西班牙语（es） • 芬兰语（fi） • 法语（fr） • 希伯来语（he） • 印地语（hi） • 意大利语（it） • 日语（ja） • 韩语（ko） • 马来语（ms） • 荷兰语（nl） • 挪威语（no） • 波兰语（pl） • 葡萄牙语（pt） • 俄语（ru） • 瑞典语（sv） • 斯瓦希里语（sw） • 土耳其语（tr） • 中文（zh）

使用技巧

一般用途（TTS 和语音代理）：
- 确保引用剪辑与指定的语言标签匹配。否则，语言传输输出可能会继承引用剪辑语言的重音。若要缓解此问题，请设置为。cfg_weight0
- 默认设置（，）适用于所有语言的大多数提示。exaggeration=0.5cfg_weight=0.5
- 如果参考扬声器的说话风格很快，降低到周围可以改善节奏。cfg_weight0.3
富有表现力或戏剧性的演讲：
- 尝试较低的值（例如），然后增加到大约或更高。cfg_weight~0.3exaggeration0.7
- 越高往往会加快说话速度;减少有助于通过更慢、更刻意的节奏来补偿。exaggerationcfg_weight

关注公众号：

AiNeuOS-一站式AI工具箱

Resemble AI开源Chatterbox TTS 文本转语音模型

Resemble AI开源Chatterbox TTS 文本转语音模型

上一篇

下一篇

aineuos

发表回复取消回复

Resemble AI开源Chatterbox TTS 文本转语音模型

Resemble AI开源Chatterbox TTS 文本转语音模型

上一篇

下一篇

aineuos

发表回复 取消回复

发表回复取消回复