Resemble AI开源Chatterbox TTS 文本转语音模型
介绍
Chatterbox 生产级开源 TTS 模型,支持 23 种开箱即用语言。Chatterbox 获得麻省理工学院的许可,已与 ElevenLabs 等领先的闭源系统进行了基准测试,并在并排评估中始终受到青睞。
无论您是在制作模因、视频、游戏还是 AI 代理,Chatterbox 都能让您的内容跨语言栩栩如生。它也是第一个通过强大的多语言零样本语音克隆支持情绪夸张控制的开源 TTS 模型。立即在我们的 English Hugging Face Gradio 应用程序上试用纯英文版本。或者在我们的多语言 Hugging Face Gradio 应用程序上尝试多语言版本。
如果您喜欢该模型,但需要扩展或调整它以获得更高的准确性,请查看我们价格具有竞争力的 TTS 服务(链接)。它提供可靠的性能和低于 200 毫秒的超低延迟,非常适合在代理、应用程序或交互式媒体中进行生产使用。
项目地址
- GitHub仓库:https://github.com/resemble-ai/chatterbox
- 在线体验Demo:https://huggingface.co/spaces/ResembleAI/Chatterbox
关键特性
- 支持23种语言的多语言零样本TTS
- SoTA 零样本英语 TTS
- 0.5B 骆驼骨干
- 独特的夸张/强度控制
- 超稳定,具有对齐信息推理功能
- 使用 0.5M 小时的清理数据进行训练
- 带水印的输出
- 简单的语音转换脚本
- 优于 ElevenLabs
应用场景
- 内容创作:生成高质量语音,用于视频旁白、音频创作等。
- 游戏开发:提供实时语音交互,增强游戏沉浸感。
- AI助手:作为语音引擎,提升智能助手的交互体验。
- 教育工具:实现个性化语音教学,辅助语言学习。
- 多语言内容:快速生成多语言语音,满足全球化需求。
支持语言
阿拉伯语 (ar) • 丹麦语 (da) • 德语 (de) • 希腊语 (el) • 英语 (en) • 西班牙语 (es) • 芬兰语 (fi) • 法语 (fr) • 希伯来语 (he) • 印地语 (hi) • 意大利语 (it) • 日语 (ja) • 韩语 (ko) • 马来语 (ms) • 荷兰语 (nl) • 挪威语 (no) • 波兰语 (pl) • 葡萄牙语 (pt) • 俄语 (ru) • 瑞典语 (sv) • 斯瓦希里语 (sw) • 土耳其语 (tr) • 中文 (zh)
使用技巧
- 一般用途(TTS 和语音代理):
- 确保引用剪辑与指定的语言标签匹配。否则,语言传输输出可能会继承引用剪辑语言的重音。若要缓解此问题,请设置为 。cfg_weight0
- 默认设置 (, ) 适用于所有语言的大多数提示。exaggeration=0.5cfg_weight=0.5
- 如果参考扬声器的说话风格很快,降低到周围可以改善节奏。cfg_weight0.3
- 富有表现力或戏剧性的演讲:
- 尝试较低的值(例如 ),然后增加到大约或更高。cfg_weight~0.3exaggeration0.7
- 越高往往会加快说话速度;减少有助于通过更慢、更刻意的节奏来补偿。exaggerationcfg_weight
版权声明:本站所有文章版权均归AiNeuOS所有,任何个人、媒体、网站、团体等注明来源后均可以转载。但是不得在非我站的服务器上建立镜像,否则,我站将依法保留追究相关法律责任的权利。
关注公众号:
