让文本转语音完全在浏览器本地运行,开源项目 Streaming-KokoroJS
演示地址:https://rhulha.github.io/StreamingKokoroJS/
项目地址:https://github.com/rhulha/StreamingKokoroJS

概述
Streaming-Kokoro 是一个基于 Web 的文本转语音应用程序,它利用 Kokoro-82M 模型完全在浏览器中生成高质量的语音音频。该应用程序完全在浏览器中运行,无需任何服务器端处理或 API 调用,从而确保隐私和离线功能。
特征
- 100% 客户端处理: 所有文本到语音转换都在您的浏览器中本地进行
- WebGPU 加速:在可用时自动使用 WebGPU 进行更快的处理,并带有 WASM 回退
- 流式音频生成:以块的形式处理文本,并在生成音频时流式音频
- 智能文本分块:智能拆分文本以保持自然的语音模式
- 多种语音风格:支持不同语言的各种语音风格
- Audio Download:将生成的音频保存到磁盘
- 完全开源:每个组件都是开源的,可以免费使用
技术细节
- 使用 Kokoro-82M-v1.0-ONNX 模型(~300MB,首次加载后缓存)
- 在语音生成期间使用 Web Worker 实现非阻塞 UI
- 自动检测硬件功能并选择最佳处理模式:
- 兼容浏览器/设备上的 WebGPU 加速
- WebAssembly (WASM) 在其他设备上的回退
- 采样率:24kHz 用于高质量音频输出
版权声明:本站所有文章版权均归AiNeuOS所有,任何个人、媒体、网站、团体等注明来源后均可以转载。但是不得在非我站的服务器上建立镜像,否则,我站将依法保留追究相关法律责任的权利。
关注公众号:
