让文本转语音完全在浏览器本地运行,开源项目 Streaming-KokoroJS

让文本转语音完全在浏览器本地运行,开源项目 Streaming-KokoroJS

演示地址:https://rhulha.github.io/StreamingKokoroJS/

项目地址:https://github.com/rhulha/StreamingKokoroJS

概述

Streaming-Kokoro 是一个基于 Web 的文本转语音应用程序,它利用 Kokoro-82M 模型完全在浏览器中生成高质量的语音音频。该应用程序完全在浏览器中运行,无需任何服务器端处理或 API 调用,从而确保隐私和离线功能。

特征

  • 100% 客户端处理: 所有文本到语音转换都在您的浏览器中本地进行
  • WebGPU 加速:在可用时自动使用 WebGPU 进行更快的处理,并带有 WASM 回退
  • 流式音频生成:以块的形式处理文本,并在生成音频时流式音频
  • 智能文本分块:智能拆分文本以保持自然的语音模式
  • 多种语音风格:支持不同语言的各种语音风格
  • Audio Download:将生成的音频保存到磁盘
  • 完全开源:每个组件都是开源的,可以免费使用

技术细节

  • 使用 Kokoro-82M-v1.0-ONNX 模型(~300MB,首次加载后缓存)
  • 在语音生成期间使用 Web Worker 实现非阻塞 UI
  • 自动检测硬件功能并选择最佳处理模式:
    • 兼容浏览器/设备上的 WebGPU 加速
    • WebAssembly (WASM) 在其他设备上的回退
  • 采样率:24kHz 用于高质量音频输出

关注公众号:

发表回复