英伟达开源了一个超强的语音识别模型:Parakeet TDT 0.6B V2,登顶 OpenASR 榜单

英伟达开源了一个超强的语音识别模型:Parakeet TDT 0.6B V2,登顶 OpenASR 榜单

parakeet-tdt-0.6b-v2是一个包含 6 亿个参数的自动语音识别 (ASR) 模型,专为高质量英语转录而设计,支持标点符号、大写和准确的时间戳预测。

模型下载:https://huggingface.co/nvidia/parakeet-tdt-0.6b-v2

在此处尝试演示:https://huggingface.co/spaces/nvidia/parakeet-tdt-0.6b-v2

FastConformer [1] 架构的这种 XL 变体集成了 TDT [2] 解码器,并经过全神贯注的训练,能够一次高效转录长达 24 分钟的音频片段。该模型在 HF-Open-ASR 排行榜上的RTFx为3380,批处理大小为128。注意:RTFx 性能可能因数据集音频持续时间和批量大小而异。

主要特点

  • 准确的单词级时间戳预测
  • 自动标点符号和大小写
  • 在语音数字和歌词转录方面表现出色

应用

此模型为开发人员、研究人员、学者和构建需要语音转文本功能的应用程序的行业提供服务,包括但不限于:对话式 AI、语音助手、转录服务、字幕生成和语音分析平台。

该AI 模型经过设计和/或优化,可在 NVIDIA GPU 加速系统上运行。通过利用 NVIDIA 的硬件(例如 GPU 内核)和软件框架(例如 CUDA 库),与仅使用 CPU 的解决方案相比,该模型实现了更快的训练和推理时间。

排行榜

版权声明:本站所有文章版权均归AiNeuOS所有,任何个人、媒体、网站、团体等注明来源后均可以转载。但是不得在非我站的服务器上建立镜像,否则,我站将依法保留追究相关法律责任的权利。

关注公众号:

发表回复