英伟达开源了一个超强的语音识别模型:Parakeet TDT 0.6B V2,登顶 OpenASR 榜单
parakeet-tdt-0.6b-v2
是一个包含 6 亿个参数的自动语音识别 (ASR) 模型,专为高质量英语转录而设计,支持标点符号、大写和准确的时间戳预测。
模型下载:https://huggingface.co/nvidia/parakeet-tdt-0.6b-v2
在此处尝试演示:https://huggingface.co/spaces/nvidia/parakeet-tdt-0.6b-v2
FastConformer [1] 架构的这种 XL 变体集成了 TDT [2] 解码器,并经过全神贯注的训练,能够一次高效转录长达 24 分钟的音频片段。该模型在 HF-Open-ASR 排行榜上的RTFx为3380,批处理大小为128。注意:RTFx 性能可能因数据集音频持续时间和批量大小而异。
主要特点
- 准确的单词级时间戳预测
- 自动标点符号和大小写
- 在语音数字和歌词转录方面表现出色
应用
此模型为开发人员、研究人员、学者和构建需要语音转文本功能的应用程序的行业提供服务,包括但不限于:对话式 AI、语音助手、转录服务、字幕生成和语音分析平台。
该AI 模型经过设计和/或优化,可在 NVIDIA GPU 加速系统上运行。通过利用 NVIDIA 的硬件(例如 GPU 内核)和软件框架(例如 CUDA 库),与仅使用 CPU 的解决方案相比,该模型实现了更快的训练和推理时间。
排行榜

版权声明:本站所有文章版权均归AiNeuOS所有,任何个人、媒体、网站、团体等注明来源后均可以转载。但是不得在非我站的服务器上建立镜像,否则,我站将依法保留追究相关法律责任的权利。
关注公众号:
