英伟达开源了一个超强的语音识别模型：Parakeet TDT 0.6B V2，登顶 OpenASR 榜单

访问: 495

parakeet-tdt-0.6b-v2是一个包含 6 亿个参数的自动语音识别（ASR）模型，专为高质量英语转录而设计，支持标点符号、大写和准确的时间戳预测。

模型下载：https://huggingface.co/nvidia/parakeet-tdt-0.6b-v2

在此处尝试演示：https://huggingface.co/spaces/nvidia/parakeet-tdt-0.6b-v2

FastConformer [1] 架构的这种 XL 变体集成了 TDT [2] 解码器，并经过全神贯注的训练，能够一次高效转录长达 24 分钟的音频片段。该模型在 HF-Open-ASR 排行榜上的RTFx为3380，批处理大小为128。注意：RTFx 性能可能因数据集音频持续时间和批量大小而异。

主要特点

准确的单词级时间戳预测
自动标点符号和大小写
在语音数字和歌词转录方面表现出色

应用

此模型为开发人员、研究人员、学者和构建需要语音转文本功能的应用程序的行业提供服务，包括但不限于：对话式 AI、语音助手、转录服务、字幕生成和语音分析平台。

该AI 模型经过设计和/或优化，可在 NVIDIA GPU 加速系统上运行。通过利用 NVIDIA 的硬件（例如 GPU 内核）和软件框架（例如 CUDA 库），与仅使用 CPU 的解决方案相比，该模型实现了更快的训练和推理时间。

排行榜

关注公众号：

AiNeuOS-一站式AI工具箱

英伟达开源了一个超强的语音识别模型：Parakeet TDT 0.6B V2，登顶 OpenASR 榜单

英伟达开源了一个超强的语音识别模型：Parakeet TDT 0.6B V2，登顶 OpenASR 榜单

上一篇

下一篇

aineuos

发表回复取消回复

英伟达开源了一个超强的语音识别模型：Parakeet TDT 0.6B V2，登顶 OpenASR 榜单

英伟达开源了一个超强的语音识别模型：Parakeet TDT 0.6B V2，登顶 OpenASR 榜单

上一篇

下一篇

aineuos

发表回复 取消回复

发表回复取消回复