英伟达近期推出开源权重自动语音识别模型Nemotron 3.5 ASR,该模型采用缓存感知流式架构,参数量仅6亿,可实现40个语言地区的实时语音转写,支持用户根据场景需求灵活配置延迟阈值,在消费级硬件上即可实现低延迟推理,为实时字幕、会议转写、智能客服等多场景语音交互落地提供了轻量化高可用的新方案。

近半年来,端侧AI落地竞争持续升温,语音交互作为最高频的人机交互入口,成为科技巨头产品布局的核心赛道,英伟达此次发布的轻量化ASR模型,直接瞄准了行业长期存在的“精度、成本、延迟难以兼顾”的痛点。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录