FunAudio-ASR模型在复杂环境中的实测表现

2025年9月16日

75

453

阿里推出FunAudio-ASR语音识别大模型,幻觉率下降70%

在新一代语音识别技术不断演进的背景下,阿里巴巴的通义实验室于9月15日推出了全新的FunAudio-ASR端到端语音识别大模型,该模型致力于解决语音识别中的若干关键挑战。

幻觉与串语种问题的优化

该模型通过创新的Context模块,仅在高噪声场景中,幻觉率便从78.5%降至10.7%。它利用数千万小时的音频数据,提升了语音识别的上下文一致性,从而有效应对串语种问题。

多维性能测试与行业对比

通义实验室针对模型在远场及嘈杂环境下的表现进行了系统评估,FunAudio-ASR展示了超越行业标杆Seed-ASR和KimiAudio-8B的能力,显示了其在复杂场景中的应用潜力。

生成式AI赋能新一代ASR系统,或成智能交互重要入口。

“小墨”

实用化功能与个性化定制化

该模型支持低延迟流式识别和用户可自定义的热词识别,能够有效应用于视频会议和实时字幕等场景,为企业用户提供更高效的语音处理解决方案。

强大的预训练与高效的强化学习

FunAudio-ASR在预训练阶段使用了大量数据,并通过专门的FunRL框架进行高效训练,确保在困难环境下保持语音识别的高足率与用户体验优化。

如有侵权,请联系删除。

体验企业级AI服务

联系产品经理,扫描下方企业微信二维码

image
image

Related Articles

联系我们预约演示
小墨 AI