阿里开源语音识别模型性能炸裂:170倍实时速度、多任务一体,免费可用

2026年5月31日

65

509

阿里开源语音识别模型性能炸裂:170倍实时速度、多任务一体,免费可用

语音识别技术在过去几年经历了飞速发展,从早期的云计算时代逐步向端侧部署演进。然而,高速、高准确率与低成本三者之间的平衡,始终是业界面临的核心挑战。近日,阿里通义实验室开源的FunASR项目引发广泛关注,其最新发布的SenseVoice-Small模型在性能指标上实现了突破性进展,为开发者提供了新的技术选择。

应用场景与适用人群

根据官方披露的技术参数,SenseVoice-Small模型在GPU环境下的推理速度达到170倍实时——这意味着录制1小时的会议音频,仅需约20秒即可完成文字转写。对比行业主流方案,Whisper在GPU上的速度约为13倍实时,而主流云服务商的API通常仅为1倍实时左右。值得注意的是,FunASR在CPU环境下也能达到17倍实时,性能表现甚至优于Whisper在GPU上的运行效率。

技术亮点

从功能集成度来看,FunASR采用多任务一体化设计,内置语音活动检测(VAD)、说话人分离、标点恢复等能力,无需依赖第三方组件即可完成完整的语音处理流程。相比之下,Whisper原生不支持说话人分离功能,如需该能力需接入第三方工具;云服务商的说话人分离功能则通常作为增值服务单独收费。此外,FunASR还支持50多种语言的识别,覆盖范围与Whisper基本持平。

FunASR在CPU上跑得比Whisper在GPU上还快——这不是营销话术,是实打实的跑分数据。

“技术评测”
🦞

JimoClaw — 桌面 AI Agent 工作台

让 AI 处理本地资料、操控浏览器,最终交付可直接使用的文档、表格与 PPT,而不只是一段回答。

下载桌面版

情绪识别能力

SenseVoice模型的独特之处在于其深度语音理解能力。除了基础的语音转文字功能,该模型还能识别说话人的情绪状态(包括高兴、悲伤、愤怒等情感类别),并检测声音事件(如掌声、笑声、背景音乐等)。这一能力在客服质检、情感分析、影视制作等场景中具有重要应用价值。

生态工具与部署

FunASR提供了完善的工具链支持。FunClip工具支持通过关键词在视频中自动定位对应片段并一键裁剪导出,为短视频创作者提供了高效的内容提取方案。在部署层面,开发者仅需一行命令即可启动API服务,自动暴露OpenAI兼容接口,可无缝对接主流AI工作流框架。模型调用代码简洁直观,三行代码即可完成从加载到输出的完整流程。

🛡️

积墨 AI 安全隐患巡检系统

任务一键下达 · 隐患 AI 识别 · 整改全程留痕 · 报告一键生成。让安全巡检真正看得见、管得住、能闭环。

了解方案

如有侵权,请联系删除。

Related Articles

联系我们 免费试用
小墨 AI