超越GPT-Realtime-2,阿里语音大模型获三项第一

科技IT
2026 05-22 08:58:38
分享

近日,阿里巴巴语音大模型Fun-Realtime-ASR和Fun-Realtime-AudioChat在全球权威AI评测平台Artificial Analysis登顶,超越GPT-Realtime-2等国际顶尖模型,在“听准(词错误率)”、“听懂(语音推理)”和“会聊(对话流畅度)”三项指标上斩获第一。作为新的人机交互入口,阿里语音大模型家族已深度融入千问App、高德地图、钉钉等应用,提供实时语音转文字、智能导航交互及会议纪要生成等服务。

《超越GPT-Realtime-2,阿里语音大模型获三项第一》

WER(Word Error Rate,词错误率)考察了模型的听写能力,数值越低,识别越精准,Fun-Realtime-ASR1.8% 的 WER 意味着 100 个词中只听错不到 2 个字。目前,该模型支持毫秒级响应,覆盖三十多种语言和七大中文方言体系,可精准识别二十多个地区的口音。同时提供企业级定制接口,支持金融、医疗等行业场景的灵活适配。

《超越GPT-Realtime-2,阿里语音大模型获三项第一》
《超越GPT-Realtime-2,阿里语音大模型获三项第一》

Fun-Realtime-Audiochat模型在Artificial Analysis榜单斩获了两项冠军。其中语音推理能力(Speech Reasoning)考察的是“听懂”——理解语义、逻辑和隐含意图,分数越高,推理能力越强。Fun-Realtime-Audiochat 以 97.6% 登顶,意味着该模型在语音层能高效完成意图判断、情感分析、多步推理等复杂任务,端到端地实现了从声音到智能的跃升。

对话动态(Conversational Dynamics )指标体现了对话的流畅度、“会聊”——模型不只是要把话说对,还要不抢话、被打断后能跟上,或是该回应的不能沉默。97.8% 的得分说明 Fun-Realtime-Audiochat 在处理真实对话中的各种突发情况时,已经接近人类水平。

  • About
  • Latest Posts
超越GPT-Realtime-2,阿里语音大模型获三项第一插图3Latest posts by mingzhi (see all)
  • IDC报告:2026企业级AGI迈入价值决战, Token效能成核心标尺 – 2026年5月21日
  • 超越GPT-Realtime-2,阿里语音大模型获三项第一 – 2026年5月21日
  • PTC Codebeamer替代Hamilton Medical旧系统 – 2026年5月20日

来源:数字经济
The End
免责声明:本文内容来源于第三方或整理自互联网,本站仅提供展示,不拥有所有权,不代表本站观点立场,也不构成任何其他建议,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容,不承担相关法律责任。如发现本站文章、图片等内容有涉及版权/违法违规或其他不适合的内容, 请及时联系我们进行处理。