OpenAI 最智能 AI 语音模型：GPT_头条资讯

OpenAI 最智能 AI 语音模型：GPT

头条资讯

2026 05-08 18:58:39

导语：OpenAI 发布三款实时语音模型，分别针对推理、翻译和转录场景，集成于 Realtime API 供开发者调用。这三款模型为实时语音应用提供底层技术支撑，目标解决语音交互中的延迟、打断处理和多语言支持难题。

IT之家 5 月 8 日消息，OpenAI 发布三款实时语音模型，分别针对推理、翻译和转录场景，集成于 Realtime API 供开发者调用。这三款模型为实时语音应用提供底层技术支撑，目标解决语音交互中的延迟、打断处理和多语言支持难题。

GPT-Realtime-2 专为实时交互设计，是首款具备 GPT-5 级推理能力的语音模型。它在保持对话自然流畅的前提下，能在对话过程中进行推理、调用工具，并处理用户的打断或纠正。这意味着开发者可以构建更复杂的语音助手，并能执行多步骤任务。

微信图片_20260508140623_1377_338.png

定价方面，GPT-Realtime-2 音频输入定价为每百万 Token 费用 32 美元（IT之家注：现汇率约合 218.1 元人民币），输出为 64 美元（现汇率约合 436.2 元人民币），缓存输入仅需 0.4 美元。

GPT-Realtime-Translate 支持 70 种输入语言转 13 种输出语言，翻译速度与说话者同步，适用于跨国会议或实时沟通场景。

GPT-Realtime-Whisper 则专注于低延迟流式转录，音频随说随转，让实时字幕和会议记录能跟上对话节奏，减少等待时间。翻译和转录模型按分钟计费，分别为每分钟 0.034 美元和 0.017 美元。

The End

免责声明：本文内容来源于第三方或整理自互联网，本站仅提供展示，不拥有所有权，不代表本站观点立场，也不构成任何其他建议，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容,不承担相关法律责任。如发现本站文章、图片等内容有涉及版权/违法违规或其他不适合的内容，请及时联系我们进行处理。

合作/投稿/投诉联系：

微信nvshen2168

关注我们

微信nvshen2168

本站内容来源于第三方或整理自互联网，本站仅提供展示，不拥有所有权，不代表本站观点立场，也不构成任何其他建议，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容,不承担相关法律责任。如发现本站文章、图片等内容有涉及版权/违法违规或其他不适合的内容，请及时联系我们进行处理。
Copyright © 2099 有品科技网 | 备案号：苏ICP备2023036119号-3

|—— TXT地图 | 网站地图