今日科技观察|GPT

头条资讯
2026 06-25 21:58:52
分享

导语:GPT-5.5再升级;Gemini原生操控屏幕;NSA痛失Mythos;Agent基础设施争夺升温

【资讯速览】

      • OpenAI升级GPT-5.5 Instant,强化隐含意图理解与实用推荐,免费用户明日接入

      • Google将"计算机操作"原生集成至Gemini 3.5 Flash,屏幕操控从实验功能升格为主力模型标配

      • 特朗普政府对Anthropic的出口管制反噬情报机构,NSA失去Mythos访问权

      • 火山引擎发布Agent Ready基础设施,日均Token调用突破180万亿

      • 阿里通义千问发布业界首个原生语言世界模型Qwen-AgentWorld,AgentBench超越GPT-5.4

      • GPT-5.5 Instant三轮迭代,头部AI从参数竞赛转向"更懂人"

      6月25日,OpenAI宣布对GPT-5.5 Instant进行新一轮升级,重点落在三件事上:理解用户隐含意图、处理多条件复杂约束、提升购物与本地服务推荐的连贯性。付费用户当日即可体验,免费用户将于6月26日接入。

      屏幕截图 2026-06-25 160650.png

      GPT-5.5 Instant三轮迭代回顾

      GPT-5.5 Instant是OpenAI目前使用量最大的模型,它的迭代方向比旗舰模型的发布更能反映战略重心。三轮升级每一条在卷参数――全部指向"让模型更懂人、更好用"。这说明头部AI公司在消费级战场的竞争逻辑已经发生改变:参数够用之后,谁能把模型嵌入用户的日常决策链(购物、本地服务、复杂查询),谁就拿到更高的使用频次和粘性。

      Gemini原生内置计算机操作,三巨头在"让AI操控屏幕"上会师

      6月24日,Google将"计算机操作"功能从专用模型Gemini 2.5 Computer Use剥离,原生整合至主力Flash模型Gemini 3.5 Flash,覆盖浏览器、移动端和桌面三大平台。

      将屏幕操控从实验性专用模型升级为主力模型的标准内置工具,标志着Google在AI智能体方向上迈出关键一步。该功能聚焦软件持续测试、跨应用知识工作等长周期企业自动化场景,"观察屏幕→推理操作→执行反馈"的循环机制一旦稳定跑通,大量RPA和人工操作类工作将直面替代压力。

      屏幕截图 2026-06-25 151842.png

      三足鼎立格局

      三巨头的殊途同归说明了一个共识:让AI直接操作计算机,不再是可选题,而是智能体的标配。

      出口管制反噬NSA:以安全为名的管制如何削弱安全

      据《纽约时报》报道,美国国家安全局已无法使用Anthropic的Mythos模型。NSA局长在国会听证会上透露,Mythos"在几小时内就攻破了几乎所有机密系统",这本是该机构最强大的漏洞发现工具。但因特朗普政府6月以国家安全为由对Anthropic实施出口管制,迫使该公司撤回先进模型,NSA反而失去了关键网络安全能力。

      这个案例暴露了一个尖锐矛盾――以保护国家安全为名的出口管制,正在削弱国家安全机构的实际防御能力。更深层的问题在于Anthropic与五角大楼在AI军事应用边界上的长期分歧,Anthropic此前已被军方列为"供应链风险"。

      目前白宫和情报官员正推动双方达成机密合同,尚未敲定。这一案例为全球AI治理提供了警示:如何在技术创新、商业利益与国家安全之间构建协调机制,而不是让管制政策在各部门之间互相消耗。

      • 火山引擎Agent Ready:180万亿Token日调用量背后的规模化野心

      6月24日,火山引擎在FORCE原动力大会上发布Agent Ready基础设施,构建AI云与Agent三层架构。

      屏幕截图 2026-06-25 151752.png

      火山引擎Agent Ready核心模块

      过去一年,火山引擎豆包大模型日均Token调用量突破180万亿,同比增超10倍。Agent Ready的推出说明火山引擎正从模型能力层向应用落地层延伸,试图在Agent规模化部署中占据企业级入口。

      与海外竞品相比,火山引擎的差异化在于深度集成飞书等中国办公生态――这在企业Agent的"最后一公里"落地中可能构成实质壁垒。当海外厂商还在解决"Agent能做什么",国内厂商已经在争夺"Agent在哪用"和"谁管权限"。

      • Qwen-AgentWorld:用"世界模型"思路重构Agent训练范式

      6月24日,阿里通义千问团队发布Qwen-AgentWorld,业界首个原生语言世界模型。该模型覆盖MCP、Search、Terminal、SWE、Web、OS、Android七大交互环境,基于超1000万条真实交互轨迹,经CPT→SFT→RL三阶段训练。

      屏幕截图 2026-06-25 151735.png

      同类模型对比

      Qwen-AgentWorld的核心突破在于――把环境建模作为预训练阶段的原生目标,而非事后适配通用大模型。它可以同时扮演两种角色:1、解耦环境模拟器(为智能体RL训练提供可控环境);2、统一智能体基础模型(实现跨领域任务迁移)

      这一思路为智能体训练开辟了新路径。过去依赖真实环境反复试错的强化学习,成本高、不可控、难复现。如果把"世界模拟+迁移学习"的路线跑通,Agent训练的效率和可扩展性将发生质变。模型和Benchmark已在Hugging Face和ModelScope开源,这对国内Agent研究的复现和推进是实在的利好。

      • 结语

      大模型竞争的主轴早已清晰偏移――不再是谁的模型更大,而是谁的模型能做事。

      GPT-5.5 Instant的三轮迭代没碰一次参数,全部在打磨"懂人"的能力;Gemini把计算机操作从实验功能变成标配,是在定义"能做事"的基础动作集;火山引擎和Qwen-AgentWorld则从不同方向回答同一个问题:Agent规模化落地需要什么样的基础设施和训练范式。

      NSA失去Mythos的故事则是一面镜子――当技术能力领先到可以动摇安全格局,治理机制跟不上时,最先受伤的往往不是竞争对手,而是自己。

      接下来的竞争分层:底层是模型能力的持续演进,中层是Agent操控环境的标准化,上层是生态入口和商业闭环。能同时在三层布局的公司,才可能拿到下一阶段的主动权。

      The End
      免责声明:本文内容来源于第三方或整理自互联网,本站仅提供展示,不拥有所有权,不代表本站观点立场,也不构成任何其他建议,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容,不承担相关法律责任。如发现本站文章、图片等内容有涉及版权/违法违规或其他不适合的内容, 请及时联系我们进行处理。