导语:GPT-5.5再升级;Gemini原生操控屏幕;NSA痛失Mythos;Agent基础设施争夺升温
OpenAI升级GPT-5.5 Instant,强化隐含意图理解与实用推荐,免费用户明日接入
Google将"计算机操作"原生集成至Gemini 3.5 Flash,屏幕操控从实验功能升格为主力模型标配
特朗普政府对Anthropic的出口管制反噬情报机构,NSA失去Mythos访问权
火山引擎发布Agent Ready基础设施,日均Token调用突破180万亿
阿里通义千问发布业界首个原生语言世界模型Qwen-AgentWorld,AgentBench超越GPT-5.4
6月25日,OpenAI宣布对GPT-5.5 Instant进行新一轮升级,重点落在三件事上:理解用户隐含意图、处理多条件复杂约束、提升购物与本地服务推荐的连贯性。付费用户当日即可体验,免费用户将于6月26日接入。

GPT-5.5 Instant三轮迭代回顾
GPT-5.5 Instant是OpenAI目前使用量最大的模型,它的迭代方向比旗舰模型的发布更能反映战略重心。三轮升级每一条在卷参数――全部指向"让模型更懂人、更好用"。这说明头部AI公司在消费级战场的竞争逻辑已经发生改变:参数够用之后,谁能把模型嵌入用户的日常决策链(购物、本地服务、复杂查询),谁就拿到更高的使用频次和粘性。
Gemini原生内置计算机操作,三巨头在"让AI操控屏幕"上会师
6月24日,Google将"计算机操作"功能从专用模型Gemini 2.5 Computer Use剥离,原生整合至主力Flash模型Gemini 3.5 Flash,覆盖浏览器、移动端和桌面三大平台。
将屏幕操控从实验性专用模型升级为主力模型的标准内置工具,标志着Google在AI智能体方向上迈出关键一步。该功能聚焦软件持续测试、跨应用知识工作等长周期企业自动化场景,"观察屏幕→推理操作→执行反馈"的循环机制一旦稳定跑通,大量RPA和人工操作类工作将直面替代压力。

三足鼎立格局
三巨头的殊途同归说明了一个共识:让AI直接操作计算机,不再是可选题,而是智能体的标配。
出口管制反噬NSA:以安全为名的管制如何削弱安全
据《纽约时报》报道,美国国家安全局已无法使用Anthropic的Mythos模型。NSA局长在国会听证会上透露,Mythos"在几小时内就攻破了几乎所有机密系统",这本是该机构最强大的漏洞发现工具。但因特朗普政府6月以国家安全为由对Anthropic实施出口管制,迫使该公司撤回先进模型,NSA反而失去了关键网络安全能力。
这个案例暴露了一个尖锐矛盾――以保护国家安全为名的出口管制,正在削弱国家安全机构的实际防御能力。更深层的问题在于Anthropic与五角大楼在AI军事应用边界上的长期分歧,Anthropic此前已被军方列为"供应链风险"。
目前白宫和情报官员正推动双方达成机密合同,尚未敲定。这一案例为全球AI治理提供了警示:如何在技术创新、商业利益与国家安全之间构建协调机制,而不是让管制政策在各部门之间互相消耗。
6月24日,火山引擎在FORCE原动力大会上发布Agent Ready基础设施,构建AI云与Agent三层架构。

火山引擎Agent Ready核心模块
过去一年,火山引擎豆包大模型日均Token调用量突破180万亿,同比增超10倍。Agent Ready的推出说明火山引擎正从模型能力层向应用落地层延伸,试图在Agent规模化部署中占据企业级入口。
与海外竞品相比,火山引擎的差异化在于深度集成飞书等中国办公生态――这在企业Agent的"最后一公里"落地中可能构成实质壁垒。当海外厂商还在解决"Agent能做什么",国内厂商已经在争夺"Agent在哪用"和"谁管权限"。
6月24日,阿里通义千问团队发布Qwen-AgentWorld,业界首个原生语言世界模型。该模型覆盖MCP、Search、Terminal、SWE、Web、OS、Android七大交互环境,基于超1000万条真实交互轨迹,经CPT→SFT→RL三阶段训练。

同类模型对比
Qwen-AgentWorld的核心突破在于――把环境建模作为预训练阶段的原生目标,而非事后适配通用大模型。它可以同时扮演两种角色:1、解耦环境模拟器(为智能体RL训练提供可控环境);2、统一智能体基础模型(实现跨领域任务迁移)
这一思路为智能体训练开辟了新路径。过去依赖真实环境反复试错的强化学习,成本高、不可控、难复现。如果把"世界模拟+迁移学习"的路线跑通,Agent训练的效率和可扩展性将发生质变。模型和Benchmark已在Hugging Face和ModelScope开源,这对国内Agent研究的复现和推进是实在的利好。
大模型竞争的主轴早已清晰偏移――不再是谁的模型更大,而是谁的模型能做事。
GPT-5.5 Instant的三轮迭代没碰一次参数,全部在打磨"懂人"的能力;Gemini把计算机操作从实验功能变成标配,是在定义"能做事"的基础动作集;火山引擎和Qwen-AgentWorld则从不同方向回答同一个问题:Agent规模化落地需要什么样的基础设施和训练范式。
NSA失去Mythos的故事则是一面镜子――当技术能力领先到可以动摇安全格局,治理机制跟不上时,最先受伤的往往不是竞争对手,而是自己。
接下来的竞争分层:底层是模型能力的持续演进,中层是Agent操控环境的标准化,上层是生态入口和商业闭环。能同时在三层布局的公司,才可能拿到下一阶段的主动权。