蚂蚁灵波开源世界模型LingBot-World,高保真高动态,毫秒级实时交互

科技IT
2026 01-30 02:58:56
分享

1月29日,继连续发布空间感知与VLA基座模型后,蚂蚁灵波科技再次刷新行业预期,开源发布世界模型LingBot-World。该模型在视频质量、动态程度、长时一致性、交互能力等关键指标上均媲美Google Genie 3,旨在为具身智能、自动驾驶及游戏开发提供高保真、高动态、可实时操控的“数字演练场”。

《蚂蚁灵波开源世界模型LingBot-World,高保真高动态,毫秒级实时交互》

(LingBot-World在适用场景、生成时长、动态程度、分辨率等方面均处于业界顶尖水平)

针对视频生成中最常见的“长时漂移”问题(生成时间一长就可能出现物体变形、细节塌陷、主体消失或场景结构崩坏等现象),LingBot-World通过多阶段训练以及并行化加速,实现了近10分钟的连续稳定无损生成,为长序列、多步骤的复杂任务训练提供支撑。

交互性能上,LingBot-World可实现约16FPS的生成吞吐,并将端到端交互延迟控制在1秒以内。用户可通过键盘或鼠标实时控制角色与相机视角,画面随指令即时反馈。此外,用户可通过文本触发环境变化与世界事件,例如调整天气、改变画面风格或生成特定事件,并在保持场景几何关系相对一致的前提下完成变化。

《蚂蚁灵波开源世界模型LingBot-World,高保真高动态,毫秒级实时交互》

(一致性压力测试,镜头最长移开60秒后返回,目标物体仍存在且结构一致)

《蚂蚁灵波开源世界模型LingBot-World,高保真高动态,毫秒级实时交互》

(高动态环境下,镜头长时间移开后返回,车辆形态外观仍保持一致)

《蚂蚁灵波开源世界模型LingBot-World,高保真高动态,毫秒级实时交互》

(镜头长时间移开后返回,房屋仍存在且结构一致)

模型具备Zero-shot泛化能力,仅需输入一张真实照片(如城市街景)或游戏截图,即可生成可交互的视频流,无需针对单一场景进行额外训练或数据采集,从而降低在不同场景中的部署与使用成本。

为解决世界模型训练中高质量交互数据匮乏的问题,LingBot-World采用了混合采集策略:一方面通过清洗大规模的网络视频以覆盖多样化的场景,另一方面结合游戏采集与虚幻引擎(UE)合成管线,从渲染层直接提取无UI干扰的纯净画面,并同步记录操作指令与相机位姿,为模型学习“动作如何改变环境”提供精确对齐的训练信号。

具身智能的规模化落地面临一个核心挑战——复杂长程任务的真机训练数据极度稀缺。LingBot-World凭借长时序一致性(也即记忆能力)、实时交互响应,以及对”动作-环境变化”因果关系的理解,能够在数字世界中”想象”物理世界,为智能体的场景理解和长程任务执行提供了一个低成本、高保真的试错空间。同时,LingBot-World支持场景多样化生成(如光照、摆放位置变化等),也有助于提升具身智能算法在真实场景中的泛化能力。

随着“灵波”系列连续发布三款具身领域大模型,蚂蚁的AGI战略实现了从数字世界到物理感知的关键延伸。这标志着其“基础模型-通用应用-实体交互”的全栈路径已然清晰。蚂蚁正通过InclusionAI社区将模型全部开源,和行业共建,探索AGI的边界。一个旨在深度融合开源开放并服务于真实场景的AGI生态,正加速成型。

目前,LingBot-World模型权重及推理代码已面向社区开放。

  • About
  • Latest Posts
蚂蚁灵波开源世界模型LingBot-World,高保真高动态,毫秒级实时交互插图4Latest posts by mingzhi (see all)
  • 蚂蚁灵波开源世界模型LingBot-World,高保真高动态,毫秒级实时交互 – 2026年1月29日
  • PTC推出全新Windchill AI零部件优化功能 – 2026年1月28日
  • AI眼镜能付停车费了:小米眼镜联合蚂蚁GPASS上线停车缴费功能 – 2026年1月28日

来源:数字经济
The End
免责声明:本文内容来源于第三方或整理自互联网,本站仅提供展示,不拥有所有权,不代表本站观点立场,也不构成任何其他建议,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容,不承担相关法律责任。如发现本站文章、图片等内容有涉及版权/违法违规或其他不适合的内容, 请及时联系我们进行处理。