让Agent越用越强:AReaL v1.0稳定版开源,一键接入强化学习训练

科技IT
2026 03-07 01:59:08
分享

3 月 4 日,蚂蚁集团联合清华大学发布开源强化学习训练框架 AReaL v1.0 稳定版。该版本主打“Agent 一键接入 RL 训练”:不用改代码,兼容各类 Agent 框架,让智能体强化学习训练开箱即用。

2026 年开年以来,Agent 持续升温,以 LangChain、Claude Code、OpenClaw 为代表的智能体框架繁荣发展,但也暴露出两大瓶颈。一是接入训练成本高:现有智能体框架接口各异,每接入一个往往需要编写整套适配代码。二是 Agent 缺乏持续进化的能力:多数 Agent 的能力取决于底层模型在训练阶段习得的固定权重,部署后无法再针对特定场景持续优化,能力上限在交付时便已确定。

AReaL 是首个全异步训推解耦的大模型强化学习训练系统,能让 Agent 在真实任务交互中获得反馈、持续优化决策。此次发布的 v1.0 版本让任意 Agent 零改造接入 RL 训练成为现实——通过在智能体与训练系统之间加入 Proxy Worker 中转层,开发者只需修改一个请求地址即可接入训练。

《让Agent越用越强:AReaL v1.0稳定版开源,一键接入强化学习训练》

AReaL 无缝接入智能体的异步训练架构

以当前大热的 OpenClaw 为例,开发者只需在 OpenClaw 配置文件中将 base_url 和 api_key 指向 AReaL 网关,就能让自己的 OpenClaw 接入强化学习训练。智能体像往常一样执行任务,用户周期性给 Agent 完成任务的情况打分,AReaL 在后台自动完成训练数据的采集与模型的更新,在持续使用的过程中让智能体自动进化。

AReaL v1.0 还推出了原生训练引擎 Archon,它是基于 PyTorch 原生能力实现完整的 5D 并行(数据并行、流水线并行、张量并行、上下文并行、专家并行),降低了安装与调试门槛,同时在训练与推理侧提供多种后端选择,便于在不同环境中灵活部署。令人惊讶的是,这样一个复杂的分布式系统,从零开始实现到验证正确性,仅用了 1 人·月的工作量——32 天内,累计修改近百万行代码完整实现了 Archon 引擎,让它能训练千亿参数 MoE 模型。

创造这一效率奇迹的秘诀在于AReaL集成的一整套AI辅助开发体系,实现了复杂工程开发的高度自动化。

《让Agent越用越强:AReaL v1.0稳定版开源,一键接入强化学习训练》

AReaL v1.0 引入的 AI 辅助开发流程,为开发者提供了从规划、编码、校验到 PR 创建的全链路支持。尤其是在处理 MoE 并行、内存优化、算法实现等核心模块时,专属的 AI 编程助手会像一位资深专家,在代码变更时及时出现并提供针对性指导,为每一次代码变更保驾护航,有效降低了开发和维护的门槛。AReaL 的 AI 辅助编程不只是提效工具,更能在复杂基础设施工程中承担“可交付”的研发工作,引领了下一代 AI 基础设施工程范式的革新。

AReaL 团队表示,将继续围绕训练引擎、易用性和多模态智能体训练等方向迭代。目前 AReaL v1.0 的代码与文档已在 inclusionAI 社区开源。

  • GitHub 仓库:https://github.com/inclusionAI/AReaL
  • 相关论文:https://arxiv.org/abs/2505.24298
  • About
  • Latest Posts
让Agent越用越强:AReaL v1.0稳定版开源,一键接入强化学习训练插图2Latest posts by mingzhi (see all)
  • 蚂蚁数科AItoB加速出海 蚂蚁数科在马来西亚设立运营中心 – 2026年3月6日
  • 英业达借助西门子软件优化设计流程,打造制造卓越新标杆 – 2026年3月5日
  • 让Agent越用越强:AReaL v1.0稳定版开源,一键接入强化学习训练 – 2026年3月5日

来源:数字经济
The End
免责声明:本文内容来源于第三方或整理自互联网,本站仅提供展示,不拥有所有权,不代表本站观点立场,也不构成任何其他建议,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容,不承担相关法律责任。如发现本站文章、图片等内容有涉及版权/违法违规或其他不适合的内容, 请及时联系我们进行处理。