让Agent越用越强：AReaL v1.0稳定版开源，一键接入强化学习训练_科技IT

让Agent越用越强：AReaL v1.0稳定版开源，一键接入强化学习训练

科技IT

2026 03-07 01:59:08

3 月 4 日，蚂蚁集团联合清华大学发布开源强化学习训练框架 AReaL v1.0 稳定版。该版本主打“Agent 一键接入 RL 训练”：不用改代码，兼容各类 Agent 框架，让智能体强化学习训练开箱即用。

2026 年开年以来，Agent 持续升温，以 LangChain、Claude Code、OpenClaw 为代表的智能体框架繁荣发展，但也暴露出两大瓶颈。一是接入训练成本高：现有智能体框架接口各异，每接入一个往往需要编写整套适配代码。二是 Agent 缺乏持续进化的能力：多数 Agent 的能力取决于底层模型在训练阶段习得的固定权重，部署后无法再针对特定场景持续优化，能力上限在交付时便已确定。

AReaL 是首个全异步训推解耦的大模型强化学习训练系统，能让 Agent 在真实任务交互中获得反馈、持续优化决策。此次发布的 v1.0 版本让任意 Agent 零改造接入 RL 训练成为现实——通过在智能体与训练系统之间加入 Proxy Worker 中转层，开发者只需修改一个请求地址即可接入训练。

AReaL 无缝接入智能体的异步训练架构

以当前大热的 OpenClaw 为例，开发者只需在 OpenClaw 配置文件中将 base_url 和 api_key 指向 AReaL 网关，就能让自己的 OpenClaw 接入强化学习训练。智能体像往常一样执行任务，用户周期性给 Agent 完成任务的情况打分，AReaL 在后台自动完成训练数据的采集与模型的更新，在持续使用的过程中让智能体自动进化。

AReaL v1.0 还推出了原生训练引擎 Archon，它是基于 PyTorch 原生能力实现完整的 5D 并行（数据并行、流水线并行、张量并行、上下文并行、专家并行），降低了安装与调试门槛，同时在训练与推理侧提供多种后端选择，便于在不同环境中灵活部署。令人惊讶的是，这样一个复杂的分布式系统，从零开始实现到验证正确性，仅用了 1 人·月的工作量——32 天内，累计修改近百万行代码完整实现了 Archon 引擎，让它能训练千亿参数 MoE 模型。

创造这一效率奇迹的秘诀在于AReaL集成的一整套AI辅助开发体系，实现了复杂工程开发的高度自动化。

AReaL v1.0 引入的 AI 辅助开发流程，为开发者提供了从规划、编码、校验到 PR 创建的全链路支持。尤其是在处理 MoE 并行、内存优化、算法实现等核心模块时，专属的 AI 编程助手会像一位资深专家，在代码变更时及时出现并提供针对性指导，为每一次代码变更保驾护航，有效降低了开发和维护的门槛。AReaL 的 AI 辅助编程不只是提效工具，更能在复杂基础设施工程中承担“可交付”的研发工作，引领了下一代 AI 基础设施工程范式的革新。

AReaL 团队表示，将继续围绕训练引擎、易用性和多模态智能体训练等方向迭代。目前 AReaL v1.0 的代码与文档已在 inclusionAI 社区开源。

GitHub 仓库：https://github.com/inclusionAI/AReaL
相关论文：https://arxiv.org/abs/2505.24298

About
Latest Posts

mingzhi

合作/投稿/投诉联系：

微信nvshen2168

关注我们

微信nvshen2168

本站内容来源于第三方或整理自互联网，本站仅提供展示，不拥有所有权，不代表本站观点立场，也不构成任何其他建议，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容,不承担相关法律责任。如发现本站文章、图片等内容有涉及版权/违法违规或其他不适合的内容，请及时联系我们进行处理。
Copyright © 2099 有品科技网 | 备案号：苏ICP备2023036119号-3

|—— TXT地图 | 网站地图