小米罗福莉新论文:ARL-Tangram降低Agent强化学

小米罗福莉新论文:ARL-Tangram降低Agent强化学

🚀 前沿动态:小米MiMo大模型团队发布Agent强化学习资源管理新方案

根据 1M AI News 的监测,前 DeepSeek 研究员、小米 MiMo 大模型负责人罗福莉与北京大学合作团队,近日在 arXiv 上发表了一篇题为 “ARL-Tangram” 的研究论文。该系统是一个用于 Agent 强化学习的动作级资源管理系统,目前已部署于小米 MiMo 系列模型的训练流程中。

值得一提的是,罗福莉在论文中担任末位作者。在学术惯例中,末位作者通常代表项目的负责人、导师或通讯作者,这表明她在该研究中承担了核心指导与领导角色。


💡 核心思路:从“粗放”到“精细”的资源调度

传统 Agent 强化学习在调用外部资源(如 CPU、GPU、API 配额等)时,通常以整条任务轨迹整个任务为粒度进行资源预留。这种方式往往导致资源在任务空闲期被长期占用,利用率低下。

ARL-Tangram 的创新之处在于,它将资源管理的粒度细化至“动作级”——即 Agent 的每一次原子调用(例如单次代码执行、单次网络搜索)。系统对各类外部资源进行统一调度与弹性分配,仅在需要执行具体动作时才动态分配资源,动作完成后立即释放,从而极大避免了资源闲置与浪费。


📊 实验结果:效率显著提升,资源大幅节省

研究团队在三大典型的 Agent 强化学习任务上进行了实验验证:

  • 🤖 AI 编程任务
  • 🌐 DeepSearch 网络搜索任务
  • 👁️ 视觉模型提示词蒸馏任务

实验数据取得了显著效果:

评估指标 提升效果
平均动作完成时间(ACT) 最高提升 4.3 倍
训练单步时长 最高缩短 1.5 倍
外部资源消耗 节省高达 71.2%

这些结果表明,ARL-Tangram 系统能够在更短的时间内,以更少的资源消耗,完成更高效的 Agent 训练,为大规模模型训练中的资源优化提供了新的技术思路。


这项研究标志着在 Agent 训练基础设施优化方面迈出了重要一步,其“动作级”精细化管理思路,预计将对未来高效、节能的大模型训练体系产生积极影响。

原创文章,作者:admin,如若转载,请注明出处:https://www.23btc.com/160179/

(0)
上一篇 8小时前
下一篇 8小时前

相关推荐