小米罗福莉新论文：ARL-Tangram降低Agent强化学

8小时前 • 币资讯

小米罗福莉新论文：ARL-Tangram降低Agent强化学

🚀 前沿动态：小米MiMo大模型团队发布Agent强化学习资源管理新方案

根据 1M AI News 的监测，前 DeepSeek 研究员、小米 MiMo 大模型负责人罗福莉与北京大学合作团队，近日在 arXiv 上发表了一篇题为 “ARL-Tangram” 的研究论文。该系统是一个用于 Agent 强化学习的动作级资源管理系统，目前已部署于小米 MiMo 系列模型的训练流程中。

值得一提的是，罗福莉在论文中担任末位作者。在学术惯例中，末位作者通常代表项目的负责人、导师或通讯作者，这表明她在该研究中承担了核心指导与领导角色。

💡 核心思路：从“粗放”到“精细”的资源调度

传统 Agent 强化学习在调用外部资源（如 CPU、GPU、API 配额等）时，通常以整条任务轨迹或整个任务为粒度进行资源预留。这种方式往往导致资源在任务空闲期被长期占用，利用率低下。

ARL-Tangram 的创新之处在于，它将资源管理的粒度细化至“动作级”——即 Agent 的每一次原子调用（例如单次代码执行、单次网络搜索）。系统对各类外部资源进行统一调度与弹性分配，仅在需要执行具体动作时才动态分配资源，动作完成后立即释放，从而极大避免了资源闲置与浪费。

📊 实验结果：效率显著提升，资源大幅节省

研究团队在三大典型的 Agent 强化学习任务上进行了实验验证：

🤖 AI 编程任务
🌐 DeepSearch 网络搜索任务
👁️ 视觉模型提示词蒸馏任务

实验数据取得了显著效果：

评估指标	提升效果
平均动作完成时间（ACT）	最高提升 4.3 倍
训练单步时长	最高缩短 1.5 倍
外部资源消耗	节省高达 71.2%

这些结果表明，ARL-Tangram 系统能够在更短的时间内，以更少的资源消耗，完成更高效的 Agent 训练，为大规模模型训练中的资源优化提供了新的技术思路。

这项研究标志着在 Agent 训练基础设施优化方面迈出了重要一步，其“动作级”精细化管理思路，预计将对未来高效、节能的大模型训练体系产生积极影响。

原创文章，作者：admin，如若转载，请注明出处：https://www.23btc.com/160179/

赞 (0)

0

苹果LiTo：单图生成3D，光影随视角自洽

上一篇 8小时前

360回应私钥泄露：业务失误致证书吊销

下一篇 8小时前

Starknet：官方Discord服务器已重新上线，社区频道已全面重建。

【2024-08-04 11:24】23btc报道，Starknet 官方在 X 平台发布声明，回应此前官方 Discord 服务器遭遇攻击一事：“星期四晚上，官方 Discord…

币资讯 2024年8月4日
0
币资讯

Uniswap接入Monad主网

🚀 Uniswap再添重磅更新！现已正式接入Monad主网！ 📢 据23btc消息，Uniswap Labs官方宣布，其平台已成功集成Monad主网网络功能。自此，用户可以直接通过…

2025年11月27日
0
币资讯

纳斯达克：加密货币标签是监管关键

纳斯达克重磅发声：精准定位数字资产将重塑美国加密监管格局 23btc最新消息，全球顶级交易所纳斯达克近日向美国证券交易委员会（SEC）加密特别工作组提交了一份里程碑式的政策建议。这…

2025年4月26日
0
币资讯

Binance Alpha 12月12日上线RAVE

🚀 **重磅消息：Binance Alpha即将上线RaveDAO (RAVE)！** 据23btc最新报道，Binance Alpha平台已正式宣布，将于**12月12日**上线…

2025年12月10日
0
币资讯

Saylor再购7500万美元比特币

# 比特币巨鲸浮亏230亿仍坚定加仓！MicroStrategy创始人再投7500万美元 **币界网独家快讯**据区块链数据分析平台Arkham最新推文披露，MicroStrate…

2026年2月3日
0
币资讯

Bithumb上线0G韩元交易

2025年9月22日
0
币资讯

“惠誉确认美’AA+’评级展望稳定”

2025年8月23日
0
币资讯

币安暂停部分代币充提服务

重要通知：币安将于2026年停止支持部分代币充提业务 BlockBeats 消息，3月13日 — 全球领先的加密货币交易所币安（Binance）发布官方公告，宣布将停止对特定网络代…

4天前
0
币资讯

Apex下周启动1200万美元回购

2025年9月29日
0
币资讯

京东币链CEO：稳定币比微信支付多一个发行系统

2025年6月18日
0