据[动察 Beating](https://t.me/OneMillion_AI)监测,Cursor 公开了 Composer 系列模型的一项训练技巧:**用上一代模型自动搭建下一代 RL(强化学习)的可运行环境**。在训练 Composer 2 时,Cursor 使用 Composer 1.5 来完成这一步,官方称之为 **autoinstall**。
—
## 为什么要做“可运行环境”?
RL 训练离不开**能跑起来的代码环境**。环境搭不好,模型很容易把 token 浪费在“调 bug / 查依赖”上,最终学不到有效知识。更极端的情况是环境直接跑不通,整轮训练的算力就会变成“白烧”。
—
## autoinstall 如何运转?
autoinstall 主要分为两步:
### 第一步:生成验证方案
一个 agent 读取代码库的文档与配置,产出**10 条验证命令**以及对应的**预期输出**,用于检查环境是否搭建成功。
### 第二步:用命令跑通环境
另一个 agent 拿到其中 **3 条命令**,从零开始搭环境,直到这些命令能够成功执行。
– 第二步最多 **重试 5 次**
– 若全部失败,则**丢弃该环境**
—
## 环境搭建时,agent 会“主动补坑”
为了让环境尽快跑通,agent 会自动补齐常见缺失依赖,例如:
– **伪造数据库表**
– **创建 MinIO 配置替代 S3**
– **启用 Docker 容器**作为 sidecar 服务
– **生成占位图片**
博文还以区块链项目 **celo-org/celo-monorepo** 为例展示全流程:
agent 在第一轮配环境失败后,第二轮会**自行创建 mock 用户**以绕过认证,最终成功跑通测试。
—
## 训练效果:Terminal-Bench 提升明显
在 **Terminal-Bench**(用于测试模型搭建开发环境能力的基准)上,**Composer 2** 得分 **61.7%**,相比 **Composer 1.5 的 47.9%** 提升近 **14 个百分点**。
Cursor 表示,未来还计划让旧版 Composer 参与更多训练环节,包括:
– 数据预处理
– 运行管理
– 架构调优
从而进一步提升整体训练效率与稳定性。
原创文章,作者:admin,如若转载,请注明出处:https://www.23btc.com/178819/


