Cursor披露自举训练法：旧Composer建环境，Ter

据[动察 Beating](https://t.me/OneMillion_AI)监测，Cursor 公开了 Composer 系列模型的一项训练技巧：**用上一代模型自动搭建下一代 RL（强化学习）的可运行环境**。在训练 Composer 2 时，Cursor 使用 Composer 1.5 来完成这一步，官方称之为 **autoinstall**。

—

## 为什么要做“可运行环境”？
RL 训练离不开**能跑起来的代码环境**。环境搭不好，模型很容易把 token 浪费在“调 bug / 查依赖”上，最终学不到有效知识。更极端的情况是环境直接跑不通，整轮训练的算力就会变成“白烧”。

—

## autoinstall 如何运转？
autoinstall 主要分为两步：

### 第一步：生成验证方案
一个 agent 读取代码库的文档与配置，产出**10 条验证命令**以及对应的**预期输出**，用于检查环境是否搭建成功。

### 第二步：用命令跑通环境
另一个 agent 拿到其中 **3 条命令**，从零开始搭环境，直到这些命令能够成功执行。

– 第二步最多 **重试 5 次**
– 若全部失败，则**丢弃该环境**

—

## 环境搭建时，agent 会“主动补坑”
为了让环境尽快跑通，agent 会自动补齐常见缺失依赖，例如：

– **伪造数据库表**
– **创建 MinIO 配置替代 S3**
– **启用 Docker 容器**作为 sidecar 服务
– **生成占位图片**

博文还以区块链项目 **celo-org/celo-monorepo** 为例展示全流程：
agent 在第一轮配环境失败后，第二轮会**自行创建 mock 用户**以绕过认证，最终成功跑通测试。

—

## 训练效果：Terminal-Bench 提升明显
在 **Terminal-Bench**（用于测试模型搭建开发环境能力的基准）上，**Composer 2** 得分 **61.7%**，相比 **Composer 1.5 的 47.9%** 提升近 **14 个百分点**。

Cursor 表示，未来还计划让旧版 Composer 参与更多训练环节，包括：

– 数据预处理
– 运行管理
– 架构调优

从而进一步提升整体训练效率与稳定性。

原创文章，作者：admin，如若转载，请注明出处：https://www.23btc.com/178819/

Cursor披露自举训练法：旧Composer建环境，Ter

相关推荐