AgentFlow自动合成多Agent挖出Chrome沙箱逃

据【动察 Beating】（https://t.me/OneMillion_AI）监测，UCSB 冯煜团队联合 fuzz.land 等机构提出 **AgentFlow**：通过自动合成多 agent harness（编排 agent 角色分工、信息传递、工具分配和重试逻辑的程序）来推动漏洞发现。

—

## 核心观点：模型不变，改变 harness 就能显著提升成功率
论文指出：当 **模型保持不变** 时，仅仅通过改写 **harness**，成功率就能出现 **数倍级提升**。但现有工作多存在两类局限：
– 方案往往需要 **手工编写**
– 或者只在 **局部设计空间** 内进行搜索，难以覆盖更广泛的策略组合

—

## AgentFlow：用类型图 DSL 把五个维度“统一成可编辑图程序”
AgentFlow 使用 **带类型的图 DSL**，将 harness 的五个关键维度统一到同一套可编辑图程序中，分别是：
1. 角色（agent types / roles）
2. 拓扑（信息流与交互结构）
3. 消息模式（通信协议与上下文组织）
4. 工具绑定（工具/函数/资源的分配与调用）
5. 协调协议（多 agent 的协作与重试机制）

在系统层面，支持 **单步同时增改**：agent、拓扑、prompt 与工具集，从而让 harness 构建更接近“工程化可迭代”。

—

## 失败定位：用覆盖率与运行信号“反向找原因”，不再只看通过/失败
AgentFlow 的外循环不是简单依赖二元结果（通过/失败），而是：
– 依据目标程序的 **覆盖率**
– 结合 **sanitizer 报告** 等运行时信号
– 定位当前流程中 **失败环节**
并据此对 harness 进行调整与迭代。

—

## 实验结果（TerminalBench-2）：Claude Opus 4.6 达到 84.3%
在 **TerminalBench-2** 上，AgentFlow 搭配 **Claude Opus 4.6**，取得 **84.3%（75/89）**，为该排行榜同类方法中的最高分。

—

## Chrome 代码库验证：千级并行编排与崩溃流水线
在 **Chrome 代码库**（约 **3500 万行 C/C++**）上，AgentFlow 自动合成的 harness 包括：
– **18 种角色**
– 约 **210 个 agent**
– **7 个子系统分析器**
– **192 个并行探索器**
– 一条 **四阶段崩溃分类流水线**

其中，系统借助专职 agent（如 **Crash Filter**、**Root Cause Analyzer**），并使用 **唯一 ASAN 崩溃签名** 做去重。

—

## 运行规模与发现成果：7 天、10 个零日、均经确认
在开源模型 **Kimi K2.5** 的设置下，系统在 **192 块 H100** 上运行 **7 天**，共发现：
– **10 个零日漏洞**
– 全部经 Chrome VRP 确认

进一步统计：
– 其中 **6 个已获得 CVE 编号**
– 涉及方向包括 **WebCodecs、Proxy、Network、Codecs、Rendering**
– 漏洞类型涵盖 **UAF、整数溢出、堆缓冲区溢出**
– 另有 **CVE-2026-5280** 与 **CVE-2026-6297** 为 **Critical** 级别沙箱逃逸

—

## 进一步补充：与其他模型也具备良好兼容性
fuzz.land 联合创始人寿超璠表示：部分漏洞最初由 **MiniMax M2.5** 发现。
同时，**MiniMax M2.5** 和 **Opus 4.6** 都能发现 AgentFlow 流程中大部分漏洞。

—

## 开源信息
**AgentFlow 已开源**。

原创文章，作者：admin，如若转载，请注明出处：https://www.23btc.com/173860/