AgentFlow自动合成多Agent挖出Chrome沙箱逃

AgentFlow自动合成多Agent挖出Chrome沙箱逃

据【动察 Beating】(https://t.me/OneMillion_AI)监测,UCSB 冯煜团队联合 fuzz.land 等机构提出 **AgentFlow**:通过自动合成多 agent harness(编排 agent 角色分工、信息传递、工具分配和重试逻辑的程序)来推动漏洞发现。

## 核心观点:模型不变,改变 harness 就能显著提升成功率
论文指出:当 **模型保持不变** 时,仅仅通过改写 **harness**,成功率就能出现 **数倍级提升**。但现有工作多存在两类局限:
– 方案往往需要 **手工编写**
– 或者只在 **局部设计空间** 内进行搜索,难以覆盖更广泛的策略组合

## AgentFlow:用类型图 DSL 把五个维度“统一成可编辑图程序”
AgentFlow 使用 **带类型的图 DSL**,将 harness 的五个关键维度统一到同一套可编辑图程序中,分别是:
1. 角色(agent types / roles)
2. 拓扑(信息流与交互结构)
3. 消息模式(通信协议与上下文组织)
4. 工具绑定(工具/函数/资源的分配与调用)
5. 协调协议(多 agent 的协作与重试机制)

在系统层面,支持 **单步同时增改**:agent、拓扑、prompt 与工具集,从而让 harness 构建更接近“工程化可迭代”。

## 失败定位:用覆盖率与运行信号“反向找原因”,不再只看通过/失败
AgentFlow 的外循环不是简单依赖二元结果(通过/失败),而是:
– 依据目标程序的 **覆盖率**
– 结合 **sanitizer 报告** 等运行时信号
– 定位当前流程中 **失败环节**
并据此对 harness 进行调整与迭代。

## 实验结果(TerminalBench-2):Claude Opus 4.6 达到 84.3%
在 **TerminalBench-2** 上,AgentFlow 搭配 **Claude Opus 4.6**,取得 **84.3%(75/89)**,为该排行榜同类方法中的最高分。

## Chrome 代码库验证:千级并行编排与崩溃流水线
在 **Chrome 代码库**(约 **3500 万行 C/C++**)上,AgentFlow 自动合成的 harness 包括:
– **18 种角色**
– 约 **210 个 agent**
– **7 个子系统分析器**
– **192 个并行探索器**
– 一条 **四阶段崩溃分类流水线**

其中,系统借助专职 agent(如 **Crash Filter**、**Root Cause Analyzer**),并使用 **唯一 ASAN 崩溃签名** 做去重。

## 运行规模与发现成果:7 天、10 个零日、均经确认
在开源模型 **Kimi K2.5** 的设置下,系统在 **192 块 H100** 上运行 **7 天**,共发现:
– **10 个零日漏洞**
– 全部经 Chrome VRP 确认

进一步统计:
– 其中 **6 个已获得 CVE 编号**
– 涉及方向包括 **WebCodecs、Proxy、Network、Codecs、Rendering**
– 漏洞类型涵盖 **UAF、整数溢出、堆缓冲区溢出**
– 另有 **CVE-2026-5280** 与 **CVE-2026-6297** 为 **Critical** 级别沙箱逃逸

## 进一步补充:与其他模型也具备良好兼容性
fuzz.land 联合创始人寿超璠表示:部分漏洞最初由 **MiniMax M2.5** 发现。
同时,**MiniMax M2.5** 和 **Opus 4.6** 都能发现 AgentFlow 流程中大部分漏洞。

## 开源信息
**AgentFlow 已开源**。

原创文章,作者:admin,如若转载,请注明出处:https://www.23btc.com/173860/

(0)
上一篇 14小时前
下一篇 13小时前

相关推荐