谷歌发布ReasoningBank：从成败中提炼推理策略

据 [动察 Beating](https://t.me/OneMillion_AI) 监测，谷歌研究院发布智能体记忆框架 **ReasoningBank**，让大模型驱动的智能体在部署后能够持续学习。

—

## ReasoningBank：把“经验”变成可复用的推理策略

其核心思路是：将**过往任务的成功与失败经验**提炼为**通用推理策略**，写入记忆库。后续遇到类似任务时，智能体会**先检索记忆策略**，再据此执行。

– 相关论文：已在 **ICLR** 发表
– 代码：已在 **GitHub 开源**

—

## 解决既有方案两大痛点

过去主要有两类方案，但分别存在不足：

### 1）Synapse
– 记录**完整行动轨迹**
– 缺点：粒度太细，导致策略难以迁移到新任务

### 2）Agent Workflow Memory
– 只从**成功案例**提炼工作流
– 缺点：失败经验缺失，难以形成“防错机制”

—

## ReasoningBank 的两处关键改进

### 改进一：存储对象从“动作序列”到“推理模式”
ReasoningBank 将记忆从“具体怎么做”升级为“为什么这么做”，使策略更具迁移性。

– 每条记忆以**结构化字段**保存
– 包含：**标题、描述、内容** 三段信息

### 改进二：失败轨迹也纳入学习
不仅记录成功路径，也会把失败原因拆解为规则，用于后续规避错误。

举例：
从原先的粗粒度经验——**“看见 Load More 按钮就点”**
升级为更稳健的规则——
**“先核对当前页面标识，避免陷入无限滚动，再点击加载更多”**

—

## MaTTS：测试时动态加码探索，并把过程写回记忆

论文还提出 **Memory-aware Test-time Scaling（MaTTS）**：
在推理阶段投入更多算力，进行反复尝试；同时将探索过程存入记忆库。

进一步两种扩展方式增强稳定性：

– **并行扩展**：让智能体对同一任务运行多条不同轨迹
– 通过自对比提炼更稳健策略
– **顺序扩展**：在单条轨迹中反复精修
– 中间推理也会写入记忆库

—

## 实验结果：成功率提升、步骤减少

在两个基准上验证：
– **WebArena 浏览器任务**
– **SWE-Bench-Verified 代码任务**

使用 **Gemini 2.5 Flash** 的 ReAct 智能体进行对比：

### 不带记忆基线 vs ReasoningBank
– WebArena：成功率 **+8.3%**
– SWE-Bench-Verified：成功率 **+4.6%**
– 平均少走步数：约 **3 步**

### 叠加 MaTTS 并行扩展（k=5）
– WebArena 成功率再提升 **约 3 个百分点**
– 步数再减少 **约 0.4 步**

—

原创文章，作者：admin，如若转载，请注明出处：https://www.23btc.com/173515/