谷歌发布ReasoningBank:从成败中提炼推理策略

谷歌发布ReasoningBank:从成败中提炼推理策略

据 [动察 Beating](https://t.me/OneMillion_AI) 监测,谷歌研究院发布智能体记忆框架 **ReasoningBank**,让大模型驱动的智能体在部署后能够持续学习。

## ReasoningBank:把“经验”变成可复用的推理策略

其核心思路是:将**过往任务的成功与失败经验**提炼为**通用推理策略**,写入记忆库。后续遇到类似任务时,智能体会**先检索记忆策略**,再据此执行。

– 相关论文:已在 **ICLR** 发表
– 代码:已在 **GitHub 开源**

## 解决既有方案两大痛点

过去主要有两类方案,但分别存在不足:

### 1)Synapse
– 记录**完整行动轨迹**
– 缺点:粒度太细,导致策略难以迁移到新任务

### 2)Agent Workflow Memory
– 只从**成功案例**提炼工作流
– 缺点:失败经验缺失,难以形成“防错机制”

## ReasoningBank 的两处关键改进

### 改进一:存储对象从“动作序列”到“推理模式”
ReasoningBank 将记忆从“具体怎么做”升级为“为什么这么做”,使策略更具迁移性。

– 每条记忆以**结构化字段**保存
– 包含:**标题、描述、内容** 三段信息

### 改进二:失败轨迹也纳入学习
不仅记录成功路径,也会把失败原因拆解为规则,用于后续规避错误。

举例:
从原先的粗粒度经验——**“看见 Load More 按钮就点”**
升级为更稳健的规则——
**“先核对当前页面标识,避免陷入无限滚动,再点击加载更多”**

## MaTTS:测试时动态加码探索,并把过程写回记忆

论文还提出 **Memory-aware Test-time Scaling(MaTTS)**:
在推理阶段投入更多算力,进行反复尝试;同时将探索过程存入记忆库。

进一步两种扩展方式增强稳定性:

– **并行扩展**:让智能体对同一任务运行多条不同轨迹
– 通过自对比提炼更稳健策略
– **顺序扩展**:在单条轨迹中反复精修
– 中间推理也会写入记忆库

## 实验结果:成功率提升、步骤减少

在两个基准上验证:
– **WebArena 浏览器任务**
– **SWE-Bench-Verified 代码任务**

使用 **Gemini 2.5 Flash** 的 ReAct 智能体进行对比:

### 不带记忆基线 vs ReasoningBank
– WebArena:成功率 **+8.3%**
– SWE-Bench-Verified:成功率 **+4.6%**
– 平均少走步数:约 **3 步**

### 叠加 MaTTS 并行扩展(k=5)
– WebArena 成功率再提升 **约 3 个百分点**
– 步数再减少 **约 0.4 步**

原创文章,作者:admin,如若转载,请注明出处:https://www.23btc.com/173515/

(0)
上一篇 11小时前
下一篇 11小时前

相关推荐