斯坦福伯克利提出LLM-as-a-Verifier，刷新Te

据 **[1M AI News](https://t.me/OneMillion_AI)** 监测：AI 编程代理在处理单个任务时，如果多跑几次，往往会收获多种不同解法——其中可能有对的，也可能有错的。
难点在于：**如何从这些解法里自动挑出“最好”的那个？** 只要挑选得当，整体成功率就能显著超过单次运行。

—

## 传统做法的瓶颈：LLM-as-a-Judge 粒度太粗
目前最主流的思路是 **LLM-as-a-Judge（让另一个模型当裁判打分）**。
但现实问题是：裁判打分通常是离散/粗粒度的，导致不同解法容易拿到**相同分数**，从而**分不出高下**。

—

## 新方案：LLM-as-a-Verifier，用概率分布做“连续奖励”
斯坦福 AI 实验室与伯克利 **Sky Computing** 实验室联合英伟达提出 **LLM-as-a-Verifier**，对挑选流程进行升级：

– **不只看最终分数**：裁判不再只给一个“结果等级”，而是读取模型在**每个评分等级上的概率分布**。
由此计算得到一个**连续的奖励值**，细节更足，区分度更高。
– **重复评判取平均**：让裁判对同一解法**重复评估多次**，再取平均，以削弱偶然偏差。
– **评估拆成三维验证**：将整体判断拆分为三个独立维度分别验证：
1) 是否满足任务要求
2) 输出格式是否正确
3) 是否存在错误信号

实验中，使用 **Gemini 2.5 Flash** 作为验证器（verifier）。

—

## 实验结果：准确率与区分力全面提升
– **单次验证准确率**：Verifier 为 **74.7%**，传统 Judge 为 **57.0%**
– **重复 16 次后**：Verifier 达 **77.4%**，Judge 为 **70.2%**
– **平局率对比**：
– 传统 Judge：**26.5%** 的对比以平局收场
– Verifier：在所有配置下**平局率均为 0%**

—

## 实际效果：挑选后成功率显著提升
**1）Terminal-Bench 2**
– 让 **GPT-5.4** 跑同一任务 **5 次**
– 随机选一个成功率：**81.8%**
– 用 Verifier 挑选后成功率：**86.4%**

**2）SWE-Bench Verified**
– 从 **Claude Opus 4.5、Claude Opus 4.6、Gemini 3 Flash** 各取 **1 条解法**（共 3 条）
– 挑选前：**76.1%**
– 挑选后：**77.8%**

截至 **4 月 9 日** 发布时，上述两项均为榜首表现。

—

## 开源信息
该框架已开源。

原创文章，作者：admin，如若转载，请注明出处：https://www.23btc.com/170806/

斯坦福伯克利提出LLM-as-a-Verifier，刷新Te

相关推荐