据 **[1M AI News](https://t.me/OneMillion_AI)** 监测:AI 编程代理在处理单个任务时,如果多跑几次,往往会收获多种不同解法——其中可能有对的,也可能有错的。
难点在于:**如何从这些解法里自动挑出“最好”的那个?** 只要挑选得当,整体成功率就能显著超过单次运行。
—
## 传统做法的瓶颈:LLM-as-a-Judge 粒度太粗
目前最主流的思路是 **LLM-as-a-Judge(让另一个模型当裁判打分)**。
但现实问题是:裁判打分通常是离散/粗粒度的,导致不同解法容易拿到**相同分数**,从而**分不出高下**。
—
## 新方案:LLM-as-a-Verifier,用概率分布做“连续奖励”
斯坦福 AI 实验室与伯克利 **Sky Computing** 实验室联合英伟达提出 **LLM-as-a-Verifier**,对挑选流程进行升级:
– **不只看最终分数**:裁判不再只给一个“结果等级”,而是读取模型在**每个评分等级上的概率分布**。
由此计算得到一个**连续的奖励值**,细节更足,区分度更高。
– **重复评判取平均**:让裁判对同一解法**重复评估多次**,再取平均,以削弱偶然偏差。
– **评估拆成三维验证**:将整体判断拆分为三个独立维度分别验证:
1) 是否满足任务要求
2) 输出格式是否正确
3) 是否存在错误信号
实验中,使用 **Gemini 2.5 Flash** 作为验证器(verifier)。
—
## 实验结果:准确率与区分力全面提升
– **单次验证准确率**:Verifier 为 **74.7%**,传统 Judge 为 **57.0%**
– **重复 16 次后**:Verifier 达 **77.4%**,Judge 为 **70.2%**
– **平局率对比**:
– 传统 Judge:**26.5%** 的对比以平局收场
– Verifier:在所有配置下**平局率均为 0%**
—
## 实际效果:挑选后成功率显著提升
**1)Terminal-Bench 2**
– 让 **GPT-5.4** 跑同一任务 **5 次**
– 随机选一个成功率:**81.8%**
– 用 Verifier 挑选后成功率:**86.4%**
**2)SWE-Bench Verified**
– 从 **Claude Opus 4.5、Claude Opus 4.6、Gemini 3 Flash** 各取 **1 条解法**(共 3 条)
– 挑选前:**76.1%**
– 挑选后:**77.8%**
截至 **4 月 9 日** 发布时,上述两项均为榜首表现。
—
## 开源信息
该框架已开源。
原创文章,作者:admin,如若转载,请注明出处:https://www.23btc.com/170806/


