据 **[动察 Beating](https://t.me/OneMillion_AI)** 监测,谷歌 DeepMind 高级产品经理、Google AI Studio 产品负责人 **Logan Kilpatrick** 在 X 上表示:**每一家基于 AI 构建产品的公司,都应该建立自己的基准测试(benchmark)**——即用来衡量 AI 模型表现的标准化测试集。
他认为,这是让模型进步**“不成比例地惠及你的公司”**的方式,并建议创始人和企业主:**“明天就开始。”**
—
## 为什么不要只看公开排行榜?
目前,许多公司在选择 AI 模型时更依赖公开排行榜。
但公开榜单通常测的是**通用能力**,而往往与**具体业务场景**脱节。
举例来说,假如一家做**合同审核**的公司最关心的是**条款提取准确率**,那么在公开基准中未必会包含这项测试。结果就是:模型好不好,在该业务上表现如何,**就很难被量化和判断**。
—
## 自建基准的两大优势
自建基准测试至少带来两方面收益:
1. **用自己的业务任务评估模型**
每次模型更新,都可以用自己的场景来打分,从而选出在“你自己最在意的地方”上真正更强的模型,而不是只看公开排名。
2. **把测试集反馈给模型提供商**
将结果与测试集提供给模型方,推动对方在**你关心的方向**持续优化。
—
## 已有公司在行动
Kilpatrick 提到,**Zapier、Sierra** 等公司已经在做类似的事情,并表示:**这里有大量可以创造的 alpha(超额收益)**。
原创文章,作者:admin,如若转载,请注明出处:https://www.23btc.com/175036/


