AI能替代金融分析师?Vals AI新版测试全军覆没,GPT

AI能替代金融分析师?Vals AI新版测试全军覆没,GPT

据[动察 Beating](https://t.me/OneMillion_AI)监测,AI评测机构 **Vals AI** 发布了第二代金融智能体基准测试 **(Finance Agent v2)**。

该基准测试以“模拟初级金融分析师工作流”为目标,属于 **端到端** 测试:从海量材料中完成信息提取、理解任务、推理计算到得出结论,全流程覆盖 **927 道专家审核问题**。

## 难度跃升:前沿模型几乎“贴身肉搏”
与单轮问答相比,Finance Agent v2 对模型提出了更苛刻的要求:

– 需要在 **数百页的 10-K 与 10-Q** 财报中**自主定位相关段落**
– 要处理 **跨年份财务报表调整**
– 并在过程中带着 **精确的中间数字** 完成多步计算

在这种难度下,新榜单呈现出明显的“集体失准”迹象。

– **GPT 5.5** 凭借 **51.76%** 击获得分榜首
– **Claude Opus 4.7**:**51.51%**
– **Claude Sonnet 4.6**:**51.03%**

三者分差极小,属于高度胶着的竞争态势。

## 严格评分下更“见真章”:最高分也不乐观
Vals AI 进一步披露:如果采用 **“必须完全答对”** 的严格评分标准,所有前沿模型的准确率将 **全部跌破 40%**。

在最难的两个类别——
– **财务建模**
– **先例分析**

中,最高得分仅为 **23%**。

## 其他模型表现:国产强势但仍差距明显
除前三名外,榜单也给出了更多信号:

– **Kimi K2.6**:**44.87%**(最高的国产模型)
– **GLM 5.1**:**44.79%**
– **DeepSeek V4**:**44.08%**

此外,官方还标注了效率与成本维度的亮点:

– **“最快速度”**:Claude Opus 4.7(单次耗时 **360 秒**)
– **“最省预算”**:GLM 5.1(单次成本 **0.62 美元**)

## 结论:检索能做,深水区仍需人类
这次测试得分的整体下挫也具有对比意义:上一代测试中 **Opus 4.7** 的得分为 **64.4%**。

这说明——**AI 现在已经能应对较简单的检索任务**,但当进入需要严格遵守行业惯例、并对数字精确度要求极高的金融“深水区”时,距离真正替代人类分析师仍有明显差距。

原创文章,作者:admin,如若转载,请注明出处:https://www.23btc.com/180352/

(0)
上一篇 2026年5月14日 下午5:28
下一篇 2026年5月14日 下午5:44

相关推荐