AI能替代金融分析师？Vals AI新版测试全军覆没，GPT

据[动察 Beating](https://t.me/OneMillion_AI)监测，AI评测机构 **Vals AI** 发布了第二代金融智能体基准测试 **（Finance Agent v2）**。

该基准测试以“模拟初级金融分析师工作流”为目标，属于 **端到端** 测试：从海量材料中完成信息提取、理解任务、推理计算到得出结论，全流程覆盖 **927 道专家审核问题**。

—

## 难度跃升：前沿模型几乎“贴身肉搏”
与单轮问答相比，Finance Agent v2 对模型提出了更苛刻的要求：

– 需要在 **数百页的 10-K 与 10-Q** 财报中**自主定位相关段落**
– 要处理 **跨年份财务报表调整**
– 并在过程中带着 **精确的中间数字** 完成多步计算

在这种难度下，新榜单呈现出明显的“集体失准”迹象。

– **GPT 5.5** 凭借 **51.76%** 击获得分榜首
– **Claude Opus 4.7**：**51.51%**
– **Claude Sonnet 4.6**：**51.03%**

三者分差极小，属于高度胶着的竞争态势。

—

## 严格评分下更“见真章”：最高分也不乐观
Vals AI 进一步披露：如果采用 **“必须完全答对”** 的严格评分标准，所有前沿模型的准确率将 **全部跌破 40%**。

在最难的两个类别——
– **财务建模**
– **先例分析**

中，最高得分仅为 **23%**。

—

## 其他模型表现：国产强势但仍差距明显
除前三名外，榜单也给出了更多信号：

– **Kimi K2.6**：**44.87%**（最高的国产模型）
– **GLM 5.1**：**44.79%**
– **DeepSeek V4**：**44.08%**

此外，官方还标注了效率与成本维度的亮点：

– **“最快速度”**：Claude Opus 4.7（单次耗时 **360 秒**）
– **“最省预算”**：GLM 5.1（单次成本 **0.62 美元**）

—

## 结论：检索能做，深水区仍需人类
这次测试得分的整体下挫也具有对比意义：上一代测试中 **Opus 4.7** 的得分为 **64.4%**。

这说明——**AI 现在已经能应对较简单的检索任务**，但当进入需要严格遵守行业惯例、并对数字精确度要求极高的金融“深水区”时，距离真正替代人类分析师仍有明显差距。

原创文章，作者：admin，如若转载，请注明出处：https://www.23btc.com/180352/