GPT-5与Gemini败北腾讯发布古文字评测基准Chron

据 [动察 Beating](https://t.me/OneMillion_AI) 监测，腾讯混元与 SSV 数字文化实验室联合中科院信工所等机构，正式推出首个覆盖「七体之变」的古文字感知评测基准 **Chronicles-OCR**。

—

## 评测基准首创：统一量化“七体”识别难度

Chronicles-OCR 共包含 **2800 张**由专家交叉标注的图像，覆盖 **甲骨文到草书**等 **七种字体**。该基准的关键意义在于：首次将跨时代古文字的识别难度实现**统一量化**，为古文字视觉理解提供可对比的标准。

—

## 多模态大模型评测结果：古早字体几乎全军覆没

研究团队对 **28 个主流多模态大语言模型**进行了评测，结果令人警醒：在古早字体识别上，模型整体表现偏弱，呈现“几乎全军覆没”的态势。

在跨时代字符检测任务中，**GPT-5** 与 **Gemini 2.5 Pro** 等模型的核心指标接近 **0**；即便表现最强的模型，成绩也仅达到 **16.5**。

—

## 绕开定位也难突破：最高准确率仅 27.1%

即使直接在图像上画框、绕开传统定位步骤（减少定位误差带来的影响），最高准确率仍只有 **27.1%**。

其中，**Gemini 3.1 Pro** 在甲骨文上的准确率仅为 **14.0%**，进一步显示古文字场景对现有视觉-语言能力的挑战极大。

—

## 结论指向：现代模型高度依赖“规整先验”

实验结果表明，现代模型严重依赖**现代版式的规整先验**。当面对无约束、强噪声的古代物理介质时，模型的文本分割机制容易直接失效。

同时，字体分类结果还显示：模型往往并非在真正识别字符笔画，而是更倾向于依赖载体纹理进行判断，例如 **龟甲纹理**或 **青铜锈迹**等特征。

—

## 反直觉发现：开启“思考模式”反而会更差

研究还揭示了一个反直觉现象：**开启思考模式（思维模式）反而导致古文字识别率下降**。

对照显示，几乎所有支持该模式的模型在开启思考后都会出现退化。原因或在于：当底层视觉感知缺失时，思维链不仅无法有效纠错，反而会成为“幻觉放大器”，以高自信输出错误答案。

原创文章，作者：admin，如若转载，请注明出处：https://www.23btc.com/181612/