GPT-5与Gemini败北腾讯发布古文字评测基准Chron

GPT-5与Gemini败北腾讯发布古文字评测基准Chron

据 [动察 Beating](https://t.me/OneMillion_AI) 监测,腾讯混元与 SSV 数字文化实验室联合中科院信工所等机构,正式推出首个覆盖「七体之变」的古文字感知评测基准 **Chronicles-OCR**。

## 评测基准首创:统一量化“七体”识别难度

Chronicles-OCR 共包含 **2800 张**由专家交叉标注的图像,覆盖 **甲骨文到草书**等 **七种字体**。该基准的关键意义在于:首次将跨时代古文字的识别难度实现**统一量化**,为古文字视觉理解提供可对比的标准。

## 多模态大模型评测结果:古早字体几乎全军覆没

研究团队对 **28 个主流多模态大语言模型**进行了评测,结果令人警醒:在古早字体识别上,模型整体表现偏弱,呈现“几乎全军覆没”的态势。

在跨时代字符检测任务中,**GPT-5** 与 **Gemini 2.5 Pro** 等模型的核心指标接近 **0**;即便表现最强的模型,成绩也仅达到 **16.5**。

## 绕开定位也难突破:最高准确率仅 27.1%

即使直接在图像上画框、绕开传统定位步骤(减少定位误差带来的影响),最高准确率仍只有 **27.1%**。

其中,**Gemini 3.1 Pro** 在甲骨文上的准确率仅为 **14.0%**,进一步显示古文字场景对现有视觉-语言能力的挑战极大。

## 结论指向:现代模型高度依赖“规整先验”

实验结果表明,现代模型严重依赖**现代版式的规整先验**。当面对无约束、强噪声的古代物理介质时,模型的文本分割机制容易直接失效。

同时,字体分类结果还显示:模型往往并非在真正识别字符笔画,而是更倾向于依赖载体纹理进行判断,例如 **龟甲纹理**或 **青铜锈迹**等特征。

## 反直觉发现:开启“思考模式”反而会更差

研究还揭示了一个反直觉现象:**开启思考模式(思维模式)反而导致古文字识别率下降**。

对照显示,几乎所有支持该模式的模型在开启思考后都会出现退化。原因或在于:当底层视觉感知缺失时,思维链不仅无法有效纠错,反而会成为“幻觉放大器”,以高自信输出错误答案。

原创文章,作者:admin,如若转载,请注明出处:https://www.23btc.com/181612/

(0)
上一篇 21小时前
下一篇 21小时前

相关推荐