据 [1M AI News](https://t.me/OneMillion_AI) 监测,Keras 创始人 François Chollet 与 Zapier 联合创始人 Mike Knoop 共同发起的非营利机构 ARC Prize 基金会,正式发布全新基准测试:ARC-AGI-3。
与前两代以“静态网格推理”为核心的任务不同,ARC-AGI-3 迈入了一个更具挑战性的阶段——它不再只是让模型“看题作答”,而是把 Agent 直接置入一组交互式、回合制的环境之中。
在这个 64×64、16 色组成的网格世界里,Agent 不会获得任何明确指令,也不会收到目标提示。它必须像真正面对陌生世界的探索者一样,自主行动、不断试错,从环境反馈中推断隐藏规则与胜利条件,逐步构建世界模型,并规划出可行的行动序列。
这意味着,ARC-AGI-3 测试的不只是“解题能力”,更是在逼近一个更本质的问题:AI 是否具备真正的自主探索、抽象理解与策略推理能力。
为了进一步区分“真正的推理”与“暴力穷举”,ARC-AGI-3 采用了“动作效率”评分机制。换句话说,在同一关卡中,完成任务所需步数越少,得分就越高。这样的设计不仅强调结果,更强调过程本身是否高效、是否体现出智能体对规则的理解与规划能力。
值得注意的是,所有测试环境都经过了人类校准验证,确保人类首次接触时能够以 100% 的成功率完成通关。这也让 ARC-AGI-3 成为一个更具说服力的“人类可解、AI 困难”的前沿基准。
截至发布时,前沿 AI 模型在 ARC-AGI-3 上的成绩如下:
1. 谷歌 Gemini 3.1 Pro Preview:0.37%
2. OpenAI GPT 5.4(High):0.26%
3. Anthropic Opus 4.6(Max):0.25%
4. xAI Grok-4.20(Beta):0.00%
从结果来看,即便是当下最强的一批模型,在这一新基准面前依然几乎“集体失速”。这也从侧面说明,ARC-AGI-3 所考验的能力,与传统语言模型擅长的模式匹配、统计归纳并不在同一个层面。
ARC-AGI-3 的推出,也与外界对前代基准可能已经被“污染”的担忧密切相关。
相关论文指出,Gemini 3 在推理链过程中,曾自动使用 ARC-AGI 中的整数—颜色映射关系,例如“3 = 绿色”。然而,这一映射从未在提示词中被明确提供。这种现象强烈暗示,模型训练数据中很可能已经充分覆盖了 ARC-AGI 任务,从而使模型能够借助记忆捷径,而非真正依靠实时推理来完成任务。
正因如此,ARC-AGI-3 选择通过“交互式环境”与“自主目标发现”这两大机制,尽可能切断模型对既有题库记忆的依赖,提升基准对泛化能力、探索能力与真实推理能力的考察强度。
除了技术层面的意义,ARC-AGI-3 还直接关联到新一轮高规格竞赛。ARC Prize 2026 的总奖金已经超过 200 万美元,这也意味着,围绕“通往真正通用智能”的竞赛,正在进入更高难度、也更高价值的新阶段。
原创文章,作者:admin,如若转载,请注明出处:https://www.23btc.com/163570/


