ARC3：人类通关，AI仅0.37%

据 [1M AI News](https://t.me/OneMillion_AI) 监测，Keras 创始人 François Chollet 与 Zapier 联合创始人 Mike Knoop 共同发起的非营利机构 ARC Prize 基金会，正式发布全新基准测试：ARC-AGI-3。

与前两代以“静态网格推理”为核心的任务不同，ARC-AGI-3 迈入了一个更具挑战性的阶段——它不再只是让模型“看题作答”，而是把 Agent 直接置入一组交互式、回合制的环境之中。

在这个 64×64、16 色组成的网格世界里，Agent 不会获得任何明确指令，也不会收到目标提示。它必须像真正面对陌生世界的探索者一样，自主行动、不断试错，从环境反馈中推断隐藏规则与胜利条件，逐步构建世界模型，并规划出可行的行动序列。

这意味着，ARC-AGI-3 测试的不只是“解题能力”，更是在逼近一个更本质的问题：AI 是否具备真正的自主探索、抽象理解与策略推理能力。

为了进一步区分“真正的推理”与“暴力穷举”，ARC-AGI-3 采用了“动作效率”评分机制。换句话说，在同一关卡中，完成任务所需步数越少，得分就越高。这样的设计不仅强调结果，更强调过程本身是否高效、是否体现出智能体对规则的理解与规划能力。

值得注意的是，所有测试环境都经过了人类校准验证，确保人类首次接触时能够以 100% 的成功率完成通关。这也让 ARC-AGI-3 成为一个更具说服力的“人类可解、AI 困难”的前沿基准。

截至发布时，前沿 AI 模型在 ARC-AGI-3 上的成绩如下：

1. 谷歌 Gemini 3.1 Pro Preview：0.37%
2. OpenAI GPT 5.4（High）：0.26%
3. Anthropic Opus 4.6（Max）：0.25%
4. xAI Grok-4.20（Beta）：0.00%

从结果来看，即便是当下最强的一批模型，在这一新基准面前依然几乎“集体失速”。这也从侧面说明，ARC-AGI-3 所考验的能力，与传统语言模型擅长的模式匹配、统计归纳并不在同一个层面。

ARC-AGI-3 的推出，也与外界对前代基准可能已经被“污染”的担忧密切相关。

相关论文指出，Gemini 3 在推理链过程中，曾自动使用 ARC-AGI 中的整数—颜色映射关系，例如“3 = 绿色”。然而，这一映射从未在提示词中被明确提供。这种现象强烈暗示，模型训练数据中很可能已经充分覆盖了 ARC-AGI 任务，从而使模型能够借助记忆捷径，而非真正依靠实时推理来完成任务。

正因如此，ARC-AGI-3 选择通过“交互式环境”与“自主目标发现”这两大机制，尽可能切断模型对既有题库记忆的依赖，提升基准对泛化能力、探索能力与真实推理能力的考察强度。

除了技术层面的意义，ARC-AGI-3 还直接关联到新一轮高规格竞赛。ARC Prize 2026 的总奖金已经超过 200 万美元，这也意味着，围绕“通往真正通用智能”的竞赛，正在进入更高难度、也更高价值的新阶段。

原创文章，作者：admin，如若转载，请注明出处：https://www.23btc.com/163570/