ARC-AGI-3创史上最大人类挑战：人类全胜，AI仍差距

据 *Beating* 监测，ARC Prize 基金会已公布 **ARC-AGI-3** 的人类表现数据集。该数据集是 **ARC-AGI 系列迄今规模最大** 的人类测试研究：共有 **458 名参与者**。

—

## 数据集概览

– **342 条**完整的人类操作回放记录
– 覆盖 **25 个公开环境**
– 数据集 **已全部开源**

—

## ARC-AGI-3 的测试方式

ARC-AGI-3 共包含 **135 个抽象推理环境**。测试者在开始时**不会收到任何玩法说明**，必须通过探索与推断自行找出规则，并制定策略。

– 测试地点：旧金山线下测试中心
– 单场时长：**90 分钟**
– 参与报酬：约 **130 美元底薪** + 每通关一个环境 **5 美元奖励**
– 核心条件：**首次通关**
– 每名参与者只看一次、只尝试一次
– 用来衡量面对全新问题时的**学习与适应能力**

同时，人类与 AI 获得**完全相同的信息**，不存在任何信息差。

—

## 核心结论

– ARC-AGI-3 的**所有环境均被人类通关**
– 每个环境至少有 **两名独立参与者**完成，多数环境拥有 **五人以上**通关
– ARC Prize 基金会表示：**“我们还没有实现 AGI，这份数据集就是证据。”**

—

## 评分规则调整

自 ARC-AGI-3 预览以来，公开环境已收到**近 100 万份** AI 评测提交。基于这些数据，基金会宣布两项评分规则调整：

1. **人类基准调整**
– 将每关的人类基准从“第二好的玩家”改为“中位数玩家”
– 目的：降低运气因素对得分的影响

2. **单关得分上限调整**
– 将单关得分上限从 **100%** 提高到 **115%**
– 目的：避免某一关表现不佳拖累整体成绩

两项调整合计后，**人类与 AI 的得分均小幅上升约 0.5 个百分点**。

原创文章，作者：admin，如若转载，请注明出处：https://www.23btc.com/171109/