据 *Beating* 监测,ARC Prize 基金会已公布 **ARC-AGI-3** 的人类表现数据集。该数据集是 **ARC-AGI 系列迄今规模最大** 的人类测试研究:共有 **458 名参与者**。
—
## 数据集概览
– **342 条**完整的人类操作回放记录
– 覆盖 **25 个公开环境**
– 数据集 **已全部开源**
—
## ARC-AGI-3 的测试方式
ARC-AGI-3 共包含 **135 个抽象推理环境**。测试者在开始时**不会收到任何玩法说明**,必须通过探索与推断自行找出规则,并制定策略。
– 测试地点:旧金山线下测试中心
– 单场时长:**90 分钟**
– 参与报酬:约 **130 美元底薪** + 每通关一个环境 **5 美元奖励**
– 核心条件:**首次通关**
– 每名参与者只看一次、只尝试一次
– 用来衡量面对全新问题时的**学习与适应能力**
同时,人类与 AI 获得**完全相同的信息**,不存在任何信息差。
—
## 核心结论
– ARC-AGI-3 的**所有环境均被人类通关**
– 每个环境至少有 **两名独立参与者**完成,多数环境拥有 **五人以上**通关
– ARC Prize 基金会表示:**“我们还没有实现 AGI,这份数据集就是证据。”**
—
## 评分规则调整
自 ARC-AGI-3 预览以来,公开环境已收到**近 100 万份** AI 评测提交。基于这些数据,基金会宣布两项评分规则调整:
1. **人类基准调整**
– 将每关的人类基准从“第二好的玩家”改为“中位数玩家”
– 目的:降低运气因素对得分的影响
2. **单关得分上限调整**
– 将单关得分上限从 **100%** 提高到 **115%**
– 目的:避免某一关表现不佳拖累整体成绩
两项调整合计后,**人类与 AI 的得分均小幅上升约 0.5 个百分点**。
原创文章,作者:admin,如若转载,请注明出处:https://www.23btc.com/171109/


