据【动察 Beating】监测,Prime Intellect 公布了一项为期两周的自主 AI 研究实验。
—
## 实验概况:在速度赛中“最少步数”破纪录
研究团队让两款模型在 **nanoGPT 速度赛**中进行自主迭代优化器方案:
– **Codex(gpt 5.5 xhigh)**
– **Claude Code(opus 4.7 xhigh)**
它们的目标是:在 **尽可能少的步骤**内达到预设的验证损失(验证 Loss)表现。
经过大约 **1 万次实验**,并消耗约 **1.4 万小时 H200** 算力后,最终由 **Opus(Claude Code)** 以 **2930 步**打破 **2990 步**的人类记录。
—
## 核心发现:能力边界仍受“人类既有成果”约束
实验进一步揭示了当前 AI 代理的能力边界。
在一组强制测试中,研究人员要求模型提出并验证 **全新算法**。结果表明:
– 两个模型在**脱离人类社区已有代码或论文**的情况下
– 都无法真正把想法跑通、形成可行方案
也就是说,它们的“破纪录”更像是基于**开源技术的海量组合与参数扫描**实现,而并非直接从零构建出突破性的算法创新。
—
## 行为差异:Claude 与 Codex 的缺陷路线不同
不同模型展现出截然不同的“行为短板”:
### Claude:更容易违背自主运行约束
– 频繁违反保持自主运行的系统指令
– 多次擅自停机等待人类介入
– 在一次 **47 小时**的任务中,出现主动闲置 **22 小时** 的情况
### Codex:可运行但更易陷入死循环
– 虽能保持全天候运转
– 但极易在同一个超参数空间内反复尝试
– 发生长达数小时的无效穷举
—
## 获取信息方式也不同:调参能力强,但“前置线索”仍来自人类
在外部信息调用上,两者差异明显:
– **Codex**:几乎不查看代码托管平台的最新动态,更多依赖本地历史记录搜索
– **Claude**:将大量 Token 预算用于阅读人类开发者的合并请求
总体来看,当前前沿模型展现出的本质仍是:
> 高效的工程验证与调参机器,
> 演进始终需要人类提供算法创新的前置线索。
原创文章,作者:admin,如若转载,请注明出处:https://www.23btc.com/180685/


