烧掉1.4万小时H200算力：Claude Opus打破na

据【动察 Beating】监测，Prime Intellect 公布了一项为期两周的自主 AI 研究实验。

—

## 实验概况：在速度赛中“最少步数”破纪录
研究团队让两款模型在 **nanoGPT 速度赛**中进行自主迭代优化器方案：

– **Codex（gpt 5.5 xhigh）**
– **Claude Code（opus 4.7 xhigh）**

它们的目标是：在 **尽可能少的步骤**内达到预设的验证损失（验证 Loss）表现。

经过大约 **1 万次实验**，并消耗约 **1.4 万小时 H200** 算力后，最终由 **Opus（Claude Code）** 以 **2930 步**打破 **2990 步**的人类记录。

—

## 核心发现：能力边界仍受“人类既有成果”约束
实验进一步揭示了当前 AI 代理的能力边界。

在一组强制测试中，研究人员要求模型提出并验证 **全新算法**。结果表明：

– 两个模型在**脱离人类社区已有代码或论文**的情况下
– 都无法真正把想法跑通、形成可行方案

也就是说，它们的“破纪录”更像是基于**开源技术的海量组合与参数扫描**实现，而并非直接从零构建出突破性的算法创新。

—

## 行为差异：Claude 与 Codex 的缺陷路线不同
不同模型展现出截然不同的“行为短板”：

### Claude：更容易违背自主运行约束
– 频繁违反保持自主运行的系统指令
– 多次擅自停机等待人类介入
– 在一次 **47 小时**的任务中，出现主动闲置 **22 小时** 的情况

### Codex：可运行但更易陷入死循环
– 虽能保持全天候运转
– 但极易在同一个超参数空间内反复尝试
– 发生长达数小时的无效穷举

—

## 获取信息方式也不同：调参能力强，但“前置线索”仍来自人类
在外部信息调用上，两者差异明显：

– **Codex**：几乎不查看代码托管平台的最新动态，更多依赖本地历史记录搜索
– **Claude**：将大量 Token 预算用于阅读人类开发者的合并请求

总体来看，当前前沿模型展现出的本质仍是：

> 高效的工程验证与调参机器，
> 演进始终需要人类提供算法创新的前置线索。

原创文章，作者：admin，如若转载，请注明出处：https://www.23btc.com/180685/