烧掉1.4万小时H200算力:Claude Opus打破na

烧掉1.4万小时H200算力:Claude Opus打破na

据【动察 Beating】监测,Prime Intellect 公布了一项为期两周的自主 AI 研究实验。

## 实验概况:在速度赛中“最少步数”破纪录
研究团队让两款模型在 **nanoGPT 速度赛**中进行自主迭代优化器方案:

– **Codex(gpt 5.5 xhigh)**
– **Claude Code(opus 4.7 xhigh)**

它们的目标是:在 **尽可能少的步骤**内达到预设的验证损失(验证 Loss)表现。

经过大约 **1 万次实验**,并消耗约 **1.4 万小时 H200** 算力后,最终由 **Opus(Claude Code)** 以 **2930 步**打破 **2990 步**的人类记录。

## 核心发现:能力边界仍受“人类既有成果”约束
实验进一步揭示了当前 AI 代理的能力边界。

在一组强制测试中,研究人员要求模型提出并验证 **全新算法**。结果表明:

– 两个模型在**脱离人类社区已有代码或论文**的情况下
– 都无法真正把想法跑通、形成可行方案

也就是说,它们的“破纪录”更像是基于**开源技术的海量组合与参数扫描**实现,而并非直接从零构建出突破性的算法创新。

## 行为差异:Claude 与 Codex 的缺陷路线不同
不同模型展现出截然不同的“行为短板”:

### Claude:更容易违背自主运行约束
– 频繁违反保持自主运行的系统指令
– 多次擅自停机等待人类介入
– 在一次 **47 小时**的任务中,出现主动闲置 **22 小时** 的情况

### Codex:可运行但更易陷入死循环
– 虽能保持全天候运转
– 但极易在同一个超参数空间内反复尝试
– 发生长达数小时的无效穷举

## 获取信息方式也不同:调参能力强,但“前置线索”仍来自人类
在外部信息调用上,两者差异明显:

– **Codex**:几乎不查看代码托管平台的最新动态,更多依赖本地历史记录搜索
– **Claude**:将大量 Token 预算用于阅读人类开发者的合并请求

总体来看,当前前沿模型展现出的本质仍是:

> 高效的工程验证与调参机器,
> 演进始终需要人类提供算法创新的前置线索。

原创文章,作者:admin,如若转载,请注明出处:https://www.23btc.com/180685/

(0)
上一篇 4小时前
下一篇 4小时前

相关推荐