GPT-5.5 9.7T复查:修正后约1.5T

GPT-5.5 9.7T复查:修正后约1.5T

据 [动察 Beating](https://t.me/OneMillion_AI) 监测,AI 研究员 **Lawrence Chan** 与 **Benno Sturgeon** 发布了对 Pine AI 首席科学家 **李博杰** 论文《不可压缩知识探针:基于事实容量估算黑盒大语言模型参数量》的复查报告。

该论文曾使用 **1400 道冷知识题**来“称体重”闭源模型,并据此给出估算:
– **GPT-5.5** ≈ **9.7T**
– **Claude Opus 4.7** ≈ **4.0T**
– **o1** ≈ **3.5T**

复查作者认为:这套思路本身具有价值,但原始数字在**评分口径**与**题目质量**上被显著放大。

## 关键偏差:评分中的「地板分」
复查指出,最大的问题在于「**地板分**」处理方式。

原论文将题目分为 **7 个难度层**。在某些计算设定下,如果模型在某难度层答错较多,理论得分可能出现负值;但实现代码中,作者把每一层的最低分**强行拉回 0**。

这一处理会带来连锁影响:
– 放大前沿模型在高难题上的表现差距
– 进一步推高“由分数反推参数量”的结果

更关键的是:论文正文声称不存在类似处理,但复查发现代码与发布结果实际采用了该逻辑。

## 拟合结果明显变“软”:斜率与误差区间都收缩/变宽
复查进一步删除「地板分」影响后,模型把“分数—参数量”的关系重新拟合,结果发生变化:

– 拟合斜率从 **6.79** 降到 **3.56**
– 可理解为:**答题分数每提高一点,会对应增长多少参数**
– 斜率变小意味着:同样的答题差距,不再对应那么夸张的参数差

– **R²** 从 **0.917** 降到 **0.815**
– 说明这条“分数到参数量”的拟合曲线不如原论文那样稳定可靠

– **90% 预测区间**从 **3.0 倍扩大到 5.7 倍**
– 表明误差带更宽
– 也意味着:单点估算数字更难当作“精确事实”

## 题目本身也存在瑕疵:歧义/答案错误达 9.4%
复查还标出:**131/1400** 道题存在歧义或答案错误,占比 **9.4%**。

这些问题主要集中在**高难题**上;而高难题正是用来拉开不同模型(尤其是 **GPT-5.5、Claude Opus 4.7** 这类前沿闭源模型)差距的重要部分。

## 修正后的估算:数值大幅下调,且不应被当作“真实体重”
按复查作者修正后的口径,主要模型估算结果如下:

– **GPT-5.5**
– 原论文:**9659B**
– 修正后:**1458B**
– 90% 预测区间:**256B – 8311B**

– **Claude Opus 4.7**
– 修正后:**1132B**

– **GPT-5**
– 修正后:**1330B**

复查作者强调:
**1.5T 不能直接视为 GPT-5.5 的真实参数量**。更合理的结论是——这套“冷知识称重法”对**评分细节**与**题目质量**高度敏感,因此诸如 **9.7T** 这类数字**不能直接当作闭源模型体重的确定答案**。

原创文章,作者:admin,如若转载,请注明出处:https://www.23btc.com/177250/

(0)
上一篇 4小时前
下一篇 3小时前

相关推荐