GPT-5.5 9.7T复查：修正后约1.5T

据 [动察 Beating](https://t.me/OneMillion_AI) 监测，AI 研究员 **Lawrence Chan** 与 **Benno Sturgeon** 发布了对 Pine AI 首席科学家 **李博杰** 论文《不可压缩知识探针：基于事实容量估算黑盒大语言模型参数量》的复查报告。

该论文曾使用 **1400 道冷知识题**来“称体重”闭源模型，并据此给出估算：
– **GPT-5.5** ≈ **9.7T**
– **Claude Opus 4.7** ≈ **4.0T**
– **o1** ≈ **3.5T**

复查作者认为：这套思路本身具有价值，但原始数字在**评分口径**与**题目质量**上被显著放大。

—

## 关键偏差：评分中的「地板分」
复查指出，最大的问题在于「**地板分**」处理方式。

原论文将题目分为 **7 个难度层**。在某些计算设定下，如果模型在某难度层答错较多，理论得分可能出现负值；但实现代码中，作者把每一层的最低分**强行拉回 0**。

这一处理会带来连锁影响：
– 放大前沿模型在高难题上的表现差距
– 进一步推高“由分数反推参数量”的结果

更关键的是：论文正文声称不存在类似处理，但复查发现代码与发布结果实际采用了该逻辑。

—

## 拟合结果明显变“软”：斜率与误差区间都收缩/变宽
复查进一步删除「地板分」影响后，模型把“分数—参数量”的关系重新拟合，结果发生变化：

– 拟合斜率从 **6.79** 降到 **3.56**
– 可理解为：**答题分数每提高一点，会对应增长多少参数**
– 斜率变小意味着：同样的答题差距，不再对应那么夸张的参数差

– **R²** 从 **0.917** 降到 **0.815**
– 说明这条“分数到参数量”的拟合曲线不如原论文那样稳定可靠

– **90% 预测区间**从 **3.0 倍扩大到 5.7 倍**
– 表明误差带更宽
– 也意味着：单点估算数字更难当作“精确事实”

—

## 题目本身也存在瑕疵：歧义/答案错误达 9.4%
复查还标出：**131/1400** 道题存在歧义或答案错误，占比 **9.4%**。

这些问题主要集中在**高难题**上；而高难题正是用来拉开不同模型（尤其是 **GPT-5.5、Claude Opus 4.7** 这类前沿闭源模型）差距的重要部分。

—

## 修正后的估算：数值大幅下调，且不应被当作“真实体重”
按复查作者修正后的口径，主要模型估算结果如下：

– **GPT-5.5**
– 原论文：**9659B**
– 修正后：**1458B**
– 90% 预测区间：**256B – 8311B**

– **Claude Opus 4.7**
– 修正后：**1132B**

– **GPT-5**
– 修正后：**1330B**

复查作者强调：
**1.5T 不能直接视为 GPT-5.5 的真实参数量**。更合理的结论是——这套“冷知识称重法”对**评分细节**与**题目质量**高度敏感，因此诸如 **9.7T** 这类数字**不能直接当作闭源模型体重的确定答案**。

原创文章，作者：admin，如若转载，请注明出处：https://www.23btc.com/177250/

GPT-5.5 9.7T复查：修正后约1.5T

相关推荐