SemiAnalysis实测:GPT-5.5回前沿,Open

SemiAnalysis实测:GPT-5.5回前沿,Open

据[动察 Beating](https://t.me/OneMillion_AI)监测,半导体与 AI 分析机构 SemiAnalysis 发布了编程助手的横向评测,覆盖 **GPT-5.5、Opus 4.7 与 DeepSeek V4**。

## 一句话结论
**GPT-5.5** 是 OpenAI 半年来首次重返前沿的编程模型。SemiAnalysis 的工程师甚至开始在 **Codex** 与 **Claude Code** 之间切换——而在此之前,团队几乎全员只使用 Claude。

## 技术更新点:新预训练带来的“回归前沿”
SemiAnalysis 指出,GPT-5.5 基于代号 **「Spud」** 的新预训练。并强调:**这是 OpenAI 继 GPT-4.5 之后,再次扩大预训练规模**。

## 实测表现:更像“分工协作”的工作流
评测中出现了清晰的分工模式:

– **Claude**:负责**新项目规划**与**初步搭建**
– **Codex**:擅长**推理密集型**的 bug 修复

两者差异也很明确:

– **Codex 强在数据结构理解与逻辑推理**
– 但 **不擅长推断用户的模糊意图**

同一个仪表盘任务中,差异尤为典型:
– **Claude** 会自动复刻参考页面布局,但**数据大量编造**
– **Codex** 会跳过布局细节,但**数据准确度明显更高**

## 公告“换基准”细节:Expert-SWE 的来历
文章揭露了一个关键的基准测试操作细节:

今年 2 月,OpenAI 曾在博客中呼吁行业将 **SWE-bench Pro** 作为编程基准的新标准。
但到了 GPT-5.5 的公告中,基准却换成了一个名为 **「Expert-SWE」** 的新测试集。

原因藏在公告最底部的小字里:
– 在 **SWE-bench Pro** 上,**GPT-5.5 被 Opus 4.7 超过**
– 并且它的表现远低于 Anthropic(其尚未公开的 **Mythos** 达到 **77.8%**)

## Opus 4.7 的问题:性能下滑与 tokenizer “隐性涨价”
关于 **Opus 4.7**,Anthropic 在发布一周后发了 **postmortem(事后分析报告)**,承认 **Claude Code 在 3 月至 4 月间存在三个 bug**:

– 该问题持续了**数周**
– **影响几乎所有用户**

此外,多位工程师曾反馈 **4.6 的性能下降**,但当时更多被视为**主观感受**。

更关键的是:
– **4.7 的新 tokenizer** 会导致 token 用量**增加最多 35%**
– Anthropic 自己也承认了这一点
– 从成本角度看,这等同于一种**隐性涨价**

## DeepSeek V4:紧跟前沿,但“非领先”
DeepSeek V4 被评为:**紧跟前沿,但不是领先者**。

文章将其定位为:
– **闭源模型的最低成本替代品**

同时文章还提到:
– **Claude 在中文写作的高难度任务上仍然压过 DeepSeek V4 Pro**
– 并评论:**“Claude 用对方的语言赢了中国模型。”**

## 定价指标的新视角:看“每任务成本”,不是“每 token 成本”
文章提出一个关键概念:

> 衡量模型定价应看 **“每任务成本”**,而非 **“每 token 成本”**。

例如:
– **GPT-5.5 单价是 GPT-5.4 的 2 倍**(输入 5 美元、输出 30 美元 / 百万 token)
– 但若它能用更少 token 完成同一任务,实际成本未必更高

SemiAnalysis 的初步数据还给出了对比:
– **Codex 的输入输出比为 80:1**
– **Claude Code 的输入输出比为 100:1**

(输入输出比越低,通常意味着完成同一任务的冗余越少。)

原创文章,作者:admin,如若转载,请注明出处:https://www.23btc.com/175063/

(0)
上一篇 11小时前
下一篇 11小时前

相关推荐