SemiAnalysis实测：GPT-5.5回前沿，Open

据[动察 Beating](https://t.me/OneMillion_AI)监测，半导体与 AI 分析机构 SemiAnalysis 发布了编程助手的横向评测，覆盖 **GPT-5.5、Opus 4.7 与 DeepSeek V4**。

## 一句话结论
**GPT-5.5** 是 OpenAI 半年来首次重返前沿的编程模型。SemiAnalysis 的工程师甚至开始在 **Codex** 与 **Claude Code** 之间切换——而在此之前，团队几乎全员只使用 Claude。

## 技术更新点：新预训练带来的“回归前沿”
SemiAnalysis 指出，GPT-5.5 基于代号 **「Spud」** 的新预训练。并强调：**这是 OpenAI 继 GPT-4.5 之后，再次扩大预训练规模**。

—

## 实测表现：更像“分工协作”的工作流
评测中出现了清晰的分工模式：

– **Claude**：负责**新项目规划**与**初步搭建**
– **Codex**：擅长**推理密集型**的 bug 修复

两者差异也很明确：

– **Codex 强在数据结构理解与逻辑推理**
– 但 **不擅长推断用户的模糊意图**

同一个仪表盘任务中，差异尤为典型：
– **Claude** 会自动复刻参考页面布局，但**数据大量编造**
– **Codex** 会跳过布局细节，但**数据准确度明显更高**

—

## 公告“换基准”细节：Expert-SWE 的来历
文章揭露了一个关键的基准测试操作细节：

今年 2 月，OpenAI 曾在博客中呼吁行业将 **SWE-bench Pro** 作为编程基准的新标准。
但到了 GPT-5.5 的公告中，基准却换成了一个名为 **「Expert-SWE」** 的新测试集。

原因藏在公告最底部的小字里：
– 在 **SWE-bench Pro** 上，**GPT-5.5 被 Opus 4.7 超过**
– 并且它的表现远低于 Anthropic（其尚未公开的 **Mythos** 达到 **77.8%**）

—

## Opus 4.7 的问题：性能下滑与 tokenizer “隐性涨价”
关于 **Opus 4.7**，Anthropic 在发布一周后发了 **postmortem（事后分析报告）**，承认 **Claude Code 在 3 月至 4 月间存在三个 bug**：

– 该问题持续了**数周**
– **影响几乎所有用户**

此外，多位工程师曾反馈 **4.6 的性能下降**，但当时更多被视为**主观感受**。

更关键的是：
– **4.7 的新 tokenizer** 会导致 token 用量**增加最多 35%**
– Anthropic 自己也承认了这一点
– 从成本角度看，这等同于一种**隐性涨价**

—

## DeepSeek V4：紧跟前沿，但“非领先”
DeepSeek V4 被评为：**紧跟前沿，但不是领先者**。

文章将其定位为：
– **闭源模型的最低成本替代品**

同时文章还提到：
– **Claude 在中文写作的高难度任务上仍然压过 DeepSeek V4 Pro**
– 并评论：**“Claude 用对方的语言赢了中国模型。”**

—

## 定价指标的新视角：看“每任务成本”，不是“每 token 成本”
文章提出一个关键概念：

> 衡量模型定价应看 **“每任务成本”**，而非 **“每 token 成本”**。

例如：
– **GPT-5.5 单价是 GPT-5.4 的 2 倍**（输入 5 美元、输出 30 美元 / 百万 token）
– 但若它能用更少 token 完成同一任务，实际成本未必更高

SemiAnalysis 的初步数据还给出了对比：
– **Codex 的输入输出比为 80:1**
– **Claude Code 的输入输出比为 100:1**

（输入输出比越低，通常意味着完成同一任务的冗余越少。）

原创文章，作者：admin，如若转载，请注明出处：https://www.23btc.com/175063/