V4-Pro登顶Codeforces3206：长上下文仍不敌

2026年4月24日上午11:52 • 币资讯

据[动察 Beating](https://t.me/OneMillion_AI) 监测，DeepSeek-V4-Pro-Max（最高推理力度模式）在最新 V4 技术报告中，公布了与多款旗舰模型的对比结果。对比对象包括：Opus 4.6 Max、GPT-5.4 xHigh、Gemini 3.1 Pro High，以及开源模型 Kimi K2.6、GLM-5.1。对比范围不含最近刚发布的 Opus 4.7 与 GPT-5.5。

—

## 编码能力：刷新纪录、表现全面领跑
在 **Codeforces** 评测中，V4-Pro-Max 取得 **3206 分**：
– 高于 **GPT-5.4（3168）**
– 高于 **Gemini 3.1 Pro（3052）**
并刷新该基准纪录。

在 **LiveCodeBench** 中，V4-Pro-Max 同样拿下 **93.5**，全场最高。

在 **SWE Verified** 任务里，V4-Pro-Max 得分 **80.6**，仅比 **Opus 4.6（80.8）** 低 **0.2** 个百分点，竞争力非常接近。

—

## 长上下文：两项 1M 基准均排名靠前
长上下文方面，两项 **1M 基准**中 V4-Pro-Max 均表现突出，均排在第二梯队：

### CorpusQA 1M
– V4-Pro-Max：**62.0**
– Opus 4.6：**71.7**（领先）
– Gemini 3.1 Pro：**53.8**

### MRCR 1M
– V4-Pro-Max：**83.5**
– Opus 4.6：**92.9**（领先近 10 个百分点）
– 其余对手表现相对更落后

—

## Agent 任务：紧跟 Opus 4.6
在 Agent 相关评测中：

– **MCPAtlas Public**：V4-Pro-Max **73.6**
– 仅低于 Opus 4.6 的 **73.8**
– **Terminal-Bench 2.0**：V4-Pro-Max **67.9**
– 低于 GPT-5.4 的 **75.1**
– 也低于 Gemini 3.1 Pro 的 **68.5**

—

## 知识与推理：与 Gemini 仍有差距
在知识密集型评测上，V4-Pro-Max 的优势没有延续到所有维度，仍存在明显差距，典型表现包括：

– **GPQA Diamond**：V4-Pro-Max **90.1**（低于 Gemini **94.3**）
– **SimpleQA-Verified**：V4-Pro-Max **57.9**（低于 Gemini **75.6**）
– **HLE**：V4-Pro-Max **37.7**（低于 Gemini **44.4**）

不过从整体来看，作为开源模型，V4-Pro-Max 在多项**编码**与**长上下文**基准上已实现首次追平甚至超过闭源旗舰；但在更偏知识密集的评测中，仍落后 Gemini 3.1 Pro。

—

## 重要说明
以上对比结果**不包含**最近刚发布的 **GPT-5.5** 与 **Opus 4.7**。因此，V4 与最新一代闭源模型之间的最终差距仍需等待第三方测评进一步验证。

原创文章，作者：admin，如若转载，请注明出处：https://www.23btc.com/174217/

V4-Pro登顶Codeforces3206：长上下文仍不敌

相关推荐