英伟达Blackwell成本曝光：GPU更贵，每Token更

2026年4月30日下午12:14 • 币资讯

据[动察 Beating](https://t.me/OneMillion_AI)监测，英伟达发文拆解推理硬件选型，核心观点可以概括为一句话：**评估推理基础设施，要看“每 token 成本”，而不是“每 GPU 每小时成本”。**

—

## 为什么要看「每 token 成本」？
在很多采购与预算讨论里，大家习惯拿 **GPU 单价/租赁时长成本**来对比；但英伟达强调，这种方式容易忽略吞吐效率差异。

– **用 GPU 单价比**：Blackwell 的确更贵
– **用 token 成本比**：Blackwell 直接“碾压”上一代

—

## 英伟达用 DeepSeek-R1 做测试对比
测试对象为 **DeepSeek-R1（MoE 推理模型）**，对比两代推理平台：

– **Blackwell：GB300 NVL72**
– **上一代：Hopper：HGX H200**

—

## 核心数据：成本更低、吞吐更高
根据云市场租赁参考价，结果如下：

### 1）每 GPU 每小时成本
– **Blackwell：2.65 美元/小时**
– **Hopper：1.41 美元/小时**

➡️ **Blackwell 更贵，约高近一倍。**

### 2）吞吐（每秒 token 产出）
– **单 GPU token 吞吐：90 → 6000**
– **吞吐提升约 65 倍**

随后把吞吐提升折算到单位产出成本后：

### 3）每百万 token 成本
– **4.20 美元 → 0.12 美元**

➡️ **每百万 token 成本降低，约 35 倍量级（文中对比结果为 4.20 降至 0.12）。**

另外，英伟达还给出更直观的效率维度：

– **每兆瓦 token 产出提升：50 倍**

—

## 重要前提：0.12 美元依赖多项软件优化
需要特别注意：**0.12 美元的结果是在多项优化全部开启的前提下成立的**，例如：

– **FP4 低精度推理**
– **MTP（多 token 预测）**
– 以及其他相关软件层优化

以 SemiAnalysis 的 InferenceX v2 原始数据为例，仍然是 **GB300 NVL72 跑 DeepSeek-R1**：

– **不开 MTP**：每百万 token 成本约 **2.35 美元**
– **开启 MTP**：降至约 **0.11 美元**

➡️ **仅 MTP 这一项优化，就把成本差距拉开约 21 倍。**

—

## 适用范围提醒
以上对比结果均来自 **DeepSeek-R1 单一模型测试**。
**不同模型的架构、规模与推理特性不同**，对应的“每 token 成本”数字也会随之变化。

原创文章，作者：admin，如若转载，请注明出处：https://www.23btc.com/176479/