英伟达Blackwell成本曝光:GPU更贵,每Token更

英伟达Blackwell成本曝光:GPU更贵,每Token更

据[动察 Beating](https://t.me/OneMillion_AI)监测,英伟达发文拆解推理硬件选型,核心观点可以概括为一句话:**评估推理基础设施,要看“每 token 成本”,而不是“每 GPU 每小时成本”。**

## 为什么要看「每 token 成本」?
在很多采购与预算讨论里,大家习惯拿 **GPU 单价/租赁时长成本**来对比;但英伟达强调,这种方式容易忽略吞吐效率差异。

– **用 GPU 单价比**:Blackwell 的确更贵
– **用 token 成本比**:Blackwell 直接“碾压”上一代

## 英伟达用 DeepSeek-R1 做测试对比
测试对象为 **DeepSeek-R1(MoE 推理模型)**,对比两代推理平台:

– **Blackwell:GB300 NVL72**
– **上一代:Hopper:HGX H200**

## 核心数据:成本更低、吞吐更高
根据云市场租赁参考价,结果如下:

### 1)每 GPU 每小时成本
– **Blackwell:2.65 美元/小时**
– **Hopper:1.41 美元/小时**

➡️ **Blackwell 更贵,约高近一倍。**

### 2)吞吐(每秒 token 产出)
– **单 GPU token 吞吐:90 → 6000**
– **吞吐提升约 65 倍**

随后把吞吐提升折算到单位产出成本后:

### 3)每百万 token 成本
– **4.20 美元 → 0.12 美元**

➡️ **每百万 token 成本降低,约 35 倍量级(文中对比结果为 4.20 降至 0.12)。**

另外,英伟达还给出更直观的效率维度:

– **每兆瓦 token 产出提升:50 倍**

## 重要前提:0.12 美元依赖多项软件优化
需要特别注意:**0.12 美元的结果是在多项优化全部开启的前提下成立的**,例如:

– **FP4 低精度推理**
– **MTP(多 token 预测)**
– 以及其他相关软件层优化

以 SemiAnalysis 的 InferenceX v2 原始数据为例,仍然是 **GB300 NVL72 跑 DeepSeek-R1**:

– **不开 MTP**:每百万 token 成本约 **2.35 美元**
– **开启 MTP**:降至约 **0.11 美元**

➡️ **仅 MTP 这一项优化,就把成本差距拉开约 21 倍。**

## 适用范围提醒
以上对比结果均来自 **DeepSeek-R1 单一模型测试**。
**不同模型的架构、规模与推理特性不同**,对应的“每 token 成本”数字也会随之变化。

原创文章,作者:admin,如若转载,请注明出处:https://www.23btc.com/176479/

(0)
上一篇 11小时前
下一篇 10小时前

相关推荐