DeepSeek开源TileKernels：公开训练推理GP

据[动察 Beating](https://t.me/OneMillion_AI)监测，DeepSeek 以 **MIT 许可证**开源了 **TileKernels**：一个使用 **TileLang** 编写的 GPU 内核库，主要面向大模型训练与推理场景。

—

## TileLang：用 Python 表达高性能 GPU 内核
**TileLang** 是 tile-ai 团队开发的一种领域专用语言，可用 **Python** 来编写高性能 GPU 内核。
DeepSeek 表示，库中的大多数内核在 **计算密度**与**内存带宽**方面已经接近硬件性能的极限；其中部分内核已用于其内部训练与推理。

—

## 内核库包含六大类
TileKernels 目前包含以下六类内核能力：

### 1）MoE 门控与路由
– 混合专家模型的 **Top-k 专家选择**
– **token 到专家映射**
– **融合扩展/收缩**
– **权重归一化**

### 2）量化
– 支持 **FP8、FP4、E5M6** 等格式
– **逐 token / 逐块 / 逐通道** 量化
– 含 **融合 SwiGLU + 量化** 操作

### 3）批量转置
– 面向常见张量布局变换的高效批量转置内核

### 4）Engram 门控
– 融合 **RMSNorm** 的前向/反向传播
– **权重梯度归约**

### 5）Manifold HyperConnection
– **Sinkhorn 归一化**
– **混合拆分/应用** 相关能力

### 6）高层 Autograd 接口（可训练层封装）
– 将底层内核封装为可训练的层级接口，支持反向传播与训练流程接入

—

## 两个专有组件首次公开实现细节
DeepSeek 说明，**Engram** 与 **Manifold HyperConnection** 是其模型架构中的专有组件。此次随代码开源，首次公开了它们的实现细节。

—

## 运行要求
– **NVIDIA SM90 或 SM100** 架构 GPU（对应 **H100/H200** 或 **Blackwell** 系列）
– **CUDA Toolkit 13.1** 以上
– **PyTorch 2.10** 以上

原创文章，作者：admin，如若转载，请注明出处：https://www.23btc.com/173917/

DeepSeek开源TileKernels：公开训练推理GP

相关推荐