据[动察 Beating](https://t.me/OneMillion_AI)监测,DeepSeek 以 **MIT 许可证**开源了 **TileKernels**:一个使用 **TileLang** 编写的 GPU 内核库,主要面向大模型训练与推理场景。
—
## TileLang:用 Python 表达高性能 GPU 内核
**TileLang** 是 tile-ai 团队开发的一种领域专用语言,可用 **Python** 来编写高性能 GPU 内核。
DeepSeek 表示,库中的大多数内核在 **计算密度**与**内存带宽**方面已经接近硬件性能的极限;其中部分内核已用于其内部训练与推理。
—
## 内核库包含六大类
TileKernels 目前包含以下六类内核能力:
### 1)MoE 门控与路由
– 混合专家模型的 **Top-k 专家选择**
– **token 到专家映射**
– **融合扩展/收缩**
– **权重归一化**
### 2)量化
– 支持 **FP8、FP4、E5M6** 等格式
– **逐 token / 逐块 / 逐通道** 量化
– 含 **融合 SwiGLU + 量化** 操作
### 3)批量转置
– 面向常见张量布局变换的高效批量转置内核
### 4)Engram 门控
– 融合 **RMSNorm** 的前向/反向传播
– **权重梯度归约**
### 5)Manifold HyperConnection
– **Sinkhorn 归一化**
– **混合拆分/应用** 相关能力
### 6)高层 Autograd 接口(可训练层封装)
– 将底层内核封装为可训练的层级接口,支持反向传播与训练流程接入
—
## 两个专有组件首次公开实现细节
DeepSeek 说明,**Engram** 与 **Manifold HyperConnection** 是其模型架构中的专有组件。此次随代码开源,首次公开了它们的实现细节。
—
## 运行要求
– **NVIDIA SM90 或 SM100** 架构 GPU(对应 **H100/H200** 或 **Blackwell** 系列)
– **CUDA Toolkit 13.1** 以上
– **PyTorch 2.10** 以上
原创文章,作者:admin,如若转载,请注明出处:https://www.23btc.com/173917/


