验证TileKernels:V4架构三命一空

验证TileKernels:V4架构三命一空

据【动察 Beating】(https://t.me/OneMillion_AI)监测:昨天 DeepSeek 开源了 **TileKernels 内核库**。结合库中包含的**生产级内核**,我们推测 **V4** 的核心架构组件如下;今天 **V4 模型卡发布**后,我们逐项进行了验证:

## 1)mHC(流形约束超连接)✅ 命中
昨天的推测:V4 **并非**字节原始的 HyperConnection,而是 DeepSeek 改进后的 **mHC**。
今天的验证结果:模型卡确认 V4 使用 **Manifold-Constrained Hyper-Connections(流形约束超连接)**,**命中**。

## 2)MoE 架构 & Top-k 专家路由 ✅ 命中
昨天的推测:TileKernels 中已包含完整的 **MoE 分发与收集**相关内核,因此 V4 很可能是 **MoE** 模型,并采用 **Top-k 专家路由**。
今天的验证结果:模型卡确认 V4 为 **MoE 架构**,**命中**。

## 3)FP4 + FP8 混合精度 ✅ 命中
昨天的推测:库里存在 **FP4、FP8 量化**内核,因此权重大概率采用 **FP4 + FP8 混合存储**。
今天的验证结果:模型卡确认权重采用 **FP4 + FP8 混合**方案,**命中**。

## 4)Engram(条件记忆模块)❌ 未命中
唯一未能命中的项是 **Engram(条件记忆模块)**。

– 昨天:我们已经留意到 **Yifan Zhang 披露的 V4 规格**里**未明确提及 Engram**,措辞同样带有余地。
– 今天:V4 模型卡同样**没有提及 Engram**。

因此,Engram 这条推测未被模型卡证实。

## 额外信息:模型卡还揭示了 TileKernels 未涉及的新组件
除了上述命中项,模型卡还透露了 TileKernels 中**尚未出现/未覆盖**的新关键组件:

– **混合注意力机制(CSA + HCA)**:被标为 V4 长上下文效率跃升的核心
– **1M 上下文推理 FLOPs**:仅为 **V3 的 27%**
– **KV 缓存**:仅为 **V3 的 10%**
– **训练优化器更新**:训练阶段改用 **Muon 优化器**

原创文章,作者:admin,如若转载,请注明出处:https://www.23btc.com/174208/

(0)
上一篇 15小时前
下一篇 15小时前

相关推荐