据 [动察Beating](https://t.me/OneMillion_AI) 监测,普林斯顿博士生 **Yifan Zhang** 透露:**中国 AI 公司 DeepSeek(深度求索)下一代旗舰 V4 将在下周发布**。在跟帖中,他给出了三项关键架构组件:
– **稀疏 MQA(Sparse Multi-Query Attention)**
– **融合 MoE 大核(Fused MoE Mega Kernel)**
– **Hyper-Connections**
另外补充信息是:Zhang 本科就读北京大学元培、硕士就读清华大学姚班,现为普林斯顿 AI Lab Fellow;曾在字节跳动 Seed 基础模型团队担任研究实习生。需要注意的是:**他目前并不在 DeepSeek 任职**,同时 **DeepSeek 官方也未就具体发布时间表作出确认**。
—
## 三项组件分别对应 LLM 优化的三条方向
### 1)稀疏 MQA:面向长上下文降本增效
在 **多查询注意力**(Multi-Query Attention)的基础上引入 **稀疏性**,以此在**长上下文**场景中进一步降低**推理算力**与**显存占用**,提升长文本推理的性价比与稳定性。
### 2)融合 MoE 大核:把关键开销“压进同一个内核”
通过将 **MoE 的路由判断**与**专家矩阵乘法**融合进同一个 **GPU kernel**。这样可减少推理阶段大量的 **kernel 启动**与**显存搬运**开销,从而提升推理效率并降低延迟。
### 3)Hyper-Connections:对残差连接做可学习的多通路泛化
将传统的单一路径残差加法,升级为 **多条可学习加权通路**。让信息流动不再局限于固定的残差结构,从而增强网络表达能力与训练/推理表现。
原创文章,作者:admin,如若转载,请注明出处:https://www.23btc.com/172175/


