据[动察 Beating](https://t.me/OneMillion_AI)监测,DeepSeek V4 发布前,社区曾广泛流传一种猜测:V4 的上线时间可能晚于预期,是因为模型从英伟达迁移到华为昇腾平台后,适配环节遇到了技术难题。
不过,V4 的技术报告并未直接回应这一传闻,但其中披露的性能数据与上述说法形成了明显矛盾。
—
## 报告要点:跨平台部署已完成验证
报告显示,V4 的细粒度专家分区方案(Fine-Grained EP Scheme)已在 **NVIDIA GPU** 与 **华为昇腾 NPU** 两个平台完成部署验证。
在常规推理负载上,V4 带来 **1.50~1.73 倍**的加速;而在 **RL rollout**、**高速 Agent 服务**等延迟敏感场景中,最高加速可达 **1.96 倍**。
—
## 开源进展:关键内核已作为 DeepGEMM 的一部分发布
此外,团队还将 **CUDA 版本内核 MegaMoE** 作为 **DeepGEMM** 的一部分开源。
—
## 结论:跨平台适配没有拖累性能
换言之,V4 在两套硬件体系上都实现了接近理论上限的效率表现。若存在“迁移适配导致性能受损”的问题,从报告披露的结果来看并不成立。
原创文章,作者:admin,如若转载,请注明出处:https://www.23btc.com/174250/


