DeepSeek V4开源最强发布:1.6万亿参数,MIT许

DeepSeek V4开源最强发布:1.6万亿参数,MIT许

根据【动察 Beating】(https://t.me/OneMillion_AI)监测,DeepSeek 开源 **V4 系列预览版**已落地,**MIT 许可**,模型权重同步上架 **Hugging Face** 与 **ModelScope**。

## 一、V4 系列:两款 MoE 模型,覆盖长上下文

V4 系列包含两款 **MoE(混合专家)**模型:

– **V4-Pro**
– 总参数:**1.6T**
– 每 token 激活:**49B(490 亿)**
– **V4-Flash**
– 总参数:**284B(2840 亿)**
– 每 token 激活:**13B(130 亿)**

两款模型均支持 **1M token 上下文**能力。

## 二、架构三项升级:让 1M 长上下文“更省、更快”

### 1)混合注意力机制(CSA + HCA)
采用混合注意力策略:
– **压缩稀疏注意力 CSA**
– **重度压缩注意力 HCA**

在 **1M 上下文**条件下,V4-Pro 的效果表现为:
– **单 token 推理 FLOPs**:仅为 **V3.2 的 27%**
– **KV 缓存显存占用**(推理时存储历史信息):仅为 **V3.2 的 10%**

### 2)mHC:用超连接流形约束替代传统残差连接
通过 **流形约束超连接 mHC** 替代传统残差连接,增强跨层信号传播的稳定性。

### 3)Muon 优化器:训练加速收敛
训练阶段改用 **Muon 优化器**,提升训练效率与收敛速度。

## 三、预训练规模:数据量超 32T token

预训练数据规模 **超过 32T token**。

## 四、后训练策略:两阶段训练 + 在线蒸馏统一合并

后训练分为两阶段:

1. **先分别强化学习**
– 使用 **SFT**(监督微调)
– 配合 **GRPO** 强化学习
– 对各领域专家进行训练
2. **再在线蒸馏统一合并**
– 将各能力统一合并成一个模型

## 五、推理与任务表现:Pro 更强,Flash 更接近但更受限

– **V4-Pro-Max**
– 最高推理力度模式
– 自称为“当前最强开源模型”
– 编码基准达到顶级
– 在推理与 agent 任务上,较闭源前沿差距显著缩小

– **V4-Flash-Max**
– 给足思考预算后,推理表现接近 Pro
– 但在纯知识与复杂 agent 任务上仍受参数规模限制

## 六、权重格式:FP4 + FP8 混合精度存储

权重采用 **FP4 + FP8 混合精度**存储方式。

原创文章,作者:admin,如若转载,请注明出处:https://www.23btc.com/174202/

(0)
上一篇 19小时前
下一篇 19小时前

相关推荐