V4后训练换代:OPD替代混合RL,蒸馏十余专家为一

V4后训练换代:OPD替代混合RL,蒸馏十余专家为一

据[动察 Beating](https://t.me/OneMillion_AI)监测,DeepSeek V4 的后训练方法论出现了重大调整:**V3.2 中的 mixed RL 阶段已被 On-Policy Distillation(OPD,在线策略蒸馏)完全替代**。

## 新后训练流程:两步走

### 第一步:领域专家分工训练
针对数学、代码、Agent、指令跟随等关键领域,团队在 **V3.2 流水线**基础上,分别训练**领域专家模型**。
每个专家的训练路径为:

1. **微调(SFT)**
2. **用 GRPO 进行强化学习(RL)**

最终形成多个覆盖不同能力维度的专家模型。

### 第二步:用多教师 OPD 蒸馏合并能力
接着,团队使用**多教师 OPD**,将十余个专家的能力蒸馏到**一个统一模型**中。

具体做法是:
– 学生模型在**自身生成的轨迹**上,为每个教师进行
**reverse KL 散度**的**全词表 logit 蒸馏**;
– 通过 **logits 级别的对齐**,把多个专家的能力权重融合到统一参数空间;
– 从而避免传统 **weight merging** 以及 **mixed RL** 常见的能力冲突问题。

## 新增机制:Generative Reward Model(GRM)

报告还提出 **Generative Reward Model(GRM,生成式奖励模型)**:
对于难以依靠规则验证的任务,不再训练传统的**标量奖励模型**。

而是改用:
– **rubric(评分准则)引导**的 RL 数据
– 训练 GRM,使 actor 网络能够**同时承担生成与评判能力**

据称:只需**少量但足够多样化的人工标注**,就能对复杂任务实现更好的泛化效果。

原创文章,作者:admin,如若转载,请注明出处:https://www.23btc.com/174226/

(0)
上一篇 21小时前
下一篇 20小时前

相关推荐