V4后训练换代：OPD替代混合RL，蒸馏十余专家为一

20小时前 • 币资讯

V4后训练换代：OPD替代混合RL，蒸馏十余专家为一

据[动察 Beating](https://t.me/OneMillion_AI)监测，DeepSeek V4 的后训练方法论出现了重大调整：**V3.2 中的 mixed RL 阶段已被 On-Policy Distillation（OPD，在线策略蒸馏）完全替代**。

—

## 新后训练流程：两步走

### 第一步：领域专家分工训练
针对数学、代码、Agent、指令跟随等关键领域，团队在 **V3.2 流水线**基础上，分别训练**领域专家模型**。
每个专家的训练路径为：

1. **微调（SFT）**
2. **用 GRPO 进行强化学习（RL）**

最终形成多个覆盖不同能力维度的专家模型。

—

### 第二步：用多教师 OPD 蒸馏合并能力
接着，团队使用**多教师 OPD**，将十余个专家的能力蒸馏到**一个统一模型**中。

具体做法是：
– 学生模型在**自身生成的轨迹**上，为每个教师进行
**reverse KL 散度**的**全词表 logit 蒸馏**；
– 通过 **logits 级别的对齐**，把多个专家的能力权重融合到统一参数空间；
– 从而避免传统 **weight merging** 以及 **mixed RL** 常见的能力冲突问题。

—

## 新增机制：Generative Reward Model（GRM）

报告还提出 **Generative Reward Model（GRM，生成式奖励模型）**：
对于难以依靠规则验证的任务，不再训练传统的**标量奖励模型**。

而是改用：
– **rubric（评分准则）引导**的 RL 数据
– 训练 GRM，使 actor 网络能够**同时承担生成与评判能力**

据称：只需**少量但足够多样化的人工标注**，就能对复杂任务实现更好的泛化效果。

原创文章，作者：admin，如若转载，请注明出处：https://www.23btc.com/174226/

赞 (0)

0

Maven 11领投3F 400万美元种子轮融资完成

上一篇 21小时前

Base生态REPPO市值破2000万，24小时涨40%

下一篇 20小时前

币资讯

Metaplanet财年收入飙升738%至89亿日元

**重磅！Metaplanet 登顶日本比特币持仓王座，全球上市公司排名第四** BlockBeats 独家获悉，2月16日，日本上市公司Metaplanet Inc.在其最新发布…

2026年2月16日
0
与鲸鱼0x7DE相关的三个钱包在过去三天内购入了1216万枚SPX，目前累计盈利125万美元。

【2024-10-10 12:27】23btc报道，根据Spot On Chain监测，与大户“0x7DE”相关的三个钱包，在过去的3天内花费615万美元购买了1216万枚SPX，…

币资讯 2024年10月10日
0
币资讯

Bitget IPO Prime preSPAX上线3小时，

BlockBeats 消息 4月18日，Bitget IPO Prime 启动前期项目preSPAX，3小时内开盘认购人数递增至4,633人，累计购买金额突破7亿美元。通过先入为主…

6天前
0
Pyth Network上线USDE/USD价格源

【2024-02-05 19:47】23btc报道，Pyth Network宣布已上线USDE/USD价格源，其USDE/USD价格信息现已在Solana和其他50多个区块链上提供…

币资讯 2024年2月5日
0
zkSync Lite生态项目ZigZag将在本周停止运营。

【2024-04-13 09:24】4月13日消息，基于 zkSync Lite 的去中心化交易所 ZigZag 宣布因监管压力将于本周停止运营，zkLite Exchange 团…

币资讯 2024年4月13日
0
去中心化消息应用Status正式发布了移动端及最新桌面端的测试版。

【2024-09-05 23:36】金色财经讯，去中心化消息应用 Status 发布公告，正式推出其移动端应用及全新桌面测试版。然而，此版本尚非最终版，团队仍在不断优化，力求完善应…

币资讯 2024年9月5日
0
币资讯

美法官令公开爱泼斯坦案陪审团记录

【重磅解密】美国法院下令：爱泼斯坦案大陪审团调查记录即将公开！据最新消息，当地时间12月5日，美国联邦地区法官罗德尼·史密斯正式下令，要求公开涉及爱泼斯坦案的联邦大陪审团调查文件…

2025年12月6日
0
股市巨头SOL跌破了130美元。

【2024-06-25 02:59】23btc报道称，近期行情显示，SOL暴跌至130美元以下，目前报价129.03美元，单日跌幅高达1.34%，市场波动剧烈，请投资者注意风险控制…

币资讯 2024年6月25日
0
币资讯

币安上架金银交易，USDT成最大赢家

币安推出USDT结算贵金属永续合约，加密投资者迎来全天候交易新选择全球领先的加密货币交易所币安宣布，已正式推出以USDT（泰达币）结算的黄金和白银永续期货合约。这一创新产品允许加…

2026年1月9日
0
币资讯

ETH突破4100美元

2025年10月22日
0