UniGRPO:让AI画图前先想

UniGRPO:让AI画图前先想

据 [1M AI News](https://t.me/OneMillion_AI)监测,香港中文大学联合字节跳动 Seed 团队提出全新统一框架 UniGRPO,首次将文本推理与图像生成纳入同一个强化学习闭环之中,为多模态生成带来了更自然、更完整的优化路径。

与传统方法将“思考”和“作图”拆开训练不同,UniGRPO 的核心理念是:让模型先“想清楚”,再“画出来”。具体来说,图像生成模型会在生成前先进行链式推理(Chain-of-Thought),主动扩展和细化用户提示词,随后再进入图像生成阶段。整个过程中,框架通过 GRPO 算法同时优化“推理”和“生成”两大环节,而不是分别训练、彼此割裂。

这一设计建立在字节 Seed 的多模态模型 Bagel 之上。研究团队将“提示词 → 推理 → 图像”的完整链路统一建模为一个马尔可夫决策过程(MDP):

– 文本推理部分采用标准 GRPO 进行优化
– 图像生成部分则使用 FlowGRPO 完成训练

为了让该框架进一步适配多轮交互和多条件生成任务,例如图像编辑、复杂条件控制等,研究者还对 FlowGRPO 进行了两项关键升级。

首先,UniGRPO 在训练阶段移除了 classifier-free guidance(CFG)。这一改动直接减少了分支计算带来的额外开销,使整个生成路径保持线性、无分支,不仅提高了训练效率,也让框架在复杂场景下更具扩展性。

其次,研究团队用速度场上的 MSE 惩罚替代了潜空间中的 KL 散度约束。相比传统做法,这种方式能够更均匀地限制模型偏离预训练分布的程度,从而有效抑制奖励黑客(reward hacking)问题,让优化目标更加稳定可靠。

在实验结果上,UniGRPO 展现出非常明显的优势。研究在 1024 分辨率下完成训练,最终模型在多个关键评测中都取得了更优表现:

– 文本对齐评测 TA Score:`0.8381`
– 组合生成评测 GenEval:`0.90`

相比之下,仅优化图像生成的 FlowGRPO 成绩为:

– TA Score:`0.8208`
– GenEval:`0.86`

而只优化推理阶段的 TextGRPO 表现为:

– TA Score:`0.8078`
– GenEval:`0.88`

这一结果清晰表明:将“想”和“画”放进同一强化学习回路进行联合优化,带来的收益不仅真实存在,而且明显超过分别优化两个阶段后再拼接的效果。

另外,研究团队还尝试了基于 FPO 的替代方案 UniFPO,但训练过程直接崩溃,最终未能成功收敛。这也从侧面说明,在这种同时涉及文本推理与图像生成的复杂场景中,GRPO 相比 FPO 具备更突出的稳定性优势。

从更长远的角度来看,UniGRPO 的意义并不只是在指标上刷新成绩,更在于它提供了一条新的多模态训练思路:未来的图像模型或许不再只是“接收提示词后立即出图”,而是先进行可解释的推理,再把思考结果转化为视觉内容。这样的生成流程,更接近人类创作时“先构思、再落笔”的自然方式,也为多轮交互、图像编辑和复杂任务控制打开了新的空间。

原创文章,作者:admin,如若转载,请注明出处:https://www.23btc.com/164077/

(0)
上一篇 1天前
下一篇 1天前

相关推荐