UniGRPO：让AI画图前先想

据 [1M AI News](https://t.me/OneMillion_AI)监测，香港中文大学联合字节跳动 Seed 团队提出全新统一框架 UniGRPO，首次将文本推理与图像生成纳入同一个强化学习闭环之中，为多模态生成带来了更自然、更完整的优化路径。

与传统方法将“思考”和“作图”拆开训练不同，UniGRPO 的核心理念是：让模型先“想清楚”，再“画出来”。具体来说，图像生成模型会在生成前先进行链式推理（Chain-of-Thought），主动扩展和细化用户提示词，随后再进入图像生成阶段。整个过程中，框架通过 GRPO 算法同时优化“推理”和“生成”两大环节，而不是分别训练、彼此割裂。

这一设计建立在字节 Seed 的多模态模型 Bagel 之上。研究团队将“提示词 → 推理 → 图像”的完整链路统一建模为一个马尔可夫决策过程（MDP）：

– 文本推理部分采用标准 GRPO 进行优化
– 图像生成部分则使用 FlowGRPO 完成训练

为了让该框架进一步适配多轮交互和多条件生成任务，例如图像编辑、复杂条件控制等，研究者还对 FlowGRPO 进行了两项关键升级。

首先，UniGRPO 在训练阶段移除了 classifier-free guidance（CFG）。这一改动直接减少了分支计算带来的额外开销，使整个生成路径保持线性、无分支，不仅提高了训练效率，也让框架在复杂场景下更具扩展性。

其次，研究团队用速度场上的 MSE 惩罚替代了潜空间中的 KL 散度约束。相比传统做法，这种方式能够更均匀地限制模型偏离预训练分布的程度，从而有效抑制奖励黑客（reward hacking）问题，让优化目标更加稳定可靠。

在实验结果上，UniGRPO 展现出非常明显的优势。研究在 1024 分辨率下完成训练，最终模型在多个关键评测中都取得了更优表现：

– 文本对齐评测 TA Score：`0.8381`
– 组合生成评测 GenEval：`0.90`

相比之下，仅优化图像生成的 FlowGRPO 成绩为：

– TA Score：`0.8208`
– GenEval：`0.86`

而只优化推理阶段的 TextGRPO 表现为：

– TA Score：`0.8078`
– GenEval：`0.88`

这一结果清晰表明：将“想”和“画”放进同一强化学习回路进行联合优化，带来的收益不仅真实存在，而且明显超过分别优化两个阶段后再拼接的效果。

另外，研究团队还尝试了基于 FPO 的替代方案 UniFPO，但训练过程直接崩溃，最终未能成功收敛。这也从侧面说明，在这种同时涉及文本推理与图像生成的复杂场景中，GRPO 相比 FPO 具备更突出的稳定性优势。

从更长远的角度来看，UniGRPO 的意义并不只是在指标上刷新成绩，更在于它提供了一条新的多模态训练思路：未来的图像模型或许不再只是“接收提示词后立即出图”，而是先进行可解释的推理，再把思考结果转化为视觉内容。这样的生成流程，更接近人类创作时“先构思、再落笔”的自然方式，也为多轮交互、图像编辑和复杂任务控制打开了新的空间。

原创文章，作者：admin，如若转载，请注明出处：https://www.23btc.com/164077/

UniGRPO：让AI画图前先想

相关推荐