阿里T2I评测开源，GPT-4o五项夺冠

据【动察 Beating】监测，阿里巴巴 Qwen 团队正式开源了一款全新的图像生成评测基准——**Qwen-Image-Bench**，专为评估大语言模型在文本到图像生成（T2I）任务上的表现而设计。同步推出的还有基于 Qwen3.6-27B 深度训练的统一视觉裁判模型 **Q-Judger**。

该评测基准模拟专业艺术创作流程，构建了**五大核心评估维度**：画质表现、美学感知、图文语义对齐、真实世界保真度，以及新增的创意生成能力。这五大维度进一步细分为 23 项子能力与 56 项具体指标，构成了一套极为精细的评估体系。

Qwen-Image-Bench 收录了 **1000 条中英双语分层提示词**，其中长描述与短描述各占 500 条，每条提示词平均同时覆盖 4 个以上评估维度。为确保评估结果的严谨性，Q-Judger 视觉裁判模型在来自艺术院校的 **80 位专业评审**监督下，采用盲审与三级评审相结合的标注流程，训练数据集包含超过 **13 万对双语专家标注样本**。最终，模型可输出 56 个维度的结构化评分，与人类专家评分的吻合度高达 **92%**。

首批评估覆盖了 **18 款主流图像生成模型**，结果如下：

– **GPT Image 2** 以 **64.69** 的综合得分拔得头筹，在全部五大维度上均位列第一；
– **Nano Banana 2.0**（59.82）、**GPT Image 1.5**（59.65）、**Nano Banana Pro**（59.45）分列第二至第四名；
– 阿里自研的 **Qwen Image 2.0 Pro** 以 **57.84** 排名第五；
– **GLM Image** 以 **48.19** 排名垫底。

数据表明，**真实世界保真度** 与 **创意生成能力** 是拉开模型梯队差距的关键维度。本次评测同时揭示了当前行业面临的技术瓶颈：在绘制手部骨骼结构、呈现重力与光影等物理规律、处理物体之间的穿模问题等细节上，AI 绘画模型普遍表现欠佳，即便是顶尖模型在这些维度的得分也 **均未超过 44 分**。

原创文章，作者：admin，如若转载，请注明出处：https://www.23btc.com/183630/

阿里T2I评测开源，GPT-4o五项夺冠

相关推荐