阿里T2I评测开源,GPT-4o五项夺冠

阿里T2I评测开源,GPT-4o五项夺冠

据【动察 Beating】监测,阿里巴巴 Qwen 团队正式开源了一款全新的图像生成评测基准——**Qwen-Image-Bench**,专为评估大语言模型在文本到图像生成(T2I)任务上的表现而设计。同步推出的还有基于 Qwen3.6-27B 深度训练的统一视觉裁判模型 **Q-Judger**。

该评测基准模拟专业艺术创作流程,构建了**五大核心评估维度**:画质表现、美学感知、图文语义对齐、真实世界保真度,以及新增的创意生成能力。这五大维度进一步细分为 23 项子能力与 56 项具体指标,构成了一套极为精细的评估体系。

Qwen-Image-Bench 收录了 **1000 条中英双语分层提示词**,其中长描述与短描述各占 500 条,每条提示词平均同时覆盖 4 个以上评估维度。为确保评估结果的严谨性,Q-Judger 视觉裁判模型在来自艺术院校的 **80 位专业评审**监督下,采用盲审与三级评审相结合的标注流程,训练数据集包含超过 **13 万对双语专家标注样本**。最终,模型可输出 56 个维度的结构化评分,与人类专家评分的吻合度高达 **92%**。

首批评估覆盖了 **18 款主流图像生成模型**,结果如下:

– **GPT Image 2** 以 **64.69** 的综合得分拔得头筹,在全部五大维度上均位列第一;
– **Nano Banana 2.0**(59.82)、**GPT Image 1.5**(59.65)、**Nano Banana Pro**(59.45)分列第二至第四名;
– 阿里自研的 **Qwen Image 2.0 Pro** 以 **57.84** 排名第五;
– **GLM Image** 以 **48.19** 排名垫底。

数据表明,**真实世界保真度** 与 **创意生成能力** 是拉开模型梯队差距的关键维度。本次评测同时揭示了当前行业面临的技术瓶颈:在绘制手部骨骼结构、呈现重力与光影等物理规律、处理物体之间的穿模问题等细节上,AI 绘画模型普遍表现欠佳,即便是顶尖模型在这些维度的得分也 **均未超过 44 分**。

原创文章,作者:admin,如若转载,请注明出处:https://www.23btc.com/183630/

(0)
上一篇 11小时前
下一篇 10小时前

相关推荐