Google Vision Banana:生图模型成视觉GP

Google Vision Banana:生图模型成视觉GP

据【动察 Beating】(https://t.me/OneMillion_AI) 监测,谷歌团队(作者包括何恺明、谢赛宁等)发布论文,提出 **Vision Banana**。他们以自家图像生成模型 **Nano Banana Pro**(即 *Gemini 3 Pro Image*)为基础,进行**轻量指令微调**,将其转化为**通用视觉理解模型**。

## 核心思路:把视觉任务统一成“生成 RGB 图像”
论文的关键做法是:
将各种视觉任务的输出都进行**参数化到 RGB 图像空间**。

因此,不管是:

– **语义分割**
– **深度估计**
– **表面法线估计**
– 其他感知类任务

都可以通过“生成一张对应结果的图像”来完成。
也就是说,**无需为每一类任务单独设计专属架构或训练损失**,而是用统一的图像生成范式来承载不同的理解目标。

## 评测范围:图像分割 + 3D 几何推断
实验覆盖两大类任务:**图像分割**与**3D 几何推断**。

### 1)分割任务表现
– **语义分割**(为图中每个像素标注类别,如“路面/行人/车辆”)
– 在 **Cityscapes** 上,Vision Banana **超过专用分割模型 SAM 3**,提升 **4.7 个百分点**。

– **指代表达分割**(根据自然语言描述定位并分割物体,如“左边那只戴帽子的狗”)
– 同样 **超过 SAM 3 Agent**。

– **实例分割**(区分同一类别的不同个体,如分别标出“五只狗”)
– 仍然**落后于 SAM 3**。

### 2)3D 几何推断表现
– **深度估计**(从单张照片推断每个像素到相机的真实物理距离)
– 在四个标准数据集上,平均准确率 **0.929**
– 高于专用模型 **Depth Anything V3 的 0.918**
– 训练:**完全使用合成数据**,不依赖真实深度数据
– 推理:**不需要相机参数**

– **表面法线估计**(推断物体表面朝向)
– 在三个室内基准上取得 **最优结果**。

## 轻量微调不影响生成能力
微调方式为:
只需把**少量视觉任务数据**混入原始图像生成训练数据中。

结果显示:
– 在图像生成质量评测中,Vision Banana **与原始 Nano Banana Pro 打平**
– 说明其强大的生成能力基本没有被削弱。

## 论文观点:图像生成预训练=视觉领域的“理解底座”
论文认为,图像生成预训练在视觉领域的作用,类似于文本生成预训练在语言领域中的作用:

– 模型在学习生成图像时,已经形成了**理解图像所需的内部表征**
– 而指令微调的意义在于:把这些表征“释放出来”,让模型能更直接地完成视觉理解任务

**总结一句**:Vision Banana 用“统一图像输出形式 + 轻量指令微调”,把图像生成模型高效转型为通用视觉理解器,且在分割与3D任务上展现了强竞争力。

原创文章,作者:admin,如若转载,请注明出处:https://www.23btc.com/173884/

(0)
上一篇 1天前
下一篇 1天前

相关推荐