Google Vision Banana：生图模型成视觉GP

据【动察 Beating】(https://t.me/OneMillion_AI) 监测，谷歌团队（作者包括何恺明、谢赛宁等）发布论文，提出 **Vision Banana**。他们以自家图像生成模型 **Nano Banana Pro**（即 *Gemini 3 Pro Image*）为基础，进行**轻量指令微调**，将其转化为**通用视觉理解模型**。

—

## 核心思路：把视觉任务统一成“生成 RGB 图像”
论文的关键做法是：
将各种视觉任务的输出都进行**参数化到 RGB 图像空间**。

因此，不管是：

– **语义分割**
– **深度估计**
– **表面法线估计**
– 其他感知类任务

都可以通过“生成一张对应结果的图像”来完成。
也就是说，**无需为每一类任务单独设计专属架构或训练损失**，而是用统一的图像生成范式来承载不同的理解目标。

—

## 评测范围：图像分割 + 3D 几何推断
实验覆盖两大类任务：**图像分割**与**3D 几何推断**。

—

### 1）分割任务表现
– **语义分割**（为图中每个像素标注类别，如“路面/行人/车辆”）
– 在 **Cityscapes** 上，Vision Banana **超过专用分割模型 SAM 3**，提升 **4.7 个百分点**。

– **指代表达分割**（根据自然语言描述定位并分割物体，如“左边那只戴帽子的狗”）
– 同样 **超过 SAM 3 Agent**。

– **实例分割**（区分同一类别的不同个体，如分别标出“五只狗”）
– 仍然**落后于 SAM 3**。

—

### 2）3D 几何推断表现
– **深度估计**（从单张照片推断每个像素到相机的真实物理距离）
– 在四个标准数据集上，平均准确率 **0.929**
– 高于专用模型 **Depth Anything V3 的 0.918**
– 训练：**完全使用合成数据**，不依赖真实深度数据
– 推理：**不需要相机参数**

– **表面法线估计**（推断物体表面朝向）
– 在三个室内基准上取得 **最优结果**。

—

## 轻量微调不影响生成能力
微调方式为：
只需把**少量视觉任务数据**混入原始图像生成训练数据中。

结果显示：
– 在图像生成质量评测中，Vision Banana **与原始 Nano Banana Pro 打平**
– 说明其强大的生成能力基本没有被削弱。

—

## 论文观点：图像生成预训练=视觉领域的“理解底座”
论文认为，图像生成预训练在视觉领域的作用，类似于文本生成预训练在语言领域中的作用：

– 模型在学习生成图像时，已经形成了**理解图像所需的内部表征**
– 而指令微调的意义在于：把这些表征“释放出来”，让模型能更直接地完成视觉理解任务

—

**总结一句**：Vision Banana 用“统一图像输出形式 + 轻量指令微调”，把图像生成模型高效转型为通用视觉理解器，且在分割与3D任务上展现了强竞争力。

原创文章，作者：admin，如若转载，请注明出处：https://www.23btc.com/173884/

Google Vision Banana：生图模型成视觉GP

相关推荐