DeepMind发布Gemini Robotics-ER 1

DeepMind发布Gemini Robotics-ER 1

DeepMind 发布 Gemini Robotics-ER 1.6:机器人高层推理能力再升级

1M AI News 监测,谷歌 DeepMind 发布了 Gemini Robotics-ER 1.6,定位为面向机器人的高层推理模型。相较于前代 ER 1.5 以及 Gemini 3.0 Flash,在空间推理多视角理解方面实现了显著提升。

该模型现已通过 Gemini APIGoogle AI Studio 向开发者开放。


核心升级三大能力

  1. 指向(pointing)精度大幅提升
    可用于更精确的物体检测、计数空间关系推理。例如机器人能完成类似“指出所有能放进蓝色杯子的物体”这类任务;同时还能正确拒绝指向画面中不存在的物体,降低误判与幻指风险。
  2. 多视角成功检测更稳健
    机器人能够综合来自多个摄像头的画面,判断任务是否完成。即便面对遮挡动态环境,依然能保持更高的准确性与一致性。
  3. 新增仪表读取能力
    支持解读多种工业仪表,包括圆形压力表垂直液位指示器以及数字显示屏等。通过 agentic vision(视觉推理 + 代码执行),模型可采用“逐步推理”方式读取:先放大关键细节区域,再借助指向与代码计算比例与间隔,最后结合世界知识得到读数。

与 Boston Dynamics 合作:Spot 将可在工业现场自主读表

DeepMind 表示,仪表读取能力源自其与 Boston Dynamics 的合作。

同日,Boston Dynamics 也宣布:已将 GeminiGemini Robotics-ER 1.6 集成到其 Orbit AIVI-Learning 产品中,并于 4 月 8 日对所有 AIVI-Learning 客户上线。

集成后新增了 gauges(仪表盘) 支持:四足机器人 Spot 现在能够在工业设施中进行自主巡检,并读取压力表等仪表数据。

Boston Dynamics 还称,得益于 Gemini 的推理能力,AIVI-Learning 在既有任务(如视觉巡检托盘计数积液检测等)的基线性能与准确率也获得提升。


“最安全的机器人模型”:安全指令遵从度显著领先

DeepMind 介绍,ER 1.6 是其“最安全的机器人模型”。在对抗性空间推理任务中,其安全指令遵从度相较 ER 1.5 有明显提升。

在基于真实受伤报告的安全风险识别测试中,ER 系列模型相对 Gemini 3.0 Flash文本场景高 6%视频场景高 10%

原创文章,作者:admin,如若转载,请注明出处:https://www.23btc.com/170926/

(0)
上一篇 4小时前
下一篇 4小时前

相关推荐