DeepMind 发布 Gemini Robotics-ER 1.6:机器人高层推理能力再升级
据 1M AI News 监测,谷歌 DeepMind 发布了 Gemini Robotics-ER 1.6,定位为面向机器人的高层推理模型。相较于前代 ER 1.5 以及 Gemini 3.0 Flash,在空间推理与多视角理解方面实现了显著提升。
该模型现已通过 Gemini API 与 Google AI Studio 向开发者开放。
核心升级三大能力
-
指向(pointing)精度大幅提升
可用于更精确的物体检测、计数与空间关系推理。例如机器人能完成类似“指出所有能放进蓝色杯子的物体”这类任务;同时还能正确拒绝指向画面中不存在的物体,降低误判与幻指风险。 -
多视角成功检测更稳健
机器人能够综合来自多个摄像头的画面,判断任务是否完成。即便面对遮挡或动态环境,依然能保持更高的准确性与一致性。 -
新增仪表读取能力
支持解读多种工业仪表,包括圆形压力表、垂直液位指示器以及数字显示屏等。通过 agentic vision(视觉推理 + 代码执行),模型可采用“逐步推理”方式读取:先放大关键细节区域,再借助指向与代码计算比例与间隔,最后结合世界知识得到读数。
与 Boston Dynamics 合作:Spot 将可在工业现场自主读表
DeepMind 表示,仪表读取能力源自其与 Boston Dynamics 的合作。
同日,Boston Dynamics 也宣布:已将 Gemini 与 Gemini Robotics-ER 1.6 集成到其 Orbit AIVI-Learning 产品中,并于 4 月 8 日对所有 AIVI-Learning 客户上线。
集成后新增了 gauges(仪表盘) 支持:四足机器人 Spot 现在能够在工业设施中进行自主巡检,并读取压力表等仪表数据。
Boston Dynamics 还称,得益于 Gemini 的推理能力,AIVI-Learning 在既有任务(如视觉巡检、托盘计数、积液检测等)的基线性能与准确率也获得提升。
“最安全的机器人模型”:安全指令遵从度显著领先
DeepMind 介绍,ER 1.6 是其“最安全的机器人模型”。在对抗性空间推理任务中,其安全指令遵从度相较 ER 1.5 有明显提升。
在基于真实受伤报告的安全风险识别测试中,ER 系列模型相对 Gemini 3.0 Flash:文本场景高 6%、视频场景高 10%。
原创文章,作者:admin,如若转载,请注明出处:https://www.23btc.com/170926/


