英伟达发布Nemotron3Nano Omni:全模态统一推

英伟达发布Nemotron3Nano Omni:全模态统一推

BlockBeats 消息,4 月 29 日:英伟达正式推出 Nemotron 3 Nano Omni——Nemotron 3 系列迎来的新成员。该模型将统一的多模态推理整合进一款单一高效开源模型之中,面向 agentic(智能体)系统提供更连贯、更低成本的多模态能力。

打通单一循环,但摆脱碎片化模型链

英伟达指出,agentic 系统通常需要在屏幕、文档、音频、视频与文本之间完成一次从感知到行动(perceive-to-act)的单循环推理。

不过在现实落地中,多数方案仍依赖碎片化的模型链:视觉、音频、文本各自使用独立技术栈。这样做会带来三方面问题:

  • 推理跳数增加,编排流程更复杂
  • 推理成本上升
  • 跨模态上下文一致性变弱

Nemotron 3 Nano Omni 的目标,就是用一套统一的模型来替代原本分散的视觉-语言-音频技术栈。它将作为 agentic 系统中的多模态感知与上下文子代理(sub-agent)发挥关键作用。

准确率:文档、视频与音频同样领先

在准确率表现上,Nemotron 3 Nano Omni 在 文档智能榜单中取得领先成绩;同时在 视频与音频理解榜单也保持领先。

在开放行业基准 MediaPerf 上用于评估视频理解模型时,该模型在每项任务中均实现最高吞吐量;并且在视频级标注任务中取得最低推理成本

性能:吞吐更高,系统容量最高可达 9.2 倍 / 7.4 倍

在性能方面,英伟达强调该模型在固定的每用户交互阈值下具备更高效率:

  • 视频推理:Nemotron 3 Nano Omni 维持更高的总系统吞吐量,相较其他开源 omni 模型,可实现最高约 9.2 倍的有效系统容量
  • 多文档推理:可实现最高约 7.4 倍的有效系统容量

定位:替代多模型拼接架构,降低成本与复杂度

英伟达表示,Nemotron 3 Nano Omni 旨在替代传统多模型拼接架构,从而降低推理复杂度与整体成本。模型能力将助力多模态 AI 更容易落地到金融、医疗、科研与媒体等场景,实现更高效、更一致的理解与推理。

原创文章,作者:admin,如若转载,请注明出处:https://www.23btc.com/175714/

(0)
上一篇 17小时前
下一篇 17小时前

相关推荐