英伟达发布Nemotron3Nano Omni：全模态统一推

2026年4月29日上午12:27 • 币资讯

BlockBeats 消息，4 月 29 日：英伟达正式推出 Nemotron 3 Nano Omni——Nemotron 3 系列迎来的新成员。该模型将统一的多模态推理整合进一款单一高效开源模型之中，面向 agentic（智能体）系统提供更连贯、更低成本的多模态能力。

打通单一循环，但摆脱碎片化模型链

英伟达指出，agentic 系统通常需要在屏幕、文档、音频、视频与文本之间完成一次从感知到行动（perceive-to-act）的单循环推理。

不过在现实落地中，多数方案仍依赖碎片化的模型链：视觉、音频、文本各自使用独立技术栈。这样做会带来三方面问题：

推理跳数增加，编排流程更复杂
推理成本上升
跨模态上下文一致性变弱

Nemotron 3 Nano Omni 的目标，就是用一套统一的模型来替代原本分散的视觉-语言-音频技术栈。它将作为 agentic 系统中的多模态感知与上下文子代理（sub-agent）发挥关键作用。

准确率：文档、视频与音频同样领先

在准确率表现上，Nemotron 3 Nano Omni 在 文档智能榜单中取得领先成绩；同时在 视频与音频理解榜单也保持领先。

在开放行业基准 MediaPerf 上用于评估视频理解模型时，该模型在每项任务中均实现最高吞吐量；并且在视频级标注任务中取得最低推理成本。

性能：吞吐更高，系统容量最高可达 9.2 倍 / 7.4 倍

在性能方面，英伟达强调该模型在固定的每用户交互阈值下具备更高效率：

视频推理：Nemotron 3 Nano Omni 维持更高的总系统吞吐量，相较其他开源 omni 模型，可实现最高约 9.2 倍的有效系统容量
多文档推理：可实现最高约 7.4 倍的有效系统容量

定位：替代多模型拼接架构，降低成本与复杂度

英伟达表示，Nemotron 3 Nano Omni 旨在替代传统多模型拼接架构，从而降低推理复杂度与整体成本。模型能力将助力多模态 AI 更容易落地到金融、医疗、科研与媒体等场景，实现更高效、更一致的理解与推理。

原创文章，作者：admin，如若转载，请注明出处：https://www.23btc.com/175714/

英伟达发布Nemotron3Nano Omni：全模态统一推

打通单一循环，但摆脱碎片化模型链

准确率：文档、视频与音频同样领先

性能：吞吐更高，系统容量最高可达 9.2 倍 / 7.4 倍

定位：替代多模型拼接架构，降低成本与复杂度

相关推荐