英伟达Nemotron 3 Nano Omni开源:统一视觉

英伟达Nemotron 3 Nano Omni开源:统一视觉

据 **[动察 Beating](https://t.me/OneMillion_AI)** 监测,英伟达发布 **Nemotron 3 Nano Omni**——一款 **开源多模态模型**。它将 **视觉、音频和文本理解** 融合到 **同一个模型** 中,替代传统 agent 系统里“视觉、语音、语言各自跑一个模型”的做法。

## 核心亮点:把多模态合成一个模型
– **统一建模**:将视觉、音频与文本理解统一到单一模型框架中
– **架构设计**:采用 **30B-A3B 混合 MoE** 架构(混合专家架构,会按任务激活所需专家模块)
– **开放资源**:提供 **开放权重、数据集与训练方法**

## 榜单表现:文档、视频与音频能力多点开花
在 **文档智能、视频理解、音频理解** 等方向,Nemotron 3 Nano Omni 登顶 **6 项排行榜**,包括:
– **MMlongbench-Doc**
– **OCRBenchV2**
– **WorldSense**
– **DailyOmni**
– **VoiceBench**

## 性能优势:在相同交互响应下更快更能吞吐
– **保持相同用户交互响应速度**前提下
– 视频推理场景系统 **吞吐约为同类开源 omni 模型的 9.2 倍**
– 多文档推理 **约为 7.4 倍**

## 部署与生态:从边缘到数据中心全链路可用
– 支持 **FP8** 和 **NVFP4** 量化
– 可部署在 **Jetson 边缘设备** 到 **数据中心** 的全链路硬件环境
– 已有 **H Company、富士康、Palantir** 等公司采用或评估

## 规模数据:下载量表现强劲
– Nemotron 3 家族过去一年 **下载量超 5000 万次**

原创文章,作者:admin,如若转载,请注明出处:https://www.23btc.com/175750/

(0)
上一篇 21小时前
下一篇 20小时前

相关推荐