美团开源LongCat：3B全模态统一

据 [1M AI News](https://t.me/OneMillion_AI) 监测，美团龙猫团队正式开源 **LongCat-Next**。这是一款基于 **MoE 架构**、激活参数约 **3B** 的原生多模态模型，在单一自回归框架下，一次性打通了 **文本、视觉理解、图像生成、语音理解与语音合成** 五大能力。

更值得关注的是，**模型本体与配套分词器均以 MIT 许可证开源**，权重也已经上线 **HuggingFace**。这意味着，LongCat-Next 不只是一个研究成果，更是一套真正可被社区快速接入和扩展的多模态基础设施。

LongCat-Next 的关键突破：用一个框架统一五种模态能力

LongCat-Next 最核心的设计，是其提出的 **DiNA（离散原生自回归）范式**。

这一范式的思路非常直接，也非常大胆：
**为每一种模态分别设计成对的分词器与解码器，将图像和音频等连续信号离散化为 token，并与文本共享同一个嵌入空间。**
最终，模型通过统一的 **next-token prediction** 机制来完成所有任务。

换句话说，LongCat-Next 并不是把多个能力“拼装”在一起，而是试图从底层机制上，让不同模态在同一语言里被理解、被生成、被推理。

这也是它相比传统多模态方案更具想象力的地方：
**不是做“多模型协同”，而是做“原生统一”。**

视觉能力的关键组件：dNaViT

在视觉侧，LongCat-Next 引入了一个非常重要的组件：
**dNaViT（离散原生分辨率 Vision Transformer）**

它的作用，是将图像特征提取为可被模型直接处理的“视觉词”。在这一过程中，dNaViT 具备以下几个鲜明特点：

– 支持图像信号的离散化表达
– 支持动态分词与动态解码
– 在高压缩条件下，依然保持出色生成质量

尤其值得一提的是，LongCat-Next 在 **28 倍压缩比** 下，依然能维持相当强的图像生成效果，**在文字渲染任务上表现尤为突出**。这意味着它不仅能“画得像”，还更擅长处理那些对结构和语义一致性要求更高的生成场景。

同等激活参数量级下，LongCat-Next 交出了一份很强的成绩单

在与同为 **A3B 级别** 模型的对比中，LongCat-Next 在多个核心基准上展现出相当突出的竞争力。

1. 视觉理解

– **MMMU-Pro：60.3**
对比：Qwen3-Omni 57.0，GPT5-minimal 62.7

– **MathVista：83.1**
对比：Qwen3-Omni 75.9，GPT5-minimal 50.9

– **MathVision：64.7**
领先所有对比模型

– **DocVQA：94.2**

从这些结果来看，LongCat-Next 在通用视觉理解、数学视觉推理以及文档问答等任务中，都展现出非常稳定的高水准。

2. 图像生成

– **GenEval：84.44**
– **LongText-EN：93.15**
对比：FLUX.1-dev 60.70，Emu-3.5 97.60

这组结果说明，LongCat-Next 不只是理解能力强，在图像生成，尤其是长文本相关生成任务上，同样具备相当可观的表现。

3. 编程能力

– **SWE-Bench：43.0**
对比：Kimi-Linear-48B 32.8，Qwen3-Next-80B 37.6

作为一个主打多模态统一的模型，LongCat-Next 在纯文本编程基准上依然取得这一成绩，说明它并没有因为扩展到多模态而削弱核心语言能力。

4. Agent 工具调用

– **Tau2-Retail：73.68**
对比：Qwen3-Next 57.3

– **Tau2-Telecom：62.06**
对比：Qwen3-Next 13.2

在 Agent 工具调用场景中，LongCat-Next 的提升同样非常明显，尤其是在电信类任务上的优势更是拉开了显著差距。

统一理解与生成，不再意味着能力妥协

如果把视角放到“统一模型”这一赛道，LongCat-Next 的表现则更值得玩味。

在理解与生成统一模型的横向比较中：

– **LongCat-Next 的 MMMU 得分为 70.6**
– **NEO-unify 为 68.9**
– **BAGEL 为 55.3**
– **Ovis-U1 为 51.1**

也就是说，LongCat-Next 不仅领先第二名 NEO-unify，还明显甩开了 BAGEL、Ovis-U1 等此前较受关注的统一模型方案。

更关键的是，这种领先并不是靠“偏科”换来的。
它在 **SWE-Bench 43.0** 和 **Tau2 系列工具调用基准** 上的表现已经说明：
**这套多模态统一架构，并没有牺牲纯文本能力，也没有放弃 Agent 能力。**

这正是 LongCat-Next 最值得关注的地方——
它展示了一条更完整的路径：

**在统一模型中，同时保住理解、生成、代码与工具调用能力。**

为什么 LongCat-Next 值得重点关注？

LongCat-Next 的意义，可能不只是在于一次性能跑出多少 benchmark 分数，而在于它释放出一个明确的信号：

**多模态模型的未来，不一定是多个系统的拼接，而可能是一次真正意义上的底层统一。**

从 DiNA 范式，到 dNaViT 的视觉离散化设计，再到在视觉理解、图像生成、编程和 Agent 任务上的整体表现，LongCat-Next 都在说明一件事：

**“统一”不再只是概念验证，而正在变成可落地、可开源、可扩展的现实方案。**

对于关注下一代通用模型形态的人来说，LongCat-Next 无疑是一个值得持续跟踪的新信号。

原创文章，作者：admin，如若转载，请注明出处：https://www.23btc.com/163339/