据 [1M AI News](https://t.me/OneMillion_AI) 监测,美团龙猫团队正式开源 **LongCat-Next**。这是一款基于 **MoE 架构**、激活参数约 **3B** 的原生多模态模型,在单一自回归框架下,一次性打通了 **文本、视觉理解、图像生成、语音理解与语音合成** 五大能力。
更值得关注的是,**模型本体与配套分词器均以 MIT 许可证开源**,权重也已经上线 **HuggingFace**。这意味着,LongCat-Next 不只是一个研究成果,更是一套真正可被社区快速接入和扩展的多模态基础设施。
LongCat-Next 的关键突破:用一个框架统一五种模态能力
LongCat-Next 最核心的设计,是其提出的 **DiNA(离散原生自回归)范式**。
这一范式的思路非常直接,也非常大胆:
**为每一种模态分别设计成对的分词器与解码器,将图像和音频等连续信号离散化为 token,并与文本共享同一个嵌入空间。**
最终,模型通过统一的 **next-token prediction** 机制来完成所有任务。
换句话说,LongCat-Next 并不是把多个能力“拼装”在一起,而是试图从底层机制上,让不同模态在同一语言里被理解、被生成、被推理。
这也是它相比传统多模态方案更具想象力的地方:
**不是做“多模型协同”,而是做“原生统一”。**
视觉能力的关键组件:dNaViT
在视觉侧,LongCat-Next 引入了一个非常重要的组件:
**dNaViT(离散原生分辨率 Vision Transformer)**
它的作用,是将图像特征提取为可被模型直接处理的“视觉词”。在这一过程中,dNaViT 具备以下几个鲜明特点:
– 支持图像信号的离散化表达
– 支持动态分词与动态解码
– 在高压缩条件下,依然保持出色生成质量
尤其值得一提的是,LongCat-Next 在 **28 倍压缩比** 下,依然能维持相当强的图像生成效果,**在文字渲染任务上表现尤为突出**。这意味着它不仅能“画得像”,还更擅长处理那些对结构和语义一致性要求更高的生成场景。
同等激活参数量级下,LongCat-Next 交出了一份很强的成绩单
在与同为 **A3B 级别** 模型的对比中,LongCat-Next 在多个核心基准上展现出相当突出的竞争力。
1. 视觉理解
– **MMMU-Pro:60.3**
对比:Qwen3-Omni 57.0,GPT5-minimal 62.7
– **MathVista:83.1**
对比:Qwen3-Omni 75.9,GPT5-minimal 50.9
– **MathVision:64.7**
领先所有对比模型
– **DocVQA:94.2**
从这些结果来看,LongCat-Next 在通用视觉理解、数学视觉推理以及文档问答等任务中,都展现出非常稳定的高水准。
2. 图像生成
– **GenEval:84.44**
– **LongText-EN:93.15**
对比:FLUX.1-dev 60.70,Emu-3.5 97.60
这组结果说明,LongCat-Next 不只是理解能力强,在图像生成,尤其是长文本相关生成任务上,同样具备相当可观的表现。
3. 编程能力
– **SWE-Bench:43.0**
对比:Kimi-Linear-48B 32.8,Qwen3-Next-80B 37.6
作为一个主打多模态统一的模型,LongCat-Next 在纯文本编程基准上依然取得这一成绩,说明它并没有因为扩展到多模态而削弱核心语言能力。
4. Agent 工具调用
– **Tau2-Retail:73.68**
对比:Qwen3-Next 57.3
– **Tau2-Telecom:62.06**
对比:Qwen3-Next 13.2
在 Agent 工具调用场景中,LongCat-Next 的提升同样非常明显,尤其是在电信类任务上的优势更是拉开了显著差距。
统一理解与生成,不再意味着能力妥协
如果把视角放到“统一模型”这一赛道,LongCat-Next 的表现则更值得玩味。
在理解与生成统一模型的横向比较中:
– **LongCat-Next 的 MMMU 得分为 70.6**
– **NEO-unify 为 68.9**
– **BAGEL 为 55.3**
– **Ovis-U1 为 51.1**
也就是说,LongCat-Next 不仅领先第二名 NEO-unify,还明显甩开了 BAGEL、Ovis-U1 等此前较受关注的统一模型方案。
更关键的是,这种领先并不是靠“偏科”换来的。
它在 **SWE-Bench 43.0** 和 **Tau2 系列工具调用基准** 上的表现已经说明:
**这套多模态统一架构,并没有牺牲纯文本能力,也没有放弃 Agent 能力。**
这正是 LongCat-Next 最值得关注的地方——
它展示了一条更完整的路径:
**在统一模型中,同时保住理解、生成、代码与工具调用能力。**
为什么 LongCat-Next 值得重点关注?
LongCat-Next 的意义,可能不只是在于一次性能跑出多少 benchmark 分数,而在于它释放出一个明确的信号:
**多模态模型的未来,不一定是多个系统的拼接,而可能是一次真正意义上的底层统一。**
从 DiNA 范式,到 dNaViT 的视觉离散化设计,再到在视觉理解、图像生成、编程和 Agent 任务上的整体表现,LongCat-Next 都在说明一件事:
**“统一”不再只是概念验证,而正在变成可落地、可开源、可扩展的现实方案。**
对于关注下一代通用模型形态的人来说,LongCat-Next 无疑是一个值得持续跟踪的新信号。
原创文章,作者:admin,如若转载,请注明出处:https://www.23btc.com/163339/


