根据[动察 Beating](https://t.me/OneMillion_AI)监测,字节跳动(ByteDance Research)已正式开源原生统一多模态大模型 **Lance**。
—
## 轻量化但全能:3B 激活参数的原生统一多模态模型
Lance 是一款**激活参数仅 3B** 的轻量级模型,却在同一框架内同时支持:
– **图像理解**
– **视频理解**
– **图像生成**
– **视频生成**
– **图像编辑**
– **视频编辑**
也就是说,它不是“拼装式统一”,而是从底层就围绕多模态任务建立起协同能力。
—
## 不靠堆参数:从零训练 + 预算压到极限
当前主流统一模型往往高度依赖两条路线:
1. **通过扩大参数规模**提升效果
2. **沿用文生图等架构**进行迁移改造
而 Lance 选择了一条更激进的低成本路线:
研发团队让模型**完全从零开始训练**,并将整个训练周期的总计算预算压低至 **128 张 A100 GPU**。
—
## 解决模态冲突的两项“硬隔离”设计
为避免不同模态与任务之间的内部冲突,Lance 在架构上做了两项关键隔离:
### 1)双流 MoE:解耦理解与生成路径
采用**双流混合专家(MoE)架构**来处理交织的多模态序列:
在共享底层上下文的同时,**把理解与生成的计算路径进行解耦**,降低互相干扰。
### 2)模态感知旋转位置编码:削弱异构 token 干扰
引入**模态感知的旋转位置编码**,对图像与视频在视觉 token 上的信号差异进行抑制,**直接削弱图像/视频异构 token 之间的干扰**。
—
## 极端算力压缩不降上限:小参数跑出大表现
尽管把激活参数压到仅 **3B**,Lance 在**图像与视频生成及编辑**方面,仍在绝大多数基准测试中表现**领跑现有开源统一模型**。
凭借多任务协同能力,Lance 通过“小参数也能兼顾生成与语义理解”的方式,跑通了一条**低成本、高上限**的统一多模态路线。
原创文章,作者:admin,如若转载,请注明出处:https://www.23btc.com/181990/


