128张A100从零训出！字节开源Lance全能多模态3B

根据[动察 Beating](https://t.me/OneMillion_AI)监测，字节跳动（ByteDance Research）已正式开源原生统一多模态大模型 **Lance**。

—

## 轻量化但全能：3B 激活参数的原生统一多模态模型

Lance 是一款**激活参数仅 3B** 的轻量级模型，却在同一框架内同时支持：

– **图像理解**
– **视频理解**
– **图像生成**
– **视频生成**
– **图像编辑**
– **视频编辑**

也就是说，它不是“拼装式统一”，而是从底层就围绕多模态任务建立起协同能力。

—

## 不靠堆参数：从零训练 + 预算压到极限

当前主流统一模型往往高度依赖两条路线：

1. **通过扩大参数规模**提升效果
2. **沿用文生图等架构**进行迁移改造

而 Lance 选择了一条更激进的低成本路线：
研发团队让模型**完全从零开始训练**，并将整个训练周期的总计算预算压低至 **128 张 A100 GPU**。

—

## 解决模态冲突的两项“硬隔离”设计

为避免不同模态与任务之间的内部冲突，Lance 在架构上做了两项关键隔离：

### 1）双流 MoE：解耦理解与生成路径
采用**双流混合专家（MoE）架构**来处理交织的多模态序列：
在共享底层上下文的同时，**把理解与生成的计算路径进行解耦**，降低互相干扰。

### 2）模态感知旋转位置编码：削弱异构 token 干扰
引入**模态感知的旋转位置编码**，对图像与视频在视觉 token 上的信号差异进行抑制，**直接削弱图像/视频异构 token 之间的干扰**。

—

## 极端算力压缩不降上限：小参数跑出大表现

尽管把激活参数压到仅 **3B**，Lance 在**图像与视频生成及编辑**方面，仍在绝大多数基准测试中表现**领跑现有开源统一模型**。

凭借多任务协同能力，Lance 通过“小参数也能兼顾生成与语义理解”的方式，跑通了一条**低成本、高上限**的统一多模态路线。

原创文章，作者：admin，如若转载，请注明出处：https://www.23btc.com/181990/