小米开源MiMo-V2.5:MIT 1T参数,ClawEva

小米开源MiMo-V2.5:MIT 1T参数,ClawEva

据 [动察 Beating](https://t.me/OneMillion_AI) 监测,小米 MiMo 团队已开源 MiMo-V2.5 系列大模型,包含两款模型,均采用 **MIT 许可**,支持**商用部署**、**继续训练**与**微调**;上下文窗口最高达 **100 万 token**。

## 一、MiMo-V2.5-Pro:纯文本 MoE,主打复杂 Agent 与编程

– **架构**:纯文本 **MoE(混合专家)**
– **总参数**:1.02T
– **激活参数**:420 亿

### 关键能力与表现
在 **ClawEval** 评测中,MiMo-V2.5-Pro 取得 **64% Pass^3**,达到同类水平;同时在效率方面表现突出——**每条任务轨迹仅消耗约 7 万 token**,相比 **Claude Opus 4.6、Gemini 3.1 Pro 和 GPT-5.4**,大约减少 **40%–60%** 的 token 开销。

在 **SWE-bench Verified** 上,得分达到 **78.9**。

### 官方案例亮点
官方博客展示案例中,V2.5-Pro 在北京大学编译原理课程项目中实现了一个完整的 **SysY → RISC-V 编译器**:
– 耗时:**4.3 小时**
– 工具调用:**672 轮**
– 隐藏测试集:**233/233 满分**

## 二、MiMo-V2.5:原生全模态,覆盖文本/图像/视频/音频理解

– **架构**:原生全模态模型
– **总参数**:3100 亿
– **激活参数**:150 亿
– **支持模态**:**文本、图像、视频、音频**

### 多模态能力配置
MiMo-V2.5 配备了专用编码器:
– 视觉编码器:**7.29 亿参数 ViT**
– 音频编码器:**2.61 亿参数**

在 **Claw-Eval 通用子集** 中,得分为 **62.3**。

## 三、两款模型的通用技术路线:SWA+GA + MTP 加速

两款模型均采用 **滑动窗口注意力(SWA)** 与 **全局注意力(GA)** 的混合架构,并搭配 **3 层多 token 预测(MTP)模块**:一次预测多个 token,从而提升推理效率。

同时,模型权重已发布至 **Hugging Face**,便于开发者直接获取与落地。

## 四、开源同步激励:Orbit 百万亿 Token 创造者计划

随着开源发布,MiMo 团队同步启动 **「Orbit 百万亿 Token 创造者激励计划」**:
– 时长:**30 天**
– 额度:面向全球用户免费发放**总计 100 万亿 token**

参与方式:个人开发者、团队与企业均可在活动页面提交申请。
– 评估周期:约 **3 个工作日**
– 通过后发放:以 **Token Plan** 或 **赠金** 形式到账
– 可直接配合 **Claude Code、Cursor** 等编程工具使用

原创文章,作者:admin,如若转载,请注明出处:https://www.23btc.com/175348/

(0)
上一篇 6小时前
下一篇 6小时前

相关推荐