据 [动察 Beating](https://t.me/OneMillion_AI) 监测,谷歌已发布并开源 **Gemma 4 系列多 Token 预测(MTP)草稿模型**。
—
## 这是什么:轻量级草稿 + 投机解码加速
该模型采用 **投机解码(speculative decoding)** 架构:在保证**主模型最终验证权**不变的前提下,通过一个轻量级辅助模型提前预测多个后续 token,从而实现**最高 3 倍推理提速**,同时**不损耗输出质量与逻辑推理能力**。
—
## 为什么更快:一次预测多个 token,再并行验证
传统大语言模型通常是**一次生成一个 token**,很容易受限于显存带宽,导致算力出现闲置。
而 MTP 方案让草稿模型把利用“闲置算力”变成优势:
– 轻量级草稿模型**提前预测一段未来 token**
– 随后由 **31B 等重型目标模型**并行进行验证
– **若目标模型接受草稿**,就会**一次性接收整段序列**,避免逐 token 反复计算
—
## 进一步提效:共享激活与 KV 缓存 + 端侧聚类优化
为了减少重复计算,团队做了两点关键优化:
– **共享目标模型的激活状态与 KV 缓存**
– KV 缓存用于存储历史上下文,避免重复计算
– 针对端侧 **E2B 与 E4B** 模型,在**嵌入层引入聚类技术**
– 以更省资源的方式提升端侧运行效率
—
## 开源与兼容:Apache 2.0 + 原生支持多推理框架
目前,MTP 模型已采用与 **Gemma 4** 相同的 **Apache 2.0** 协议全面开源,并且**原生支持 vLLM、SGLang 和 Ollama** 等主流推理框架。
—
## 带来的直接价值:降低部署门槛,端侧更友好
这次提速优化让应用落地门槛显著下降:
– 开发者可在**普通消费级显卡**上流畅运行 **26B MoE** 与 **31B 稠密**模型
– 在**移动设备**上以更低功耗支持实时 AI 交互
—
原创文章,作者:admin,如若转载,请注明出处:https://www.23btc.com/178201/


