Ramp Labs多智能体记忆共享方案:Token消耗最高降

Ramp Labs多智能体记忆共享方案:Token消耗最高降

**BlockBeats 消息,4 月 11 日**——AI 基础设施公司 **Ramp Labs** 发布研究成果 **《Latent Briefing》**。该方案通过**直接压缩大模型 KV 缓存**,实现多智能体系统之间的**高效记忆共享**:在**不牺牲准确率**的前提下,显著降低 Token 消耗。

## 多智能体系统为何“越跑越耗 Token”?

在主流多智能体架构里,**编排者(Orchestrator)**负责将任务拆解,并反复调用**工作者(Worker)**模型。随着推理链路不断延伸,Token 用量很容易出现**指数级膨胀**。

## Latent Briefing 的关键思路:压缩冗余,只保留真正关键

《Latent Briefing》的核心做法是利用**注意力机制**,自动识别上下文中**真正关键的部分**:

– 在**表示层**直接丢弃冗余信息
– 避免依赖:
– **速度慢**的 LLM 摘要
– **稳定性有限**的 RAG 检索

换句话说,它不是“再总结一遍”,而是从缓存层面进行更高效的压缩与共享。

## LongBench v2:效果显著且代价可控

在 **LongBench v2** 基准测试中,该方法表现亮眼:

– **Worker 模型 Token 消耗降低 65%**
– 中等长度文档(**32k~100k**)Token 节省中位数达 **49%**
– **整体准确率较基线提升约 3 个百分点**
– 每次压缩额外耗时仅约 **1.7 秒**
– 相比原始算法,整体提速约 **20 倍**

## 实验设置覆盖多类真实场景

实验采用:

– **Claude Sonnet 4** 作为编排者
– **Qwen3-14B** 作为工作者模型

覆盖文档类型包括:**学术论文、法律文书、小说、政府报告**等多种场景。

## 压缩阈值并非一刀切

研究还指出:**最优压缩阈值**会随任务难度与文档长度变化而调整:

– **难题**更适合**激进压缩**:过滤“投机性推理”带来的噪声
– **长文档**更适合**轻度压缩**:尽量保留分散在各处的关键信息

原创文章,作者:admin,如若转载,请注明出处:https://www.23btc.com/169818/

(0)
上一篇 13小时前
下一篇 12小时前

相关推荐