**BlockBeats 消息,4 月 11 日**——AI 基础设施公司 **Ramp Labs** 发布研究成果 **《Latent Briefing》**。该方案通过**直接压缩大模型 KV 缓存**,实现多智能体系统之间的**高效记忆共享**:在**不牺牲准确率**的前提下,显著降低 Token 消耗。
—
## 多智能体系统为何“越跑越耗 Token”?
在主流多智能体架构里,**编排者(Orchestrator)**负责将任务拆解,并反复调用**工作者(Worker)**模型。随着推理链路不断延伸,Token 用量很容易出现**指数级膨胀**。
—
## Latent Briefing 的关键思路:压缩冗余,只保留真正关键
《Latent Briefing》的核心做法是利用**注意力机制**,自动识别上下文中**真正关键的部分**:
– 在**表示层**直接丢弃冗余信息
– 避免依赖:
– **速度慢**的 LLM 摘要
– **稳定性有限**的 RAG 检索
换句话说,它不是“再总结一遍”,而是从缓存层面进行更高效的压缩与共享。
—
## LongBench v2:效果显著且代价可控
在 **LongBench v2** 基准测试中,该方法表现亮眼:
– **Worker 模型 Token 消耗降低 65%**
– 中等长度文档(**32k~100k**)Token 节省中位数达 **49%**
– **整体准确率较基线提升约 3 个百分点**
– 每次压缩额外耗时仅约 **1.7 秒**
– 相比原始算法,整体提速约 **20 倍**
—
## 实验设置覆盖多类真实场景
实验采用:
– **Claude Sonnet 4** 作为编排者
– **Qwen3-14B** 作为工作者模型
覆盖文档类型包括:**学术论文、法律文书、小说、政府报告**等多种场景。
—
## 压缩阈值并非一刀切
研究还指出:**最优压缩阈值**会随任务难度与文档长度变化而调整:
– **难题**更适合**激进压缩**:过滤“投机性推理”带来的噪声
– **长文档**更适合**轻度压缩**:尽量保留分散在各处的关键信息
原创文章,作者:admin,如若转载,请注明出处:https://www.23btc.com/169818/


