谷歌TurboQuant：3bit量化KV，推理快8倍

12小时前 • 币资讯

谷歌TurboQuant：3bit量化KV，推理快8倍

谷歌研究院推出创新量化压缩算法 TurboQuant，显著提升大模型效率

据 1M AI News 监测，谷歌研究院近日公布了新一代量化压缩算法——TurboQuant，这项技术能够将大型语言模型的KV缓存压缩至仅需3比特，从而实现内存占用至少减少6倍。这一突破无需额外训练或微调，即可保持模型的原有精度。

卓越性能，超越预期

在4比特模式下，TurboQuant在英伟达H100 GPU上对注意力计算的速度，最高较未量化的32比特基线提升了8倍。这意味着模型处理速度显著加快，为大规模模型部署带来了极大便利。

全面验证，表现优异

研究团队在LongBench、Needle In A Haystack、ZeroSCROLLS等长上下文基准测试中，使用Gemma和Mistral模型验证，结果显示TurboQuant在所有测试中都达到了行业领先的表现。算法由两个核心子算法组成：

PolarQuant：通过极坐标变换，有效消除传统量化方法中的内存负担
QJL：只用1比特校正残余误差，实现高效精确压缩

权威合作，期待未来

此项研究由谷歌研究院的 Amir Zandieh 和副总裁Vahab Mirrokni带领，并与韩国KAIST及纽约大学密切合作，预计将在ICLR 2026会议上正式发表。谷歌强调，这项技术的主要应用之一，是突破Gemini等大型模型的KV缓存瓶颈，推动大模型的普及与高效运行。

原创文章，作者：admin，如若转载，请注明出处：https://www.23btc.com/162885/

赞 (0)

0

消息人士：Tether或因融资进行首次全面审计

上一篇 12小时前

新鲸鱼5小时前提币33,998枚ETH

下一篇 12小时前

TokenFi宣布，今年将推出RWA代币化模块以及生成式AI等产品。

【2024-06-11 20:44】6月11日消息，TokenFi在X平台宣布，计划于今年晚些时候推出多项新功能，其中包括TokenFi RWA代币化模块、TokenFi AI智能…

币资讯 2024年6月11日
0
币资讯

贝莱德IBIT持仓超80万枚BTC

2025年11月2日
0
自九月初以来，四起黑客事件相继出现，攻击者已向Tornado Cash转移了20561枚ETH。

【2024-09-08 10:47】23btc报道，依据 Spot on Chain 的监测，自九月初以来，四起黑客事件中的攻击者已向 Tornado Cash 转移了 20,56…

币资讯 2024年9月8日
0
StakeStone与Merlin合作推出mSTONEBT：打造下一代区块链技术的创新者。

【2024-04-02 19:57】23btc报道，StakeStone流动性基础设施宣布与Merlin合作推出mSTONEBTC，这是一种收益型BTC，采用了BTCL2s的PoS…

币资讯 2024年4月2日
0
Coinbase国际Q4永续期货名义合约交易量超过160亿美元

【2024-02-17 06:56】Coinbase国际交易所近期发布的文章中称，第四季度Coinbase国际永续期货的名义合约交易量超过160亿美元。

币资讯 2024年2月17日
0
Filecoin流动性租赁协议Glif完成450万美元融资，Multicoin Capital 领投

【2024-02-06 23:16】23btc报道，Filecoin的流动性租赁协议Glif已成功融资450万美元，此轮融资由Multicoin Capital领投，同时还有Zee…

币资讯 2024年2月6日
0
币资讯

Solana Meme币BP市值破1400万，日涨160%

# Solana链上Meme币BP市值一度逼近1500万美元，24小时暴涨160% **BlockBeats 消息**，2月14日，据[GMGN监测平台](https://gmgn…

2026年2月14日
0
币资讯

CoinDCX获Coinbase投资，估值24.5亿美元

2025年10月15日
0
台湾金管会计划于九月提出虚拟货币专法草案

【2024-03-04 20:08】23btc报道称，据联合新闻网报道，台湾金融监管委员会主席黄天牧表示，金融监管委员会计划于今年 9 月提出一项针对虚拟货币的专法草案。该法案旨在…

币资讯 2024年3月4日
0
币资讯

美政府关门或持续10天，15日成关键

2025年10月9日
0