谷歌研究院推出创新量化压缩算法 TurboQuant,显著提升大模型效率
据 1M AI News 监测,谷歌研究院近日公布了新一代量化压缩算法——TurboQuant,这项技术能够将大型语言模型的KV缓存压缩至仅需3比特,从而实现内存占用至少减少6倍。这一突破无需额外训练或微调,即可保持模型的原有精度。
卓越性能,超越预期
在4比特模式下,TurboQuant在英伟达H100 GPU上对注意力计算的速度,最高较未量化的32比特基线提升了8倍。这意味着模型处理速度显著加快,为大规模模型部署带来了极大便利。
全面验证,表现优异
研究团队在LongBench、Needle In A Haystack、ZeroSCROLLS等长上下文基准测试中,使用Gemma和Mistral模型验证,结果显示TurboQuant在所有测试中都达到了行业领先的表现。算法由两个核心子算法组成:
- PolarQuant:通过极坐标变换,有效消除传统量化方法中的内存负担
- QJL:只用1比特校正残余误差,实现高效精确压缩
权威合作,期待未来
此项研究由谷歌研究院的 Amir Zandieh 和副总裁Vahab Mirrokni带领,并与韩国KAIST及纽约大学密切合作,预计将在ICLR 2026会议上正式发表。谷歌强调,这项技术的主要应用之一,是突破Gemini等大型模型的KV缓存瓶颈,推动大模型的普及与高效运行。
原创文章,作者:admin,如若转载,请注明出处:https://www.23btc.com/162885/


