Google 发布 TurboQuant:以极致压缩重定义 AI 效率
Google 发布 TurboQuant、QJL 与 PolarQuant,称其可在显著压缩模型与 KV 缓存的同时维持精度,并提升向量搜索与长上下文任务效率。

Google 发布 TurboQuant:以极致压缩重定义 AI 效率
Google Research 于 2026 年 3 月 24 日发布。作者:Amir Zandieh(Research Scientist)与 Vahab Mirrokni(VP and Google Fellow)。以下为原文中文直译。

图源:Google Research
导语(原文直译)
我们提出了一组先进且有坚实理论基础的量化算法,可为大语言模型和向量搜索引擎实现大规模压缩。
向量是 AI 模型理解和处理信息的基础方式。小向量描述简单属性,例如图中的一个点;而“高维”向量捕捉更复杂的信息,例如图像特征、词语含义或数据集属性。高维向量功能强大,但也会消耗大量内存,从而在键值缓存(key-value cache)中造成瓶颈。键值缓存是一种高速“数字速查表”,会用简单标签存储高频信息,让计算机无需在缓慢而庞大的数据库中检索即可即时取回。
向量量化(vector quantization)是一种强大的经典数据压缩技术,可减小高维向量大小。这项优化解决了 AI 的两个关键方面:一是增强向量搜索(vector search)这一支撑大规模 AI 和搜索引擎的高速技术,使相似性查找更快;二是通过减小键值对大小来缓解键值缓存瓶颈,从而加快相似性搜索并降低内存成本。然而,传统向量量化通常会引入自身的“内存开销”,因为大多数方法都需要为每个小数据块计算并存储(全精度)量化常数。这种开销会让每个数额外增加 1 到 2 比特,部分抵消向量量化的意义。
今天,我们发布 TurboQuant(将于 ICLR 2026 展示),这是一种在向量量化中可最优应对内存开销挑战的压缩算法。我们还发布 Quantized Johnson-Lindenstrauss(QJL)与 PolarQuant(将于 AISTATS 2026 展示),TurboQuant 使用这两种方法实现其效果。在测试中,这三项技术都展现出在不牺牲 AI 模型性能的前提下降低键值瓶颈的潜力。这对所有依赖压缩的应用场景都可能产生深远影响,尤其是在搜索和 AI 领域。
TurboQuant 的工作方式(原文直译)
TurboQuant 是一种压缩方法,能够在精度零损失的情况下大幅降低模型大小,因此非常适合同时支持键值(KV)缓存压缩和向量搜索。它通过两个关键步骤实现:
为完整理解 TurboQuant 如何实现这种效率,我们进一步看 QJL 和 PolarQuant 两种算法如何工作。
1)高质量压缩(PolarQuant 方法):TurboQuant 先对数据向量进行随机旋转。这个步骤会简化数据几何结构,从而便于对向量各部分分别应用标准且高质量的量化器(quantizer:把大量连续值(如高精度小数)映射到更小的离散符号或数字集合(如整数)的工具,示例包括音频量化和 JPEG 压缩)。第一阶段会使用绝大部分压缩能力(大部分比特)来捕捉原始向量的主要概念和强度。
2)消除隐藏误差:TurboQuant 用少量剩余压缩能力(仅 1 比特)把 QJL 算法应用到第一阶段留下的微小误差上。QJL 阶段像数学纠错器一样消除偏差,从而得到更准确的注意力分数。
QJL 使用一种称为 Johnson-Lindenstrauss Transform 的数学技术,在保留数据点关键距离与关系的同时压缩复杂高维数据。它把结果向量中的每个数字压缩为单一符号位(+1 或 -1)。这本质上形成了一种高速速记方式,且不需要内存开销。为保持精度,QJL 使用一种特殊估计器,在高精度查询与低精度简化数据之间做策略性平衡。这让模型仍能准确计算注意力分数(即判断输入中哪些部分重要、哪些部分可安全忽略的过程)。
PolarQuant 用完全不同的方法解决内存开销问题。它不再用标准坐标(如 X、Y、Z)来表示向量在各轴上的距离,而是把向量转换到极坐标表示。这相当于把“向东 3 个街区、向北 4 个街区”改写为“总共走 5 个街区,方向为 37 度”。这样得到两部分信息:半径(表示核心数据强度)和角度(表示数据方向或语义)。由于角度分布模式是已知且高度集中的,模型不再需要昂贵的数据归一化步骤,因为它把数据映射到固定且可预测的“圆形”网格(边界已知),而非边界不断变化的“方形”网格。这让 PolarQuant 可以消除传统方法必须承担的内存开销。
实验与结果(原文直译)
我们使用开源 LLM(Gemma 与 Mistral)在标准长上下文基准上严格评估了这三种算法,包括 LongBench、Needle In A Haystack、ZeroSCROLLS、RULER 和 L-Eval。实验数据显示,TurboQuant 在点积失真(dot product distortion)和召回率(recall)两项指标上都达到最优评分表现,同时把键值(KV)内存占用降到更低。下图展示了 TurboQuant、PolarQuant 与 KIVI 基线在问答、代码生成、摘要等任务上的综合表现分数。
下图给出了长上下文“草堆里找针”任务的结果(即测试模型能否在海量文本中找到一条特定而细小的信息)。TurboQuant 在所有基准上再次实现了完整下游效果,同时把键值内存大小至少缩小到 1/6。PolarQuant 在该任务上也几乎无损。
TurboQuant 证明其可在无需训练或微调的情况下,把键值缓存量化到仅 3 比特且不影响模型精度,同时运行速度快于原始 LLM(Gemma 与 Mistral)。它实现效率很高,运行时额外开销可忽略。下图展示了使用 TurboQuant 计算注意力 logits 的加速效果:在 H100 GPU 上,4 比特 TurboQuant 相较 32 比特未量化键可获得最高 8 倍性能提升。
这使它非常适合向量搜索等场景,因为它能显著加速索引构建过程。我们用 1@k 召回率评估 TurboQuant 在高维向量搜索中的效果,并与当前最先进方法(PQ 与 RabbiQ)比较。1@k 召回率衡量的是:算法在 top-k 近似结果中命中真实最大内积结果的频率。即使这些基线方法使用了低效的大码本和针对数据集的调参(见下图),TurboQuant 仍持续取得更高召回率。这验证了 TurboQuant 在高维搜索任务上的鲁棒性与效率。
TurboQuant 展示了高维搜索中的一次变革。它设立了可达速度的新基准,并以数据无关(data-oblivious)的方式实现近最优失真率。这使我们的最近邻引擎可以在保持更重模型精度的同时,以 3 比特系统的效率运行。更多细节见论文。
后续展望(原文直译)
TurboQuant、QJL 和 PolarQuant 不只是工程层面的实用方案,它们也是有强理论证明支撑的基础算法贡献。这些方法不仅在现实应用中表现良好,而且在理论上可被证明高效,并接近理论下界。正是这种严格基础让它们在关键的大规模系统中更稳健、更可信。
虽然一个主要应用是解决 Gemini 等模型中的键值缓存瓶颈,但高效在线向量量化的影响还会延伸得更远。例如,现代搜索正在从仅匹配关键词,演进到理解意图和语义。这需要向量搜索,也就是在数十亿向量构成的数据库中找到“最近”或语义最相似条目的能力。
像 TurboQuant 这样的技术对这一目标至关重要。它们能以极小内存、接近零预处理时间和最先进精度来构建与查询大型向量索引。这让 Google 规模下的语义搜索更快、更高效。随着 AI 从 LLM 到语义搜索更深地融入所有产品,向量量化这类基础工作将变得比以往任何时候都更关键。
致谢(原文直译)
这项研究与以下人员合作完成:Google 研究员 Praneeth Kacham;Google DeepMind 首席工程师 Majid Hadian;KAIST 助理教授 Insu Han;纽约大学博士生 Majid Daliri;Google 研究员 Lars Gottesbüren;Google 研究员 Rajesh Jayaram。
syq