Google 发布 TurboQuant：以极致压缩重定义 AI 效率

导语（原文直译）

我们提出了一组先进且有坚实理论基础的量化算法，可为大语言模型和向量搜索引擎实现大规模压缩。

向量是 AI 模型理解和处理信息的基础方式。小向量描述简单属性，例如图中的一个点；而“高维”向量捕捉更复杂的信息，例如图像特征、词语含义或数据集属性。高维向量功能强大，但也会消耗大量内存，从而在键值缓存（key-value cache）中造成瓶颈。键值缓存是一种高速“数字速查表”，会用简单标签存储高频信息，让计算机无需在缓慢而庞大的数据库中检索即可即时取回。

向量量化（vector quantization）是一种强大的经典数据压缩技术，可减小高维向量大小。这项优化解决了 AI 的两个关键方面：一是增强向量搜索（vector search）这一支撑大规模 AI 和搜索引擎的高速技术，使相似性查找更快；二是通过减小键值对大小来缓解键值缓存瓶颈，从而加快相似性搜索并降低内存成本。然而，传统向量量化通常会引入自身的“内存开销”，因为大多数方法都需要为每个小数据块计算并存储（全精度）量化常数。这种开销会让每个数额外增加 1 到 2 比特，部分抵消向量量化的意义。

今天，我们发布 TurboQuant（将于 ICLR 2026 展示），这是一种在向量量化中可最优应对内存开销挑战的压缩算法。我们还发布 Quantized Johnson-Lindenstrauss（QJL）与 PolarQuant（将于 AISTATS 2026 展示），TurboQuant 使用这两种方法实现其效果。在测试中，这三项技术都展现出在不牺牲 AI 模型性能的前提下降低键值瓶颈的潜力。这对所有依赖压缩的应用场景都可能产生深远影响，尤其是在搜索和 AI 领域。

TurboQuant 的工作方式（原文直译）

TurboQuant 是一种压缩方法，能够在精度零损失的情况下大幅降低模型大小，因此非常适合同时支持键值（KV）缓存压缩和向量搜索。它通过两个关键步骤实现：

为完整理解 TurboQuant 如何实现这种效率，我们进一步看 QJL 和 PolarQuant 两种算法如何工作。

1）高质量压缩（PolarQuant 方法）：TurboQuant 先对数据向量进行随机旋转。这个步骤会简化数据几何结构，从而便于对向量各部分分别应用标准且高质量的量化器（quantizer：把大量连续值（如高精度小数）映射到更小的离散符号或数字集合（如整数）的工具，示例包括音频量化和 JPEG 压缩）。第一阶段会使用绝大部分压缩能力（大部分比特）来捕捉原始向量的主要概念和强度。

2）消除隐藏误差：TurboQuant 用少量剩余压缩能力（仅 1 比特）把 QJL 算法应用到第一阶段留下的微小误差上。QJL 阶段像数学纠错器一样消除偏差，从而得到更准确的注意力分数。

QJL 使用一种称为 Johnson-Lindenstrauss Transform 的数学技术，在保留数据点关键距离与关系的同时压缩复杂高维数据。它把结果向量中的每个数字压缩为单一符号位（+1 或 -1）。这本质上形成了一种高速速记方式，且不需要内存开销。为保持精度，QJL 使用一种特殊估计器，在高精度查询与低精度简化数据之间做策略性平衡。这让模型仍能准确计算注意力分数（即判断输入中哪些部分重要、哪些部分可安全忽略的过程）。

PolarQuant 用完全不同的方法解决内存开销问题。它不再用标准坐标（如 X、Y、Z）来表示向量在各轴上的距离，而是把向量转换到极坐标表示。这相当于把“向东 3 个街区、向北 4 个街区”改写为“总共走 5 个街区，方向为 37 度”。这样得到两部分信息：半径（表示核心数据强度）和角度（表示数据方向或语义）。由于角度分布模式是已知且高度集中的，模型不再需要昂贵的数据归一化步骤，因为它把数据映射到固定且可预测的“圆形”网格（边界已知），而非边界不断变化的“方形”网格。这让 PolarQuant 可以消除传统方法必须承担的内存开销。

实验与结果（原文直译）

我们使用开源 LLM（Gemma 与 Mistral）在标准长上下文基准上严格评估了这三种算法，包括 LongBench、Needle In A Haystack、ZeroSCROLLS、RULER 和 L-Eval。实验数据显示，TurboQuant 在点积失真（dot product distortion）和召回率（recall）两项指标上都达到最优评分表现，同时把键值（KV）内存占用降到更低。下图展示了 TurboQuant、PolarQuant 与 KIVI 基线在问答、代码生成、摘要等任务上的综合表现分数。

下图给出了长上下文“草堆里找针”任务的结果（即测试模型能否在海量文本中找到一条特定而细小的信息）。TurboQuant 在所有基准上再次实现了完整下游效果，同时把键值内存大小至少缩小到 1/6。PolarQuant 在该任务上也几乎无损。

TurboQuant 证明其可在无需训练或微调的情况下，把键值缓存量化到仅 3 比特且不影响模型精度，同时运行速度快于原始 LLM（Gemma 与 Mistral）。它实现效率很高，运行时额外开销可忽略。下图展示了使用 TurboQuant 计算注意力 logits 的加速效果：在 H100 GPU 上，4 比特 TurboQuant 相较 32 比特未量化键可获得最高 8 倍性能提升。

这使它非常适合向量搜索等场景，因为它能显著加速索引构建过程。我们用 1@k 召回率评估 TurboQuant 在高维向量搜索中的效果，并与当前最先进方法（PQ 与 RabbiQ）比较。1@k 召回率衡量的是：算法在 top-k 近似结果中命中真实最大内积结果的频率。即使这些基线方法使用了低效的大码本和针对数据集的调参（见下图），TurboQuant 仍持续取得更高召回率。这验证了 TurboQuant 在高维搜索任务上的鲁棒性与效率。

TurboQuant 展示了高维搜索中的一次变革。它设立了可达速度的新基准，并以数据无关（data-oblivious）的方式实现近最优失真率。这使我们的最近邻引擎可以在保持更重模型精度的同时，以 3 比特系统的效率运行。更多细节见论文。

后续展望（原文直译）

TurboQuant、QJL 和 PolarQuant 不只是工程层面的实用方案，它们也是有强理论证明支撑的基础算法贡献。这些方法不仅在现实应用中表现良好，而且在理论上可被证明高效，并接近理论下界。正是这种严格基础让它们在关键的大规模系统中更稳健、更可信。

虽然一个主要应用是解决 Gemini 等模型中的键值缓存瓶颈，但高效在线向量量化的影响还会延伸得更远。例如，现代搜索正在从仅匹配关键词，演进到理解意图和语义。这需要向量搜索，也就是在数十亿向量构成的数据库中找到“最近”或语义最相似条目的能力。

像 TurboQuant 这样的技术对这一目标至关重要。它们能以极小内存、接近零预处理时间和最先进精度来构建与查询大型向量索引。这让 Google 规模下的语义搜索更快、更高效。随着 AI 从 LLM 到语义搜索更深地融入所有产品，向量量化这类基础工作将变得比以往任何时候都更关键。

致谢（原文直译）

这项研究与以下人员合作完成：Google 研究员 Praneeth Kacham；Google DeepMind 首席工程师 Majid Hadian；KAIST 助理教授 Insu Han；纽约大学博士生 Majid Daliri；Google 研究员 Lars Gottesbüren；Google 研究员 Rajesh Jayaram。