TurboQuant – 谷歌推出的向量量化算法

AI工具1天前發佈新公告 AI管理員
0 0

TurboQuant是什麼

TurboQuant 是 Google Research 推出的向量量化算法,可將大模型 KV Cache 從 32-bit 壓縮至 3-bit,實現內存降低 6 倍、推理速度提升 8 倍,且精度零損失。TurboQuant 通過隨機旋轉將向量轉換到服從 Beta 分佈的座標系,結合 1-bit QJL 殘差修正,無需校準常數和模型微調,即插即用。TurboQuant 已驗證支持 Gemma、Mistral 等模型的長上下文任務,爲邊緣設備部署和降低雲端推理成本提供關鍵突破。

TurboQuant – 谷歌推出的向量量化算法

TurboQuant的主要功能

  • 極端壓縮:將 32-bit 浮點 KV Cache 壓縮至 3-bit,內存佔用降低 6 倍以上,同時支持最低 1-bit 的極限壓縮模式。
  • 加速推理:通過高度向量化的量化計算,在 H100 GPU 上實現 attention 計算速度提升 8 倍,顯著降低推理延遲。
  • 精度保持:在 LongBench、大海撈針等長上下文基準測試中,壓縮後的模型與原始模型得分完全一致,實現真正的零精度損失。
  • 即插即用:採用數據無關的在線量化策略,無需模型重新訓練、微調或針對特定數據集校準,部署門檻低。
  • 雙模式量化:提供 MSE 優化模式用於最小化重建誤差,以及內積優化模式用於提供無偏的注意力分數估計,滿足不同應用場景需求。
  • 多場景適用:適用大模型 KV Cache 壓縮以支持超長上下文,和向量數據庫的最近鄰搜索,在召回率和索引速度上均優於傳統方法。

TurboQuant的技術原理

  • 隨機旋轉降維:通過對輸入向量應用隨機旋轉矩陣,將高維向量從笛卡爾座標系轉換到各座標服從 Beta 分佈的空間,使不同座標近乎獨立,從而對每個座標獨立應用最優標量量化,無需存儲數據依賴的校準常數。
  • 最優標量量化:基於 Beta 分佈的統計特性,用 Lloyd-Max 算法求解連續一維 k-means 問題,爲每個座標預計算最優量化碼本,實現近最優的 MSE 失真率。
  • 兩階段殘差修正:應用 MSE 最優量化器進行主要壓縮,再對殘差向量應用 1-bit 的 Quantized Johnson-Lindenstrauss 變換進行修正,消除內積估計的偏差,實現無偏且低失真的注意力計算。
  • 信息論最優保證:通過證明 TurboQuant 的失真率與 Shannon 理論下界僅相差約 2.7 倍常數因子,且在低比特時更接近最優,從理論上驗證算法的極限性能。

TurboQuant的關鍵信息和使用要求

  • 發佈方:Google Research 與 Google DeepMind 聯合推出,論文發表於 ICLR 2026。
  • 核心指標:KV Cache 壓縮至 3-bit,內存降低 6 倍,推理速度提升 8 倍,精度零損失。
  • 技術組合:由 PolarQuant(隨機旋轉 + Beta 分佈量化)和 QJL(1-bit 殘差修正)兩階段構成。
  • 理論保證:失真率與信息論下界差距不超過 2.7 倍,1-bit 時僅差 1.45 倍。
  • 驗證模型:Gemma、Mistral 等開源大模型,通過 LongBench、大海撈針等 5 項長上下文基準測試。
  • 社區實現:已出現 PyTorch、MLX、C/CUDA 等多個第三方實現版本。
  • 無需訓練:不需要對模型進行重新訓練或微調,直接應用於預訓練模型。
  • 無需校準:採用數據無關的在線量化策略,不需要針對特定數據集進行離線校準或預處理。
  • 硬件支持:需要支持向量化的 AI 加速器(如 GPU)獲得最佳性能,算法本身不綁定特定硬件。

TurboQuant的核心優勢

  • 極致壓縮比:將 32-bit KV Cache 壓縮至 3-bit,內存佔用降低 6 倍以上,且最低支持 1-bit 極限壓縮,顯著緩解長上下文場景的顯存瓶頸。
  • 零精度損失:在 5 個長上下文基準測試中,壓縮後模型與原始模型得分完全一致,實現真正的無損壓縮,而非近似無損。
  • 推理加速顯著:高度向量化的算法設計使 attention 計算速度提升 8 倍,有效降低推理延遲,提升吞吐量。
  • 即插即用部署:無需模型重新訓練、微調或數據校準,開箱即用,大幅降低工程落地門檻和部署成本。
  • 理論性能最優:失真率與 Shannon 信息論下界僅相差約 2.7 倍常數因子,低比特時差距更小,逼近理論極限。

如何使用TurboQuant

目前官方尚未發佈開源代碼,可關注 Google Research 官方倉庫或 arXiv 論文頁面獲取最新開源信息。

TurboQuant的項目地址

  • 項目官網:https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/
  • arXiv技術論文:https://arxiv.org/pdf/2504.19874

TurboQuant的同類競品對比

對比維度 TurboQuant H2O GPTQ
技術路線 向量量化(3-bit 壓縮) 稀疏化保留 heavy hitters 靜態權重量化(4-bit)
壓縮對象 KV Cache(激活值) KV Cache(選擇性丟棄) 模型權重
壓縮比 6 倍(32-bit → 3-bit) 約 2-4 倍(依配置) 4 倍(權重)
精度損失 零損失(基準測試一致) 輕微損失 輕微損失
是否需要訓練
是否需要校準 否,數據無關 是,需校準數據集
是否支持動態輸入 是,在線量化 否,離線量化
加速效果 8 倍(attention 計算) 有限 有限,主要省顯存

TurboQuant的應用場景

  • 長上下文 LLM 服務:將 KV Cache 壓縮 6 倍,使雲端 API 支持百萬級 token 上下文,顯著降低算力成本並提升併發能力。
  • 消費級顯卡部署:支持讓 32GB 顯存的消費級 GPU 流暢運行 7B 以上模型的長上下文任務,打破本地部署的顯存瓶頸。
  • 邊緣設備推理:爲手機、物聯網設備等內存受限場景提供壓縮方案,使大模型能力下沉到端側設備。
  • 向量數據庫檢索:替代傳統 Product Quantization,在 RAG 系統中實現更高召回率和更低索引延遲的語義搜索。
© 版權聲明

相關文章

暫無評論

暫無評論...