IndexCache – 清華聯合智譜推出的稀疏注意力加速技術

1 0 0

IndexCache是什麼

IndexCache 是清華與智譜團隊推出的稀疏注意力加速技術，針對 DeepSeek 稀疏注意力（DSA）中索引器計算開銷大的問題，通過跨層複用索引來減少冗餘計算。IndexCache發現相鄰層選擇的 top-k token 重疊率高達 70%-100%，因此將層分爲”全量層”（計算並緩存索引）和”共享層”（直接複用緩存）。此方法可去除 75% 的索引器計算，在 200K 上下文場景下實現預填充 1.82 倍、解碼 1.48 倍加速，且幾乎不損失模型性能，已在 30B 參數模型及 744B 參數的 GLM-5 上驗證有效。

IndexCache的主要功能

跨層索引複用：用相鄰層 top-k 索引 70%-100% 的高重疊率，讓共享層直接複用全量層的緩存索引，避免重複計算。
大幅降低索引器開銷：可去除 75% 的索引器計算，僅保留 1/4 索引器即可維持模型性能。
顯著加速推理：在 200K 上下文下實現預填充 1.82 倍、解碼 1.48 倍加速，縮短用戶等待時間。
零額外內存開銷：通過一個條件分支實現複用，無需分配額外 GPU 顯存。
提供兩種部署方案：無訓練方案通過貪心搜索確定最優層模式，訓練感知方案通過多層蒸餾損失優化索引器參數。
生產級驗證：已在 30B 參數模型和 744B 參數的 GLM-5 上驗證有效，支持 SGLang 和 vLLM 推理框架。

IndexCache的技術原理

跨層索引相似性發現：研究團隊通過熱力圖分析發現，DSA 模型相鄰層的索引器輸出的 top-k token 集合具有極高相似性，重疊率普遍在 70% 至 100% 之間，表明大量索引計算存在冗餘。
層角色劃分機制：IndexCache 將模型層劃分爲兩類：全量層（Full Layer）保留原有索引器，負責計算並緩存當前最新的 top-k 索引；共享層（Shared Layer）不再運行自身索引器，直接複用最近一個全量層所緩存的索引進行稀疏注意力計算。
動態模式選擇策略：針對已訓練模型，採用基於校準數據的貪心搜索算法，逐一嘗試將層轉爲共享層並評估對模型輸出的影響，保留關鍵層作爲全量層；針對從頭訓練場景，引入多層蒸餾損失，讓每個全量層索引器同時學習服務其後多個共享層的需求。
推理流程優化：在推理過程中，每層僅增加一個簡單的條件判斷，根據預設模式在計算新索引與複用緩存索引之間切換，實現索引器的跨層共享，無需修改模型架構或增加額外存儲。

IndexCache的關鍵信息和使用要求

提出機構：清華大學與智譜（Z.ai）聯合研發。
針對問題：解決 DeepSeek 稀疏注意力中索引器在長上下文場景下的計算瓶頸，200K token 時佔預填充時間高達 81%。
核心原理：基於相鄰層 top-k 索引 70%-100% 的高重疊率，通過跨層複用減少冗餘計算。
加速效果：保留 1/4 索引器即可實現預填充 1.82 倍、解碼 1.48 倍加速。
性能損失：幾乎無質量損失，部分推理任務甚至表現更優。
驗證模型：在 30B 參數 DSA 模型及 744B 參數 GLM-5 上均驗證有效。
硬件要求：需 NVIDIA GPU（如 H100），但無需額外顯存，複用標準 DSA 內存空間。
軟件環境：支持 SGLang 或 vLLM 框架，提供現成補丁可直接用於 DeepSeek-V3.2、GLM-5 等模型。
無訓練方案：適用已訓練好的 DSA 模型，需準備小批量校準數據運行貪心搜索確定最優層模式。

IndexCache的核心優勢

顯著加速：支持200K 上下文下預填充提速 1.82 倍、解碼提速 1.48 倍，大幅降低用戶等待時間。
零性能損失：去除 75% 索引器計算後，模型質量幾乎無損，部分任務甚至略有提升。
零額外開銷：一個條件分支實現複用，不增加 GPU 顯存佔用，複用標準 DSA 已分配內存。
即插即用：提供 SGLang 和 vLLM 補丁，無需修改模型架構，可直接應用於 DeepSeek-V3.2、GLM-5 等主流模型。
靈活部署：支持無訓練和訓練感知兩種方案，適配已訓練模型和從頭訓練場景，索引器保留比例可靈活配置。
生產級驗證：已在 744B 參數的 GLM-5 大模型上驗證有效，具備規模化部署能力。

IndexCache的項目地址

GitHub倉庫：https://github.com/THUDM/IndexCache
arXiv技術論文：https://arxiv.org/pdf/2603.12201

IndexCache的同類競品對比

對比維度	IndexCache	原生 DSA	Full Attention Anchor 方法
核心機制	跨層複用索引器輸出的 top-k 索引	每層獨立運行輕量級索引器	依賴全注意力錨點層複用索引
計算開銷	去除 75% 索引器，預填充加速 1.82 倍	200K 上下文下索引器佔 81% 預填充時間	需保留全注意力層，計算成本較高
適用場景	完全消除全注意力的 DSA 架構	標準 DSA 部署	需全注意力作爲錨點的架構
實現複雜度	一個 if/else 分支，零額外顯存	標準實現	需設計錨點層策略
訓練要求	支持無訓練部署或訓練感知優化	需完整訓練	通常需聯合訓練
生產驗證	744B GLM-5 驗證	DeepSeek-V3 生產應用	多爲中小規模實驗