IndexCache – 清华联合智谱推出的稀疏注意力加速技术

AI工具集1小时前发布商道网

IndexCache是什么

IndexCache 是清华与智谱团队推出的稀疏注意力加速技术，针对 DeepSeek 稀疏注意力（DSA）中索引器计算开销大的问题，通过跨层复用索引来减少冗余计算。IndexCache发现相邻层选择的 top-k token 重叠率高达 70%-100%，因此将层分为”全量层”（计算并缓存索引）和”共享层”（直接复用缓存）。此方法可去除 75% 的索引器计算，在 200K 上下文场景下实现预填充 1.82 倍、解码 1.48 倍加速，且几乎不损失模型性能，已在 30B 参数模型及 744B 参数的 GLM-5 上验证有效。

IndexCache – 清华联合智谱推出的稀疏注意力加速技术

IndexCache的主要功能

跨层索引复用：用相邻层 top-k 索引 70%-100% 的高重叠率，让共享层直接复用全量层的缓存索引，避免重复计算。
大幅降低索引器开销：可去除 75% 的索引器计算，仅保留 1/4 索引器即可维持模型性能。
显著加速推理：在 200K 上下文下实现预填充 1.82 倍、解码 1.48 倍加速，缩短用户等待时间。
零额外内存开销：通过一个条件分支实现复用，无需分配额外 GPU 显存。
提供两种部署方案：无训练方案通过贪心搜索确定最优层模式，训练感知方案通过多层蒸馏损失优化索引器参数。
生产级验证：已在 30B 参数模型和 744B 参数的 GLM-5 上验证有效，支持 SGLang 和 vLLM 推理框架。

IndexCache的技术原理

跨层索引相似性发现：研究团队通过热力图分析发现，DSA 模型相邻层的索引器输出的 top-k token 集合具有极高相似性，重叠率普遍在 70% 至 100% 之间，表明大量索引计算存在冗余。
层角色划分机制：IndexCache 将模型层划分为两类：全量层（Full Layer）保留原有索引器，负责计算并缓存当前最新的 top-k 索引；共享层（Shared Layer）不再运行自身索引器，直接复用最近一个全量层所缓存的索引进行稀疏注意力计算。
动态模式选择策略：针对已训练模型，采用基于校准数据的贪心搜索算法，逐一尝试将层转为共享层并评估对模型输出的影响，保留关键层作为全量层；针对从头训练场景，引入多层蒸馏损失，让每个全量层索引器同时学习服务其后多个共享层的需求。
推理流程优化：在推理过程中，每层仅增加一个简单的条件判断，根据预设模式在计算新索引与复用缓存索引之间切换，实现索引器的跨层共享，无需修改模型架构或增加额外存储。

IndexCache的关键信息和使用要求

提出机构：清华大学与智谱（Z.ai）联合研发。
针对问题：解决 DeepSeek 稀疏注意力中索引器在长上下文场景下的计算瓶颈，200K token 时占预填充时间高达 81%。
核心原理：基于相邻层 top-k 索引 70%-100% 的高重叠率，通过跨层复用减少冗余计算。
加速效果：保留 1/4 索引器即可实现预填充 1.82 倍、解码 1.48 倍加速。
性能损失：几乎无质量损失，部分推理任务甚至表现更优。
验证模型：在 30B 参数 DSA 模型及 744B 参数 GLM-5 上均验证有效。
硬件要求：需 NVIDIA GPU（如 H100），但无需额外显存，复用标准 DSA 内存空间。
软件环境：支持 SGLang 或 vLLM 框架，提供现成补丁可直接用于 DeepSeek-V3.2、GLM-5 等模型。
无训练方案：适用已训练好的 DSA 模型，需准备小批量校准数据运行贪心搜索确定最优层模式。

IndexCache的核心优势

显著加速：支持200K 上下文下预填充提速 1.82 倍、解码提速 1.48 倍，大幅降低用户等待时间。
零性能损失：去除 75% 索引器计算后，模型质量几乎无损，部分任务甚至略有提升。
零额外开销：一个条件分支实现复用，不增加 GPU 显存占用，复用标准 DSA 已分配内存。
即插即用：提供 SGLang 和 vLLM 补丁，无需修改模型架构，可直接应用于 DeepSeek-V3.2、GLM-5 等主流模型。
灵活部署：支持无训练和训练感知两种方案，适配已训练模型和从头训练场景，索引器保留比例可灵活配置。
生产级验证：已在 744B 参数的 GLM-5 大模型上验证有效，具备规模化部署能力。

IndexCache的项目地址

GitHub仓库：https://github.com/THUDM/IndexCache
arXiv技术论文：https://arxiv.org/pdf/2603.12201

IndexCache的应用场景

长文档处理：适用论文阅读、法律合同分析等场景，200K 上下文下预填充提速 1.82 倍，显著降低用户等待首 token 的时间。
多步推理任务：支持数学证明、代码生成等复杂逻辑链推理，解码提速 1.48 倍，加速思维链生成过程。
Agent 工作流：赋能多轮工具调用、自主任务规划等 agentic 流程，降低长上下文推理成本，支持更复杂的智能体交互。
RAG 系统：用在大规模知识库检索增强生成，高效处理 web-scale 检索结果的长上下文整合与生成。
实时对话服务：适用客服机器人、智能助手等在线服务，提升吞吐量并降低 serving 成本，改善终端用户体验。

AI工具集 # IndexCache

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

InstanceAssemble – 小红书联合复旦推出的图像生成框架

InstanceAssemble – 小红书联合复旦推出的图像生成框架

AI工具集 # InstanceAssemble

1个月前

730

Nano Banana 2 – 谷歌推出的新一代图像生成模型

Nano Banana 2 – 谷歌推出的新一代图像生成模型

3周前

750

MiniCPM-SALA – 面壁智能开源的9B端侧模型

MiniCPM-SALA – 面壁智能开源的9B端侧模型

1周前

620

Gemini 3.1 Pro – 谷歌推出的最新AI模型，主打复杂推理

Gemini 3.1 Pro – 谷歌推出的最新AI模型，主打复杂推理

AI工具集 # Gemini

3周前

790