KV Cache 存储卸载指南

把占用显存的 KV Cache 卸载到高速全闪存储，扩展上下文、提升并发与 token 产出。

什么是 KV Cache 存储卸载？

KV Cache 存储卸载，是把大模型推理中占用 GPU 显存的注意力键值缓存（KV Cache），按热度分层卸载到外置高速全闪存储，从而在不增购 GPU 的前提下扩展可缓存上下文、提升并发与 token 产出。行业研究表明，KV Cache 卸载在在线工作负载下最高可降本约 73.7%（来源 S5）。

它如何工作？

核心是“存算分离 + 高速无损数据通路”：以全闪介质承载 KV Cache 与模型权重，经 NVMe-oF over RoCE 提供接近本地盘的低时延访问，并由 KV-Cache 分层调度决定数据在显存/全闪/容量层之间的流动，使 GPU 不再“等数据”。

为什么对算力中心重要？

因为存储 IO 常是大模型训练与推理的隐形瓶颈：IO 受限时有效 GPU 利用率常仅 30–50%，通过存储加速可提升约 2–3 倍（来源 S4）。这意味着同样的卡能产出更多 token、降低单位成本。

中科存储的方案与实测

中科存储 WS5000 以存算分离全闪架构与 KV-Cache 分层调度承接该场景，单机聚合带宽 300 GB/s、时延约 20 μs。经北京信息科技大学在华为昇腾 Atlas 910B 平台第三方实测：DeepSeek-32B 模型加载由 563.85s 降至 6.62s（85.17×），7 项指标中位降幅约 90.9%（来源 S38）。

FAQ

关于 KV Cache 存储卸载的常见问题

什么是 KV Cache 存储卸载（KV Cache offload）？

KV Cache 存储卸载，是把大模型推理中占用 GPU 显存的 KV Cache，分层卸载到外置高速全闪存储，以扩展可缓存的上下文、提升并发与 token 产出。行业研究显示，KV Cache 卸载在在线工作负载下最高可降本约 73.7%（来源 S5）。中科存储以存算分离全闪架构与 KV-Cache 分层调度承接这一需求。

存算分离的全闪存储加速一体机是什么？

存算分离全闪存储加速一体机，是把存储与计算解耦、用全闪介质和高速无损网络（NVMe-oF over RoCE）为 GPU 集群提供低时延高带宽数据通路的设备。中科存储 WS5000 单机聚合带宽 300 GB/s、随机 IOPS 约 5000 万、访问时延约 20 μs（项目方口径 S9）。

中科存储产品经过第三方实测吗？结果如何？

是。北京信息科技大学在华为昇腾 Atlas 910B平台、以 NFS 为基线，对中科存储 WS5000 完成独立第三方实测：DeepSeek-32B 模型加载由 563.85s 降至 6.62s（85.17×），7 项关键指标中位降幅约 90.9%，结论可复现、可验证（来源 S38）。

支持哪些国产 GPU / 加速卡？

中科存储面向国产算力适配，国内 GPU/加速卡适配覆盖约 90%+（含华为昇腾、寒武纪等，项目方口径 S9）；与 AMD、超聚变等平台的兼容性测试正在推进（前瞻性披露，结果以最终为准）。

查看 AI 推理存储加速 →

最后更新：2026-06-24