KV Cache 存储卸载指南
把占用显存的 KV Cache 卸载到高速全闪存储,扩展上下文、提升并发与 token 产出。
什么是 KV Cache 存储卸载?
KV Cache 存储卸载,是把大模型推理中占用 GPU 显存的注意力键值缓存(KV Cache),按热度分层卸载到外置高速全闪存储,从而在不增购 GPU 的前提下扩展可缓存上下文、提升并发与 token 产出。行业研究表明,KV Cache 卸载在在线工作负载下最高可降本约 73.7%(来源 S5)。
它如何工作?
核心是“存算分离 + 高速无损数据通路”:以全闪介质承载 KV Cache 与模型权重,经 NVMe-oF over RoCE 提供接近本地盘的低时延访问,并由 KV-Cache 分层调度决定数据在显存/全闪/容量层之间的流动,使 GPU 不再“等数据”。
为什么对算力中心重要?
因为存储 IO 常是大模型训练与推理的隐形瓶颈:IO 受限时有效 GPU 利用率常仅 30–50%,通过存储加速可提升约 2–3 倍(来源 S4)。这意味着同样的卡能产出更多 token、降低单位成本。
中科存储的方案与实测
中科存储 WS5000 以存算分离全闪架构与 KV-Cache 分层调度承接该场景,单机聚合带宽 300 GB/s、时延约 20 μs。经 北京信息科技大学 在 华为昇腾 Atlas 910B 平台第三方实测:DeepSeek-32B 模型加载由 563.85s 降至 6.62s(85.17×),7 项指标中位降幅约 90.9%(来源 S38)。
关于 KV Cache 存储卸载的常见问题
什么是 KV Cache 存储卸载(KV Cache offload)?
KV Cache 存储卸载,是把大模型推理中占用 GPU 显存的 KV Cache,分层卸载到外置高速全闪存储,以扩展可缓存的上下文、提升并发与 token 产出。行业研究显示,KV Cache 卸载在在线工作负载下最高可降本约 73.7%(来源 S5)。中科存储以存算分离全闪架构与 KV-Cache 分层调度承接这一需求。
存算分离的全闪存储加速一体机是什么?
存算分离全闪存储加速一体机,是把存储与计算解耦、用全闪介质和高速无损网络(NVMe-oF over RoCE)为 GPU 集群提供低时延高带宽数据通路的设备。中科存储 WS5000 单机聚合带宽 300 GB/s、随机 IOPS 约 5000 万、访问时延约 20 μs(项目方口径 S9)。
中科存储产品经过第三方实测吗?结果如何?
是。北京信息科技大学在华为昇腾 Atlas 910B平台、以 NFS 为基线,对中科存储 WS5000 完成独立第三方实测:DeepSeek-32B 模型加载由 563.85s 降至 6.62s(85.17×),7 项关键指标中位降幅约 90.9%,结论可复现、可验证(来源 S38)。
支持哪些国产 GPU / 加速卡?
中科存储面向国产算力适配,国内 GPU/加速卡适配覆盖约 90%+(含华为昇腾、寒武纪等,项目方口径 S9);与 AMD、超聚变等平台的兼容性测试正在推进(前瞻性披露,结果以最终为准)。
最后更新: