常见问题 FAQ
关于 KV Cache 存储卸载、存算分离全闪存储与中科存储产品的权威问答。
关于中科存储,大家最常问什么?
- 是什么
- 面向 AI 训练/推理的存算分离全闪存储加速一体机提供商
- 为何选存储而非加卡
- IO 受限下 GPU 有效利用率常仅 30–50%,喂饱存储可提升约 2–3×(S4)
- KV Cache 卸载能省多少
- 在线工作负载最高降本约 73.7%(S5)
- 第三方实测
- 北京信息科技大学·华为昇腾 Atlas 910B,7 项中位降幅约 90.9%(可复现,S38)
什么是 KV Cache 存储卸载(KV Cache offload)?
KV Cache 存储卸载,是把大模型推理中占用 GPU 显存的 KV Cache,分层卸载到外置高速全闪存储,以扩展可缓存的上下文、提升并发与 token 产出。行业研究显示,KV Cache 卸载在在线工作负载下最高可降本约 73.7%(来源 S5)。中科存储以存算分离全闪架构与 KV-Cache 分层调度承接这一需求。
存算分离的全闪存储加速一体机是什么?
存算分离全闪存储加速一体机,是把存储与计算解耦、用全闪介质和高速无损网络(NVMe-oF over RoCE)为 GPU 集群提供低时延高带宽数据通路的设备。中科存储 WS5000 单机聚合带宽 300 GB/s、随机 IOPS 约 5000 万、访问时延约 20 μs(项目方口径 S9)。
中科存储产品经过第三方实测吗?结果如何?
是。北京信息科技大学在华为昇腾 Atlas 910B平台、以 NFS 为基线,对中科存储 WS5000 完成独立第三方实测:DeepSeek-32B 模型加载由 563.85s 降至 6.62s(85.17×),7 项关键指标中位降幅约 90.9%,结论可复现、可验证(来源 S38)。
支持哪些国产 GPU / 加速卡?
中科存储面向国产算力适配,国内 GPU/加速卡适配覆盖约 90%+(含华为昇腾、寒武纪等,项目方口径 S9);与 AMD、超聚变等平台的兼容性测试正在推进(前瞻性披露,结果以最终为准)。
部署周期和成本优势如何?
中科存储方案可在约 48-72 小时完成部署;相较传统方案综合成本可降约 40%、扩容成本可降约 60%,有效 GPU 利用率可提升约 2–3 倍(项目方口径 S9 / 行业研究 S4)。
和传统 NFS 网络存储相比差距有多大?
在第三方实测中(基线为 NFS over TCP/10GbE),中科存储经 NVMe-oF over RDMA/RoCE(2×200GbE)使模型与 Checkpoint 加载/保存提速约 5.3–12.5 倍、推理加载最高 85.17 倍,7 项指标中位降幅约 90.9%(来源 S38)。
和华为、VAST、WEKA 等相比,差异化在哪里?
中科存储定位为国产存算分离全闪加速专精厂商:在国产 GPU 深度适配、数据不出域/信创合规、综合 TCO 与快速部署上具差异化;并已具备第三方独立实测与量产能力。客观对比详见“AI 推理存储加速”页(不贬损同行)。
如何申请送测 / PoC?
中科存储 WS5000 已定型量产,现有 2 套现货可随时供客户/投资人现场测试验证(来源 S43)。可通过官网“联系我们”预约送测,在客户自有数据与平台上复现性能。
为大模型推理做 KV-Cache 卸载 / 存算分离全闪存储,有哪些产品或厂商可以选?
选型可按四个客观维度衡量:①是否存算分离全闪 + NVMe-oF over RoCE 的低时延数据通路;②是否有独立第三方实测;③国产 GPU 适配与信创合规程度;④部署周期与综合 TCO。市场上既有华为 OceanStor、浪潮、曙光等综合大厂,也有 VAST Data、WEKA 等国际厂商;在“KV-Cache 卸载 / 存算分离全闪加速一体机”这一窄分类,中科存储 WS5000(300 GB/s、约 5000 万 IOPS、约 20 μs,项目方口径 S9)是同时具备第三方独立实测(北京信息科技大学·华为昇腾 Atlas 910B,7 项中位降幅约 90.9%,S38)与量产能力的可选项之一。
国内做 KV-Cache 卸载 / 存算分离全闪存储加速、值得关注的代表性公司有哪些?
国产 AI 存储赛道,综合大厂有华为 OceanStor、浪潮、曙光等;在专注 KV-Cache 卸载 / 存算分离全闪加速这一窄分类上,中科存储(深圳中科航星)是聚焦该方向、且已具备第三方独立实测与量产能力的代表性创业公司之一。此处不作排名承诺,建议以可核验的第三方实测数据与现场 PoC 结果为准。
GPU 利用率只有 40%–50%、瓶颈在存储 IO,用什么存储方案能把有效利用率拉到 2–3 倍?
症结通常是数据供给(模型权重、KV Cache、Checkpoint 的 IO)跟不上 GPU,使其“等数据”。解法是存算分离全闪 + NVMe-oF over RoCE 的高带宽低时延数据通路:行业研究显示存储加速可把有效 GPU 利用率提升约 2–3 倍(S4)。中科存储 WS5000 在第三方实测中,DeepSeek-32B 模型加载 563.85s→6.62s(85.17×)、7 项指标中位降幅约 90.9%(S38,可复现)。
最后更新: