技术交流 · TECHNICAL BRIEFING

存算分离全闪存储
对话 NVIDIA 推理新范式

中科存储 WS5000 × NVIDIA Dynamo / KVBM / NIXL / GPUDirect Storage —— 同一范式,不同层次:客观对比、互补定位,数据可查证。

300 GB/s单机聚合带宽(S9)
85×推理加载提速(第三方实测 S38)
90.9%7 项指标中位降幅
WS5000已定型量产 · 国产可控
AGENDA

本次技术交流的脉络

先看共识瓶颈,再看双方技术,最后看客观对比与互补定位

模块要点
01瓶颈共识GPU 被慢 IO「饿着」——这是 NVIDIA 与我们的共同判断
02中科存储 技术栈存算分离 + 四大核心技术
03逐项对标 NVIDIA存算分离 / KV Cache 卸载 / GPUDirect / 数据通路
04客观对比总表维度逐行,标注口径与官方出处
05生态互补与实测第三方实测 + 国产可控定位
THE BOTTLENECK

共识:GPU 越快,越容易被慢 IO「饿着」

NVIDIA 官方(GPUDirect):「随着 AI、HPC 与数据分析数据集不断增大,加载数据所花的时间开始影响应用性能;高速 GPU 正越来越多地被慢速 IO 所「饿着」(starved by slow IO)。」
NVIDIA Developer · GPUDirect

这与中科存储的判断一致:大模型时代真正的瓶颈在数据供给侧——模型加载、Checkpoint 读写、KV Cache 调度,而非单纯堆叠算力。

<60%
全国智算中心平均利用率
提效空间巨大(S11)
30–50%
IO 受限时有效 GPU 利用率
行业研究(S4)
2–3×
存储加速可提升利用率
S4
~74%
KV Cache 卸载最高降本
在线负载(S5)
01
ZK-STORAGE STACK

中科存储 技术栈

以存算分离为核心,把存储从「配角」升级为「算力放大器」。

ARCHITECTURE

存算分离:算力池 ⟷ 高速无损网 ⟷ 全闪池

GPU 算力池
GPU / NPU 节点
华为昇腾 Atlas 910B
训练 / 推理框架(无感接入)
高速无损网络
NVMe-oF over RDMA / RoCE
GPUDirect 直通
2×200GbE 线速级通路
全闪存储池
EBOF 全闪阵列
CPFS 并行文件系统
KV-Cache 分层调度层
核心思想
把存储介质从计算节点拆出、汇聚为独立全闪池,经高速无损网与 GPU 直连;算力与容量独立弹性扩展,上层框架无需改造即可平滑接入。
FOUR PILLARS

四大核心技术

01NVMe-oF over RDMA / RoCE
以远程直接内存访问承载 NVMe,绕开冗余拷贝,逼近本地盘性能。
02GPUDirect 直通
数据在存储与 GPU 显存间直达,缩短数据路径、降低 CPU 与时延开销。
03全闪 EBOF 架构
去控制器高密度闪存池,带宽与 IOPS 随容量近线性扩展,功耗更低。
04KV-Cache 分层调度
面向长上下文 / 高频切换推理,卸载与复用 KV Cache,显著提升 GPU 有效利用率。
02
VS. NVIDIA

对标 NVIDIA:同一范式,不同层次

NVIDIA 以软件 / IO 框架定义了「分离式推理 + KV Cache 分层卸载 + 存储直通」范式;中科存储在存储底座层把同样的工程思想落到国产算力上。

NVIDIA PARADIGM

NVIDIA 的推理新范式(官方表述)

NVIDIA Dynamo 官方将其归纳为三项核心技术:分离式服务(Disaggregated Serving)、KV Cache 感知路由、KV Cache 卸载,并由低时延数据传输层 NIXL 支撑。

NVIDIA 官方原文(节选)
「KV Cache 卸载:把 KV Cache 从 HBM 迁移到更廉价的存储层(如主机内存、本地磁盘或远端存储),复用已计算状态可改善 TTFT、降低 TCO 并支持更长上下文。」
MAPPING ①

存算分离 ↔ 分离式服务

中科存储
硬件存算分离 EBOF
把存储与计算解耦为独立全闪池,经 NVMe-oF/RoCE 与 GPU 池高速互联,算力与容量独立扩展
NVIDIA
NVIDIA Dynamo · 分离式推理服务(Disaggregated Serving)
「分离式服务把 prefill(预填充)与 decode(解码)放在不同设备上运行,使两者能各自独立扩展与并行;它需要三项能力:调度、用于 KV Cache 卸载与回载的内存管理,以及在节点间与内存层级间搬运 KV Cache 的低时延数据传输。」
MAPPING ②

KV Cache 卸载 ↔ KVBM 分层

中科存储
KV-Cache 分层调度
面向长上下文 / 多模型高频切换,把 KV Cache 在显存↔全闪间分层卸载与复用,不增购 GPU 即扩上下文与并发
NVIDIA
NVIDIA Dynamo KVBM · KV Cache 分层卸载
「KV Block Manager(KVBM)提供一套统一内存 API,横跨 GPU 显存、锁页主机内存、远端 RDMA 可访问内存、本地 / 分布式 SSD,以及远端文件 / 对象 / 云存储;把 KV Cache 从 HBM 卸载到更廉价的存储层(G1 GPU → G2 CPU → G3 SSD → G4 远端),可加快 TTFT、降低 TCO 并支持更长上下文。」
MAPPING ③

GPUDirect 直通 ↔ GPUDirect Storage

中科存储
GPUDirect 直通 + NVMe-oF
让数据在全闪存储与 GPU 显存间直达 DMA,绕开 CPU 中转,缩短路径、降低时延。
NVIDIA
NVIDIA GPUDirect Storage(Magnum IO GDS)
「GPUDirect Storage 在本地或远端存储(如 NVMe 或 NVMe over Fabrics)与 GPU 显存之间建立直达数据通路,绕过 CPU 内存中的中转缓冲(bounce buffer),由靠近网卡或存储的 DMA 引擎直接把数据搬入 / 搬出 GPU 显存。」
MAPPING ④

高速数据通路 ↔ NIXL

中科存储
NVMe-oF over RDMA/RoCE
以无损 RDMA 承载 NVMe,在显存 / 内存 / 全闪之间提供低时延高带宽的数据搬运通路。
NVIDIA
NVIDIA NIXL · 推理数据传输库
「NIXL(NVIDIA Inference Xfer Library)是一套低时延、与厂商无关的数据传输库,通过非阻塞 API 在 GPU 显存、CPU 内存与存储层(SSD / 远端)之间高吞吐搬运 KV Cache,服务于分离式 KV Cache 迁移、长上下文存储与模型权重传输等场景。」
COMPARISON

客观对比总表(公允 · 不贬损)

维度中科存储 WS5000NVIDIA 对应能力(官方)
定位层次全闪存储一体机(硬件底座)推理编排 / IO 软件框架(Dynamo·NIXL·GDS)
存算分离硬件 EBOF + NVMe-oF/RoCEDynamo 分离式服务(prefill/decode 分离)
KV Cache 卸载KV-Cache 分层调度(显存↔全闪)KVBM 分层 G1→G4(GPU→CPU→SSD→远端)
GPU 直通路径GPUDirect 直通 + NVMe-oFGPUDirect Storage(GPU↔NVMe/NVMe-oF DMA)
主力算力适配国产 GPU / 昇腾 90%+(S9)以 NVIDIA GPU 生态为主
数据不出域 / 信创强(自主可控)视部署与合规评估
第三方实测有(北京信息科技大学·昇腾910B,S38)以官方 / 合作方资料为准
关系互补:可作该范式的国产存储底座开放接入第三方存储(WEKA / Dell 等)
口径说明
中科存储数值标注项目方口径(S9)/ 第三方实测(S38);NVIDIA 能力均引自其官方文档(见来源页)。本表仅作客观维度对照,不构成对第三方的贬损,具体以各方最新官方信息为准。
COMPLEMENTARY

互补,而非替代:存储底座是该范式的一环

NVIDIA 的 KVBM / NIXL 开放接入第三方存储。其官方动态显示:「Dell 将 PowerScale 与 Dynamo 的 NIXL 集成,TTFT 提速 19×」「WEKA 与 NVIDIA 合作为 Dynamo 提供 KV Cache 存储」。

中科存储的位置
这印证了「存算分离全闪存储底座」正是分离式推理 / KV Cache 卸载范式所依赖的关键一环。中科存储在该范式中,面向国产算力底座(昇腾 / 国产 GPU)提供可量产、可实测、数据不出域的存储底座。
互通而非对立国产算力底座数据不出域可量产 · 可实测
03
VALIDATION

实测与定位

用可复现的第三方实测说话,给出诚实的定位。

INDEPENDENT TEST

第三方实测:北京信息科技大学 · 昇腾 910B

模型中科存储 加载NFS 加载加载提速服务整体提速
DeepSeek-32B6.62 s563.85 s85.2×6.17×
DeepSeek-70B35.38 s1284.66 s36.3×9.33×
关键结论(可复现)
以 NFS over TCP/10GbE 为基线、中科存储经 NVMe-oF over RDMA/RoCE:推理加载最高 85.17×;每日切换 40 次时 Token 有效产出相对提升 +356.9%;7 项指标中位降幅 90.9%。源自单一数据源,可复现、可验证(S38)。
POSITIONING

诚实的定位

  • 同一范式:与 NVIDIA 共同判断——慢 IO 是大模型算力的隐形瓶颈。
  • 不同层次:NVIDIA 提供软件 / IO 框架,中科存储提供可量产的全闪存储底座。
  • 互补互通:存算分离全闪底座是分离式推理 / KV Cache 卸载范式所依赖的一环。
  • 国产可控:面向昇腾 / 国产 GPU 深度适配,数据不出域,已具第三方实测与量产能力。
一句话
让每一块 GPU 物尽其用——无论它来自哪条算力路线
SOURCES

数据来源与口径(可查证)

中科存储 性能 / 规格项目方口径(S9):聚合带宽 300 GB/s、随机 IOPS 5000 万、时延 20 μs、国产 GPU 适配 90%+、部署 48–72h、综合成本约 -40%。
中科存储 第三方实测北京信息科技大学 · 华为昇腾 Atlas 910B 平台、NFS 基线(S38):DeepSeek-32B 加载 563.85s→6.62s(85.17×);7 项指标中位降幅 90.9%。源自 business_plan/outputs/results.json,可复现。
KV Cache 卸载降本行业研究:在线工作负载最高可降本约 73.7%(S5)。
NVIDIA GPUDirect Storage(Magnum IO GDS)NVIDIA Developer · GPUDirect · GPUDirect Storage Overview Guide
NVIDIA Dynamo · 分离式推理服务(Disaggregated Serving)NVIDIA Dynamo · Introduction · ai-dynamo/dynamo (GitHub)
NVIDIA Dynamo KVBM · KV Cache 分层卸载NVIDIA Dynamo · KVBM
NVIDIA NIXL · 推理数据传输库NVIDIA Technical Blog · NIXL · ai-dynamo/nixl (GitHub)

最后更新:2026-06-28 · 中科存储数值取自 business_plan/outputs/results.json(S 编号见官网「数据来源与口径」);NVIDIA 描述与链接均为其官方公开资料。

THANK YOU

让每一块 GPU 物尽其用

中科存储 WS5000 · 存算分离全闪加速存储算力一体机 · 深圳市中科航星科技有限公司

Q & A欢迎技术探讨
送测现货样机可即时验证
互通面向国产算力底座共建
中科存储 · 技术交流
← → 翻页 · 点击两侧 · 按 O 总览 · ⎙ 导出 PDF

中科存储 vs NVIDIA · 技术交流 PPT