技术交流 · TECHNICAL BRIEFING

存算分离全闪存储
对话 NVIDIA 推理新范式

中科存储 WS5000 × NVIDIA Dynamo / KVBM / NIXL / GPUDirect Storage —— 同一范式，不同层次：客观对比、互补定位，数据可查证。

300 GB/s单机聚合带宽（S9）

85×推理加载提速（第三方实测 S38）

90.9%7 项指标中位降幅

WS5000已定型量产 · 国产可控

AGENDA

本次技术交流的脉络

先看共识瓶颈，再看双方技术，最后看客观对比与互补定位

	模块	要点
01	瓶颈共识	GPU 被慢 IO「饿着」——这是 NVIDIA 与我们的共同判断
02	中科存储技术栈	存算分离 + 四大核心技术
03	逐项对标 NVIDIA	存算分离 / KV Cache 卸载 / GPUDirect / 数据通路
04	客观对比总表	维度逐行，标注口径与官方出处
05	生态互补与实测	第三方实测 + 国产可控定位

THE BOTTLENECK

共识：GPU 越快，越容易被慢 IO「饿着」

NVIDIA 官方（GPUDirect）：「随着 AI、HPC 与数据分析数据集不断增大，加载数据所花的时间开始影响应用性能；高速 GPU 正越来越多地被慢速 IO 所「饿着」（starved by slow IO）。」

NVIDIA Developer · GPUDirect

这与中科存储的判断一致：大模型时代真正的瓶颈在数据供给侧——模型加载、Checkpoint 读写、KV Cache 调度，而非单纯堆叠算力。

<60%

全国智算中心平均利用率

提效空间巨大（S11）

30–50%

IO 受限时有效 GPU 利用率

行业研究（S4）

2–3×

存储加速可提升利用率

~74%

KV Cache 卸载最高降本

在线负载（S5）

ZK-STORAGE STACK

中科存储技术栈

以存算分离为核心，把存储从「配角」升级为「算力放大器」。

ARCHITECTURE

存算分离：算力池 ⟷ 高速无损网 ⟷ 全闪池

GPU 算力池

GPU / NPU 节点

华为昇腾 Atlas 910B

训练 / 推理框架（无感接入）

高速无损网络

NVMe-oF over RDMA / RoCE

GPUDirect 直通

2×200GbE 线速级通路

全闪存储池

EBOF 全闪阵列

CPFS 并行文件系统

KV-Cache 分层调度层

核心思想

把存储介质从计算节点拆出、汇聚为独立全闪池，经高速无损网与 GPU 直连；算力与容量独立弹性扩展，上层框架无需改造即可平滑接入。

FOUR PILLARS

四大核心技术

01NVMe-oF over RDMA / RoCE

以远程直接内存访问承载 NVMe，绕开冗余拷贝，逼近本地盘性能。

02GPUDirect 直通

数据在存储与 GPU 显存间直达，缩短数据路径、降低 CPU 与时延开销。

03全闪 EBOF 架构

去控制器高密度闪存池，带宽与 IOPS 随容量近线性扩展，功耗更低。

04KV-Cache 分层调度

面向长上下文 / 高频切换推理，卸载与复用 KV Cache，显著提升 GPU 有效利用率。

VS. NVIDIA

对标 NVIDIA：同一范式，不同层次

NVIDIA 以软件 / IO 框架定义了「分离式推理 + KV Cache 分层卸载 + 存储直通」范式；中科存储在存储底座层把同样的工程思想落到国产算力上。

NVIDIA PARADIGM

NVIDIA 的推理新范式（官方表述）

NVIDIA Dynamo 官方将其归纳为三项核心技术：分离式服务（Disaggregated Serving）、KV Cache 感知路由、KV Cache 卸载，并由低时延数据传输层 NIXL 支撑。

NVIDIA 官方原文（节选）

「KV Cache 卸载：把 KV Cache 从 HBM 迁移到更廉价的存储层（如主机内存、本地磁盘或远端存储），复用已计算状态可改善 TTFT、降低 TCO 并支持更长上下文。」

NVIDIA Dynamo · Introduction ai-dynamo/dynamo (GitHub)

MAPPING ①

存算分离 ↔ 分离式服务

中科存储

硬件存算分离 EBOF

把存储与计算解耦为独立全闪池，经 NVMe-oF/RoCE 与 GPU 池高速互联，算力与容量独立扩展。

↔

NVIDIA

NVIDIA Dynamo · 分离式推理服务（Disaggregated Serving）

「分离式服务把 prefill（预填充）与 decode（解码）放在不同设备上运行，使两者能各自独立扩展与并行；它需要三项能力：调度、用于 KV Cache 卸载与回载的内存管理，以及在节点间与内存层级间搬运 KV Cache 的低时延数据传输。」

NVIDIA Dynamo · Introduction ai-dynamo/dynamo (GitHub)

MAPPING ②

KV Cache 卸载 ↔ KVBM 分层

中科存储

KV-Cache 分层调度

面向长上下文 / 多模型高频切换，把 KV Cache 在显存↔全闪间分层卸载与复用，不增购 GPU 即扩上下文与并发。

↔

NVIDIA

NVIDIA Dynamo KVBM · KV Cache 分层卸载

「KV Block Manager（KVBM）提供一套统一内存 API，横跨 GPU 显存、锁页主机内存、远端 RDMA 可访问内存、本地 / 分布式 SSD，以及远端文件 / 对象 / 云存储；把 KV Cache 从 HBM 卸载到更廉价的存储层（G1 GPU → G2 CPU → G3 SSD → G4 远端），可加快 TTFT、降低 TCO 并支持更长上下文。」

NVIDIA Dynamo · KVBM

MAPPING ③

GPUDirect 直通 ↔ GPUDirect Storage

中科存储

GPUDirect 直通 + NVMe-oF

让数据在全闪存储与 GPU 显存间直达 DMA，绕开 CPU 中转，缩短路径、降低时延。

↔

NVIDIA

NVIDIA GPUDirect Storage（Magnum IO GDS）

「GPUDirect Storage 在本地或远端存储（如 NVMe 或 NVMe over Fabrics）与 GPU 显存之间建立直达数据通路，绕过 CPU 内存中的中转缓冲（bounce buffer），由靠近网卡或存储的 DMA 引擎直接把数据搬入 / 搬出 GPU 显存。」

NVIDIA Developer · GPUDirect GPUDirect Storage Overview Guide

MAPPING ④

高速数据通路 ↔ NIXL

中科存储

NVMe-oF over RDMA/RoCE

以无损 RDMA 承载 NVMe，在显存 / 内存 / 全闪之间提供低时延高带宽的数据搬运通路。

↔

NVIDIA

NVIDIA NIXL · 推理数据传输库

「NIXL（NVIDIA Inference Xfer Library）是一套低时延、与厂商无关的数据传输库，通过非阻塞 API 在 GPU 显存、CPU 内存与存储层（SSD / 远端）之间高吞吐搬运 KV Cache，服务于分离式 KV Cache 迁移、长上下文存储与模型权重传输等场景。」

NVIDIA Technical Blog · NIXL ai-dynamo/nixl (GitHub)

COMPARISON

客观对比总表（公允 · 不贬损）

维度	中科存储 WS5000	NVIDIA 对应能力（官方）
定位层次	全闪存储一体机（硬件底座）	推理编排 / IO 软件框架（Dynamo·NIXL·GDS）
存算分离	硬件 EBOF + NVMe-oF/RoCE	Dynamo 分离式服务（prefill/decode 分离）
KV Cache 卸载	KV-Cache 分层调度（显存↔全闪）	KVBM 分层 G1→G4（GPU→CPU→SSD→远端）
GPU 直通路径	GPUDirect 直通 + NVMe-oF	GPUDirect Storage（GPU↔NVMe/NVMe-oF DMA）
主力算力适配	国产 GPU / 昇腾 90%+（S9）	以 NVIDIA GPU 生态为主
数据不出域 / 信创	强（自主可控）	视部署与合规评估
第三方实测	有（北京信息科技大学·昇腾910B，S38）	以官方 / 合作方资料为准
关系	互补：可作该范式的国产存储底座	开放接入第三方存储（WEKA / Dell 等）

口径说明

中科存储数值标注项目方口径（S9）/ 第三方实测（S38）；NVIDIA 能力均引自其官方文档（见来源页）。本表仅作客观维度对照，不构成对第三方的贬损，具体以各方最新官方信息为准。

COMPLEMENTARY

互补，而非替代：存储底座是该范式的一环

NVIDIA 的 KVBM / NIXL 开放接入第三方存储。其官方动态显示：「Dell 将 PowerScale 与 Dynamo 的 NIXL 集成，TTFT 提速 19×」「WEKA 与 NVIDIA 合作为 Dynamo 提供 KV Cache 存储」。

中科存储的位置

这印证了「存算分离全闪存储底座」正是分离式推理 / KV Cache 卸载范式所依赖的关键一环。中科存储在该范式中，面向国产算力底座（昇腾 / 国产 GPU）提供可量产、可实测、数据不出域的存储底座。

互通而非对立国产算力底座数据不出域可量产 · 可实测

ai-dynamo/dynamo (GitHub) 官方动态

VALIDATION

实测与定位

用可复现的第三方实测说话，给出诚实的定位。

INDEPENDENT TEST

第三方实测：北京信息科技大学 · 昇腾 910B

模型	中科存储加载	NFS 加载	加载提速	服务整体提速
DeepSeek-32B	6.62 s	563.85 s	85.2×	6.17×
DeepSeek-70B	35.38 s	1284.66 s	36.3×	9.33×

关键结论（可复现）

以 NFS over TCP/10GbE 为基线、中科存储经 NVMe-oF over RDMA/RoCE：推理加载最高 85.17×；每日切换 40 次时 Token 有效产出相对提升 +356.9%；7 项指标中位降幅 90.9%。源自单一数据源，可复现、可验证（S38）。

POSITIONING

诚实的定位

同一范式：与 NVIDIA 共同判断——慢 IO 是大模型算力的隐形瓶颈。
不同层次：NVIDIA 提供软件 / IO 框架，中科存储提供可量产的全闪存储底座。
互补互通：存算分离全闪底座是分离式推理 / KV Cache 卸载范式所依赖的一环。
国产可控：面向昇腾 / 国产 GPU 深度适配，数据不出域，已具第三方实测与量产能力。

一句话

让每一块 GPU 物尽其用——无论它来自哪条算力路线。

SOURCES

数据来源与口径（可查证）

中科存储性能 / 规格项目方口径（S9）：聚合带宽 300 GB/s、随机 IOPS 5000 万、时延 20 μs、国产 GPU 适配 90%+、部署 48–72h、综合成本约 -40%。

中科存储第三方实测北京信息科技大学 · 华为昇腾 Atlas 910B 平台、NFS 基线（S38）：DeepSeek-32B 加载 563.85s→6.62s（85.17×）；7 项指标中位降幅 90.9%。源自 business_plan/outputs/results.json，可复现。

KV Cache 卸载降本行业研究：在线工作负载最高可降本约 73.7%（S5）。

NVIDIA GPUDirect Storage（Magnum IO GDS）NVIDIA Developer · GPUDirect · GPUDirect Storage Overview Guide

NVIDIA Dynamo · 分离式推理服务（Disaggregated Serving）NVIDIA Dynamo · Introduction · ai-dynamo/dynamo (GitHub)

NVIDIA Dynamo KVBM · KV Cache 分层卸载NVIDIA Dynamo · KVBM

NVIDIA NIXL · 推理数据传输库NVIDIA Technical Blog · NIXL · ai-dynamo/nixl (GitHub)

最后更新：2026-06-28 · 中科存储数值取自 business_plan/outputs/results.json（S 编号见官网「数据来源与口径」）；NVIDIA 描述与链接均为其官方公开资料。

THANK YOU

让每一块 GPU 物尽其用

中科存储 WS5000 · 存算分离全闪加速存储算力一体机 · 深圳市中科航星科技有限公司

Q & A欢迎技术探讨

送测现货样机可即时验证

互通面向国产算力底座共建

存算分离全闪存储对话 NVIDIA 推理新范式

本次技术交流的脉络

共识：GPU 越快，越容易被慢 IO「饿着」

中科存储 技术栈

存算分离：算力池 ⟷ 高速无损网 ⟷ 全闪池

四大核心技术

对标 NVIDIA：同一范式，不同层次

NVIDIA 的推理新范式（官方表述）

存算分离 ↔ 分离式服务

KV Cache 卸载 ↔ KVBM 分层

GPUDirect 直通 ↔ GPUDirect Storage

高速数据通路 ↔ NIXL

客观对比总表（公允 · 不贬损）

互补，而非替代：存储底座是该范式的一环

实测与定位

第三方实测：北京信息科技大学 · 昇腾 910B

诚实的定位

数据来源与口径（可查证）

让每一块 GPU 物尽其用

中科存储 vs NVIDIA · 技术交流 PPT

存算分离全闪存储
对话 NVIDIA 推理新范式

中科存储技术栈