⚡ DGX Spark 配置笔记

NVIDIA GB10 工作站部署与服务运维系列教程

🔍 ×

单并发 38 tok/s、并发4 总吞吐 90.9 tok/s，262K 上下文，0.5 显存利用率

从零构建 vLLM 镜像，部署 Qwen3.6-35B-INT4，实测短文本 54 tok/s、长文本 68 tok/s

双节点 Ray + vLLM Tensor Parallel (TP=2)，RoCE 200G 直连，256K 下下文窗口，NCCL 自动检测 RDMA 68+ tok/s

从镜像构建到服务上线，docker-compose 一键启动，DFlash 抓机解码加速 70+ tok/s