【模型通信】多机多卡通信体系梳理：NVLink、InfiniBand 与 RoCE-Euler的博客

在深度学习模型规模持续扩大的背景下，单机单卡训练已无法满足大模型训练的吞吐需求。多机多卡架构成为主流方案，而在这类系统中，通信链路的带宽与延迟几乎直接决定训练效率与可扩展性。因此，理解 GPU 通信体系是大规模训练工程实践中不可绕过的核心基础。

本文将从整体架构视角出发，系统梳理多机多卡训练通信方案，并重点分析 InfiniBand 与 RoCE 两种典型 RDMA 网络技术的差异、选型建议及适用场景。

1. 多机多卡通信总体结构

大模型训练的通信链路可以拆分为两个层面：

节点内通信（单机多卡）
节点间通信（多机集群）

其在系统内大致对应如下分层:

AI分布式训练框架: PyTorch Distributed / DeepSpeed / Megatron-LM / TensorFlow MultiWorker
通信库: NCCL、Gloo、MPI
-----------------------------------------
节点间通信网络: InfiniBand / RoCE(RDMA over Ethernet)
节点内高速互联: NVLink / NVSwitch / PCIe
-----------------------------------------
硬件层: GPU、CPU、交换机、存储、总线

训练框架通过通信库（例如 NCCL）完成 AllReduce、Broadcast、Scatter-Gather 等算子操作，而数据如何在不同 GPU 之间交换，则由底层互联网络负责。

2. 单机多卡通信机制

单机内 GPU 通信路径主要依赖于以下硬件链路:

NVLink
专为 GPU-GPU 互联设计，带宽高、延迟低，相比 PCIe 具有更高的通信效率，可实现 GPU 直接读写另一 GPU 显存。
NVSwitch
面向多 GPU 拓扑的交换芯片，使同机内多个 GPU 接入统一高速网络，实现全互连拓扑。
PCIe
通用互联方式，但延迟与带宽均低于 NVLink，通常用于 CPU-GPU 数据交换或 GPU 扩展卡槽通信。

当模型规模较大，需要多个 GPU 协同训练时，同机内部的通信互联基本由 NVLink/NVSwitch 完成，保证梯度同步不成为 CPU 或 IO 瓶颈。

3. 多机多卡通信机制

跨节点训练时，数据需要在不同物理服务器之间交换，此时通信网络性能决定训练横向扩展能力。主流方案包括两类:

InfiniBand
RoCE (RDMA over Converged Ethernet)

它们实现目标一致: 在网络中提供低延迟、高带宽、支持 RDMA 的传输能力，使训练框架能够高效完成梯度同步。

RDMA (Remote Direct Memory Access) 是核心机制，可使一台机器直接访问另一台设备内存，而无需耗费过多 CPU 资源与系统协议栈处理。

4. InfiniBand 与 RoCE 的区别与定位

二者常被放在同一维度比较，因为它们都是高性能集群互联网络方案，作用均为支持大规模分布式训练通信。但其设计路线、部署环境与生态差异明显。

维度	InfiniBand	RoCE
网络基础	独立 IB 网络体系	基于以太网实现 RDMA
RDMA 支持	原生硬件级支持	通过 RoCE 协议扩展
交换机与介质	需 IB Switch、HCA	使用 Ethernet Switch，但需启用 DCB/PFC
跨子网支持	IB Router 可实现	RoCEv2 通过 UDP/IP 路由支持
性能	稳定低延迟，成熟度高	性能接近 IB，但受网络配置影响较大
成本	较高	具备更好的成本结构与灵活性
典型场景	超算、传统 HPC、万卡集群	云厂商、AI训练、以太网存量环境

简而言之:

InfiniBand 是独立高速网络路线，性能稳定成熟，但成本较高。
RoCE 则将 RDMA 搬到以太网体系中，在性能与成本之间提供更灵活选择。

5. 选型建议

结合当前行业趋势，可以给出以下推荐:

如果目标是极致规模扩展与训练效率，并且预算充足，可选择 InfiniBand。
如果已有大规模以太网基础设施，需要控制成本或与云原生体系兼容，RoCE 更具优势。
若训练系统未来希望与 Kubernetes、容器调度、Serverless 等结合，RoCE 的生态与兼容性会更强。

结语

单机多卡通信依赖 NVLink/NVSwitch 结构，而跨节点训练通信则通常采用 InfiniBand 或 RoCE。二者均可支持 RDMA，并依托 NCCL 通信库完成大规模模型训练数据交换。

随着大模型继续增长，通信网络与调度层将成为性能突破的重要方向。理解 GPU 互联方式与 RDMA 网络架构，将直接影响分布式训练工程的系统设计决策。