## RDMA概述

RDMA(Remote Direct Memory Access,远程直接内存访问)是一种直接访问远程服务器内存的技术,无需操作系统介入,显著降低网络延迟和CPU开销。

## 核心价值

- **超低延迟**:延迟可降至1-2微秒级别
- **低CPU占用**:数据直接在网卡和内存间传输,CPU零参与
- **高带宽**:可接近物理链路带宽极限

## 主流RDMA协议

### RoCEv2(RDMA over Converged Ethernet)

基于UDP的无损网络协议,是当前最主流的方案:
- 与现有以太网兼容
- 交换机需支持DCB/QoS
- 华为、华三等国内厂商广泛支持

### InfiniBand

专用高性能网络协议:
- 延迟最低
- 需要专用InfiniBand交换机
- NVIDIA收购后与GPU深度集成

## AI训练场景应用

RDMA是AI训练集群的必备技术:

- GPUDirect RDMA:GPU之间直接数据传输
- 集合通信优化:AllReduce等操作加速
- 零丢包网络:需要DCB/QoS配置