分布式RoCEv2网络构建:训练超大规模AI模型

7 8 月 2024

分布式RoCEv2网络构建:训练超大规模AI模型

Meta公司近日宣布，为满足大规模分布式AI训练对网络需求，研究人员已经构建了一种基于RoCEv2协议的大规模AI网络。RoCEv2的全称是RDMA Over Converged Ethernet version 2，是一种节点间通信传输方式，适用于大部分人工智能计算能力。通过这种网络，Meta公司已经成功地扩展了RoCE网络，从原型发展到部署了众多集群，每个集群可以容纳数千个GPU。这些RoCE集群已经广泛应用于生产型分布式GPU训练工作，涵盖了诸如排名、内容推荐、内容理解、自然语言处理以及GenAI模型训练等多种工作负载。

为满足分布式AI训练的需求，Meta公司专门建立了一个专用的后端网络。这个网络可以独立于数据中心网络的其他部分进行发展和运行，同时也可以进行扩展。训练集群依赖于两个独立的网络：前端网络主要用于数据摄取、检查点和日志记录等任务；后端网络则负责训练，可以实现高性能、低延迟和无损的数据传输。

针对LLM模型训练对GPU规模的巨大需求，Meta公司设计了一种聚合训练交换机（ATSW），可以将多个AI区域相互连接起来。此外，Meta公司还在路由和拥塞控制方面进行了优化，以进一步提升网络性能。

分秒AI研究院

分秒AI研究院

分布式RoCEv2网络构建:训练超大规模AI模型

分秒AI

发表回复取消回复

分秒AI研究院

分秒AI研究院

分布式RoCEv2网络构建:训练超大规模AI模型

分布式RoCEv2网络构建:训练超大规模AI模型

分秒AI

发表回复 取消回复

发表回复取消回复