分布式RoCEv2网络构建:训练超大规模AI模型
Meta公司近日宣布,为满足大规模分布式AI训练对网络需求,研究人员已经构建了一种基于RoCEv2协议的大规模AI网络。RoCEv2的全称是RDMA Over Converged Ethernet version 2,是一种节点间通信传输方式,适用于大部分人工智能计算能力。通过这种网络,Meta公司已经成功地扩展了RoCE网络,从原型发展到部署了众多集群,每个集群可以容纳数千个GPU。这些RoCE集群已经广泛应用于生产型分布式GPU训练工作,涵盖了诸如排名、内容推荐、内容理解、自然语言处理以及GenAI模型训练等多种工作负载。
为满足分布式AI训练的需求,Meta公司专门建立了一个专用的后端网络。这个网络可以独立于数据中心网络的其他部分进行发展和运行,同时也可以进行扩展。训练集群依赖于两个独立的网络:前端网络主要用于数据摄取、检查点和日志记录等任务;后端网络则负责训练,可以实现高性能、低延迟和无损的数据传输。
针对LLM模型训练对GPU规模的巨大需求,Meta公司设计了一种聚合训练交换机(ATSW),可以将多个AI区域相互连接起来。此外,Meta公司还在路由和拥塞控制方面进行了优化,以进一步提升网络性能。