“马斯克AI梦工厂:百万芯片集群助阵全球最大AI集群”

2023年10月29日,国内知名科技资讯平台IT之家报道,知名科技媒体Servethehome近日在xAI公司的邀请下,对位于世界之巅的Colossus全球最大AI训练集群进行了参观。

据悉,xAI公司在今年9月份报道中曾提及,在Supermicro公司的协助下,该公司仅用了122天的时间便成功搭建了10万张英伟达H100 GPU。为了满足不断增长的AI训练需求,xAI公司计划在未来将GPU数量翻倍,新增10万张,其中包括5万张更为先进的H200 GPU。

Colossus集群的核心设备为英伟达HGX H100服务器,每台服务器内部集成了8张H100 GPU。为了确保高效散热,所有服务器均运行在Supermicro提供的4U水冷系统中。每个机架能够容纳8台服务器,形成包含512个GPU的服务器阵列。整个Colossus集群内拥有超过1,500个GPU机架,并配备了高带宽的网络互联。

为了确保网络传输速度,每个GPU都配备了400GbE的网络接口控制器,使得每台HGX H100服务器的以太网带宽达到3.6 Terabit每秒。xAI公司采用的Supermicro 4U通用GPU系统,融合了先进的液冷技术,极大提升了散热效率,保障了高性能计算的稳定性。这种液冷设计使得系统在执行高负荷任务时,仍能保持较低的温度,从而延长设备使用寿命。

此次参观活动获得了埃隆·马斯克及其团队的特别批准。由于全球最大AI集群的建设具有敏感性,部分内容在视频展示中进行了模糊处理。Supermicro公司作为本次活动的赞助商,再次展现了其在行业中的重要地位。

此次参观活动充分展示了xAI公司及Supermicro公司在AI领域的技术实力和市场影响力,也为业界同仁提供了一个了解最新AI集群建设成果的机会。

发表回复