跳至正文

AMD 超级AI 集群:120万GPU 击败英伟达

AMD公司正在积极考虑构建规模庞大的AI GPU集群,以增强其在数据中心市场的竞争力。据AMD数据中心解决方案集团执行副总裁兼总经理Forrest Norrod接受The Next Platform采访时表示,公司正在认真考虑推出支持120万片GPU的数据中心AI集群。这一计划的目标是为了与英伟达等竞争对手抗衡,提高市场占有率。

目前,AI训练集群通常由数千片GPU构建,并通过高速互连连接服务器机架。然而,AMD提出的120万片GPU的集群将带来一系列挑战,包括延迟、功耗和硬件故障等问题。Frontier超级计算机目前仅有37888片GPU,因此AMD的AI集群将是其30倍之多。

AMD一直致力于提高其GPU性能和扩展性,以满足数据中心的需求。该公司最近推出了基于RDNA 2架构的EPYC处理器,以及针对深度学习的RDNA 2 GPU。这些产品将为数据中心市场带来更高的性能和效率。

不过,构建这样大规模的AI GPU集群需要克服许多技术难题。除了计算能力之外,还需要考虑存储、网络和其他基础设施的要求。此外,还需要确保系统的可靠性和安全性。

如果成功推出这样的AI GPU集群,将对数据中心市场产生深远的影响。这将推动AI技术的应用和发展,同时也将对数据中心的建设和管理提出更高的要求。

发表回复