AI公司疯抢GPU,分析师:英伟达泡沫将破

由于计算需求旺盛的生成式人工智能没有显示出放缓的迹象,一些公司开始使用 Nvidia 难以获得的、超昂贵的高性能计算 H100 GPU 来进行大型语言模型 (LLM) 训练,这正在成为“特斯拉前 AI 总监、现任 OpenAI 的安德烈·卡帕蒂 (Andrej Karpathy) 表示,这是硅谷“头号八卦”。

Karpathy 发表此番言论之际,大型科技公司的年度报告甚至都在讨论与 GPU 访问相关的问题:在微软上周发布的年度报告中,该公司向投资者强调,GPU 是“其快速增长的云业务的关键原材料”。”并将有关 GPU 的语言添加到“如果无法获得所需的基础设施,可能会出现中断的风险因素”。

Karpathy 在社交网络 X(以前的 Twitter)上转发了一篇广为流传的博客文章,该文章被认为是由 Hacker News 上的发帖者撰写的,该文章推测“小型和大型云提供商的大规模 H100 集群的容量即将耗尽, ”并且 H100 需求至少将持续到 2024 年底。

作者猜测 OpenAI 可能需要 50,000 个 H100,而 Inflection 需要 22,000 个,Meta“可能需要 25k”,而“大云可能需要每个 30k(Azure、Google Cloud、AWS 以及 Oracle)。Lambda 和 CoreWeave 以及其他私有云可能总共需要 100k。他写道,Anthropic、Helsing、Mistral 和Character 可能各要10k。

作者表示,这些估计“完全是粗略估计和猜测,其中一些是对云计算和将从云计算租用的最终客户进行了重复计算。” 但这达到了大约 432k H100。每块价格约为 35K 美元,GPU 的价值约为 150亿美元。这还不包括像字节跳动(TikTok)、百度和腾讯这样需要大量 H800 的中国公司。还有一些金融公司从数百台 A100 或 H100 开始进行部署,然后扩展到数千台 A/H100:例如 Jane Street、JP Morgan、Two Sigma、Citadel。”

Radical Ventures 合伙人 David Katz最近告诉 VentureBeat,与人工智能芯片争夺战最接近的类比是电视剧《权力的游戏》 。“为了运行这些模型和大型模型,需要对计算有永不满足的需求,”他说。

去年,Radical 投资了 CentML,它优化了机器学习 (ML) 模型,以提高工作速度并降低计算成本。他表示,CentML 的产品在市场上创造了“更高一点的效率”。此外,它还证明了复杂的、超过十亿个参数的模型也可以在传统硬件上运行。

“所以你不需要相同数量的 GPU,或者你不一定需要 A100,”他说。“从这个角度来看,它本质上是在增加市场上芯片的产能或供应。”

然而, d-Matrix首席执行官 Sid Sheth 表示,这些努力对于那些从事人工智能推理工作的人来说可能更有效,而不是从头开始训练LL,。该公司正在构建一个平台,通过在计算机中进行更多处理来节省推理成本 。内存上,而不是 GPU 上。

他最近对 CNBC 表示:“推理的问题在于,如果工作量激增得非常快,就像 ChatGPT 发生的情况一样,它会在五天内增加一百万用户。” “你的 GPU 容量无法跟上,因为它不是为此而构建的。它是为训练和图形加速而构建的。”

对于 LLM 训练——包括 OpenAI、Anthropic、DeepMind、Google 以及现在埃隆·马斯克的 X.ai 在内的所有大型实验室都在进行——Nvidia 的 H100 是无可替代的。

这对于像 CoreWeave 这样的云初创公司来说是个好消息,因为 CoreWeave 准备从 GPU 云中赚取数十亿美元,而且 Nvidia 正在提供大量 GPU,因为 CoreWeave 并没有构建自己的 AI 芯片来竞争。

McBee告诉 VentureBeat,CoreWeave 去年的收入为 3000 万美元,今年将达到 5 亿美元,明年已经签订了近 20 亿美元的合同。CNBC  6 月份报道 称,微软“已同意在未来几年内斥资数十亿美元购买初创公司 CoreWeave 的云计算基础设施。”

“这一切发生得非常非常快,”他说。“我们正在努力满足大量积压的客户需求。我们目前还在 12 个不同的数据中心进行建设。我正在从事当今地球上最大的基础设施建设之一,而在一家三个月前你从未听说过的公司。”

他补充说,人工智能的采用曲线是“有史以来上市的任何软件中最深入、最快的采用”,而训练这些模型所需的特定类型计算的必要基础设施却跟不上。

但 CoreWeave 正在尝试:“自 4 月份以来,我们已经将下一代 H100 计算交给了世界领先的人工智能实验室,”他说。“直到第四季度你才能从谷歌获得它。我认为亚马逊的……预定预约要到第四季度才会出现。”

他表示,CoreWeave 正在帮助 Nvidia 更快地将其产品推向市场,并“帮助我们的客户从中获得更多性能,因为我们以比超大规模厂商更好的配置构建它——这促使 [Nvidia] 对我们进行投资,这是这是他们做出的唯一云服务提供商投资。”

就 Nvidia 而言,一位高管表示,问题不在于 GPU 短缺,而在于这些 GPU 如何进入市场。

Nvidia DGX Systems 的副总裁兼总经理 Charlie Boyle 表示 Nvidia 正在“建设充足的产品”,但也谈到了很多短缺问题。云提供商之间的差异归结为已经预售给客户的产品。

“在系统方面,我们一直对客户的供应非常敏感,”他在最近的一次采访中告诉 VentureBeat。他解释说,对数千个 GPU 的请求将需要更长的时间,但“我们可以满足大量此类需求。”

他解释说,过去七年他学到的一点是,归根结底,这也是一个供应链问题——因为供应商提供的小组件可能更难获得。“因此,当人们使用 GPU 短缺这个词时,他们实际上是在谈论主板上某些组件的短缺或积压,而不是 GPU 本身,”他说。“这些东西的全球制造有限……但我们预测人们想要什么以及世界可以建造什么。”

博伊尔表示,随着时间的推移,“GPU 短缺”问题将“从围绕短缺的炒作与某人制定糟糕计划的现实来看,逐渐从叙事中消失。”

摩根士丹利策略师表示,人工智能股票的泡沫已接近顶峰,他们指出 Nvidia 公司今年的涨幅超过 200%。

摩根士丹利策略师爱德华·斯坦利在一份报告中写道,根据历史背景,这次股市飙升将处于“后期”。“泡沫在高峰前的 3 年里往往会上涨 154% 的中值。”

尽管英伟达一直是人工智能领域令人兴奋的典型代表,但斯坦利表示,更广泛的人工智能基准,如 MSCI 美国 IMI 机器人和人工智能精选净美元指数,上涨幅度要小得多。该指标上涨了约 47%。

这家总部位于加利福尼亚州圣克拉拉的公司一直处于今年人工智能热潮的核心,其乐观的前景证明人工智能计算的支出正在推动销售。

可以肯定的是,整个行业的股票并不具有统一的特征。因此,斯坦利表示,考虑到个人名字的特殊性,“只有在指数水平上才能有效或公平地得出泡沫上升和下降速度的结论。”

想要做大模型训练、AIGC落地应用、使用最新AI工具和学习AI课程的朋友,扫下方二维码加入我们人工智能交流群

发表回复