AI算力限制升级背后的“阳谋”

1月29日,美国商务部在Federal Register(联邦公报)正式公布了《采取额外措施应对与重大恶意网络行为相关的国家紧急状态》提案。

这个提案的意思并不复杂,就是要求美国IaaS(云服务)厂商在提供云服务时,要验证外国用户身份,限制外国行为者对美国IaaS产品的访问,并要求详细报告训练AI大模型的外国交易,以保护美国的网络安全和利益。

这次提案,相当于对此前中国AI封锁命令的“升级”。在美国限制高性能计算芯片对华出口的措施后,借用国外云厂商的服务,被认为缓解国内“缺芯”局面的“解决方案”。随着此次提案的出台,意味着美国实现了对中国AI产业从高端芯片到云服务整个基础设施的全面限制。

不过与高性能计算芯片的严格限制不同,此次法案更侧重于对中国大模型发展情况的长期监测。但即使如此,也不能完全排除后续更多限制政策的可能性。当所有人都被注意力放在追寻大模型性能极限的时候,在一个更大的舞台上,一场关乎人工智能的角逐也在缓缓拉开帷幕。

/ 01 /

 AI封锁再升级

此次提案一共38页,包含对AI模型、客户识别计划以及AI大模型训练审核报告等内容。具体来说,该提案的内容主要有三点:

一是要求美国IaaS提供商构建自己的客户识别程序(CIP)。而一旦该程序发现有“外国人”使用其云服务,并且用于训练具有“潜在用于恶意网络活动的能力的AI大模型”, 美国IaaS提供商就必须向商务部提交涵盖“外国人”的身份、符合第14110号人工智能行政令规定或由商务部长确定的AI模型的“训练运行”情况等信息的报告。

二是要求美国IaaS提供商以及国外经销商构建维护、保护和获取在验证客户身份过程中访问的相关客户信息记录的程序。此记录必须包括客户首次尝试开设账户时提供的身份证据和属性的描述,验证客户身份所采取的任何措施的方法和结果的描述,以及验证识别信息时发现的任何实质性差异的解决方案的描述。也就是说,客户识别程序过程中的所有资料需被留存。

三是美国IaaS提供商还必须向商务部提交客户识别程序的认证表,其中包括用于验证外国人身份的机制、服务、软件、系统或工具的描述、用于要求客户通知IaaS提供商其所有权变更的程序、IaaS提供商用于持续验证客户提供信息准确性的流程,还必须描述IaaS提供商用于检测恶意网络活动的机制、服务、软件、系统或工具。

表面上看,这是为了防范潜在的AI威胁而采取的措施。但实质上,更像是美国政府于2023年10月17日出台进一步限制高性能计算芯片对华出口的措施之后,对中国AI封锁命令的又一次升级。

此次监管的思路借鉴于银行业的“了解你的客户”(Know Your Customer/KYC)思路。KYC是在金融领域应用很成熟的规则,在银行反洗钱和反恐怖主义融资等方面获得广泛的应用,且得到了国际社会的普遍认可与支持。

不过与高端芯片限制出口不同,美国此次针对云服务的出台的政策,至少从短期来看,观测属性大于监管属性。

一方面,美国把限制的主体范围控制在“美国IaaS提供商”,也就是说排除了没有注册在美国的中国或第三国云服务商和美国云服务商的海外子公司。

另一方面,根据拜登政府第14110号人工智能行政令,设定了一个阈值作为美国云服务商的开关,即如果有一个正在做AI大模型的美国云服务商客户需要非常强大的计算能力,大模型是在一群连接得很紧密、工作得很快的计算机上训练出来的,那么云服务提供商就需要向美国政府报告这些客户的情况。某种意义上讲,这更像是对中国大模型发展情况的长期监测。

至于基于这些发现,美国会做何决策仍然不得而知。正如美国商务部长雷蒙多对外宣称的那样,“我们正在努力获取这些信息。我们如何处理取决于我们发现了什么”。不过可以肯定的是,此次提案是中美两国在人工智能领域角逐的一次延续。

/ 02 /

AI时代的大国博弈,从算力开始

为什么美国要限制芯片,现在又要对云服务出手?一个很重要的原因是,对当下AI大模型发展来说,算力实在是太重要了。

在一个大模型构建和迭代过程中,需要经过大量的训练计算工作,算力需求可分为训练与推理两大阶段。与训练阶段相比,推理阶段的算力需求相对更低。到目前为止,算力需求主要集中在训练阶段。

通常来说,大模型训练一次是几乎不可能训练成功的,存在着大量的失败和反复,此外为保证模型迭代的更快,也需要进行大量的并行训练。即便打造出第一版大模型,后续模型的持续迭代的成本无法避免。

不仅如此,随着大模型参数的增加,所需要的算力也迅速增长。根据此前披露的消息,GPT-4的FLOPS约为2.15e25,并利用约25000个A100 GPU进行了90到100天的训练,如果OpenAI的云计算成本按每A100小时约1美元计算,那么在这样的条件下,训练一次GPT-4的成本约为6300万美元。

在算力构成里,GPU 是训练模型与加速推理的关键算力硬件,也是成本的“大头”,能够占到整个服务器成本的55-75%。GPU 的性能,决定了这个新兴行业的步调。但是,受限于摩尔定律的限制,GPU性能提升的速度,已经落后于大模型训练和推理需求的增长。

随着大模型的出现,市场对算力需求的增长井喷。据OpenAI测算,自2012年以来,人工智能模型训练算力需求每3~4个月就翻一番,每年训练AI模型所需算力增长幅度高达10倍。

相比之下,GPU更迭效率仍然延续着摩尔定律。根据摩尔定律,芯片计算性能大约每18-24个月翻一番。从目前看,尽管H100相比A100性能有明显提升,但并没有像模型训练算力需求那样有明显数量级的增长。

如果把大模型定义为AI 2.0时代,至少到目前为主,作为AI 2.0 时代的基础设施,以英伟达为代表的芯片厂商或云服务商成为了这波浪潮的最大“赢家”,并在仍然将在相当一段时间里影响行业格局的走向。这也是为什么美国要堵上云服务“漏洞”的原因。

/ 03 /

危机背后蕴藏的机会

此次提案对中国AI行业发展固然有影响,但也没必要过分夸大。

从过去看,美国云服务厂商在中国市场份额一直较低。IDC 最新发布的《中国公有云服务市场 (2022 下半年) 跟踪》报告显示,AWS 在中国的市场占比仅为 7.9%,微软Azure 则被合并进入到了“其他”厂商的大类当中。

到了去年,受大模型崛起影响,AWS份额有所提升,但提升幅度仍然有限。

根据IDC中国2023年《中国公有云服务市场跟踪》报告的统计数据,亚马逊AWS目前在中国的市场份额为8.6%,相较于2022年下半年提升了0.7个点,而微软Azure在中国的市场份额依然少到几乎可以忽略不计。

从短期看,限制使用国外云服务,对大量没有足够的资金自建AI计算中心的中小型研发与模型管理维护企业可能会产生较大的影响。但长期来看,由于大模型训练可能会涉及到一些敏感数据,使用美国云服务也存在比较大的数据安全和国家安全隐患。即使没有此次法案,放在大国博弈的视角下,也始终不是长久之计。

相反通过此次契机,更有机会加速推动国产芯片以及云服务厂商的发展。据天风证券此前测算,英伟达限令升级后2024年AI国产芯片新增市场空间700亿+。

尽管与市场主流英伟达A100产品仍存在一定差距,但能够明显看到,国内厂商训练芯片产品硬件性能不断取得突破。以燧原云邃T20产品为例,其内存宽带不足A100的1/3,在应对机器学习和深度学习的带宽需求上仍有差距,但其32位单精度浮点性能达到32TFLOPS,高于A100的19.5TFLOPS,且在功耗上更具优势。

不仅如此,大模型企业也纷纷加大了国产AI芯片的采购力度。去年下半年开始,360和百度分别向华为采购了1000个左右和1600个华为昇腾910B AI 芯片,华为昇腾910B对标的是Nvidia A100 芯片。而早在8月,百度内部已经下令其AI系统“文心一言”使用的芯片,改向华为采购昇腾(Ascend)910B系列AI芯片。

不出意外,这样的趋势会在未来加速演绎。种种迹象显示,从“光刻机禁令”到TikTok出海,这是一个对全球化并不友好的时代。如今,这把“火”已经烧到了人工智能,高端芯片和云服务法案大概率只是一个开始。

中国研究团队推出首个迷你 AI 模型,媲美ChatGPT,可部署在手机上

TinyLlama–具有三万亿代币冲击力的迷你AI模型。图片来源:SUTD

它被称为TinyLlama,它因其强大的功能而席卷了研究界。

目前由 OpenAI 或 Google 等大型科技公司开发的 ChatGPT 或 Google Bard 等大型语言模型 (LLM) 由数千甚至数万个图形处理单元 (GPU) 管理,并要求用户在线连接到其庞大的服务器。相比之下,TinyLlama 仅基于 16 个 GPU 构建,仅占用 550MB 的随机存取存储器 (RAM)。换句话说,TinyLlama 可以很容易地部署在移动设备上,让每个人无论走到哪里都可以随身携带一个“迷你 ChatGPT”。

根据总部位于加利福尼亚州的人工智能新闻平台Marktechpost的数据,TinyLlama在常识推理和解决问题的任务中的表现凸显了小型模型在使用大量数据进行训练时实现高性能的潜力。它还为自然语言处理的研究和应用开辟了新的可能性,特别是在计算资源有限的场景中。

专注于自然语言处理研究的StatNLP研究小组主任卢教授说:“小型语言模型的重要性不容小觑,TinyLlama之所以被专门创建为开源,是因为它将允许较小的科技公司和研究实验室为各种应用程序构建和开发自己的模型,从而使语言模型民主化。作为研究人员,我们的计划是为小型语言模型奠定基础,目的是在该领域取得重大的科学进步。

“小型科技公司以及个人研究人员和开发人员对小型语言模型的要求越来越高,这些模型需要更少的资源来运行。因此,这些模型(例如TinyLlama)对他们来说更可行,并且更适合手机等边缘设备。这种模型的紧凑性也使它们能够满足需要在没有互联网连接的情况下进行实时机器翻译的众多应用。这意味着用户可以脱机访问语言模型。他们在使用时不需要将个人信息发送到服务器,通过称为’微调’的技术,我们能够进一步改进它,“卢教授补充道。

TinyLlama背后的团队——从左到右:SUTD博士生曾广涛和王天铎,副教授卢伟和研究助理张培元。图片来源:SUTD

TinyLlama 的创新方法在于其构造。它基于 Llama 2 的架构和分词器,并融合了多项最先进的技术。其中一项技术是 FlashAttention,它提高了计算效率。尽管其尺寸比其前代产品小,但TinyLlama在各种下游任务中表现出卓越的性能。它成功地挑战了模型越大越好的概念,表明当使用广泛而多样的数据集进行训练时,具有较少参数的模型仍然可以实现高水平的有效性。

让CPU跑大模型该怎么做?阿里云交出答卷:AI推理速度飙升7倍

阿里云近日发布了一款创新的企业级通用计算实例——ECSg8i。

这款实例搭载了英特尔第五代至强可扩展处理器EmeraldRapids,其整机性能提升了85%,AI推理性能提升了7倍,并且能够支撑720亿参数规模的大语言模型

这是一项具有重大意义的技术突破,为加速AI创新应用的落地提供了新的路径。

ECSg8i采用了阿里云自研的CIPU+飞天计算体系架构,结合了第五代英特尔至强可扩展处理器的强大性能

这一架构的核心特点是提高了单核性能和核密度,同时还增强了L3缓存和内存速率。这些改进使得ECSg8i在运算速度和任务处理能力上都有了质的飞跃。

阿里云ECSg8i将英特尔的加速器能力融入虚拟化技术,并通过自研操作系统实现了整体优化

这项技术突破降低了加速器技术门槛,使得更多的开发者可以利用ECSg8i来进行AI推理任务的处理。这将进一步推动AI创新应用的发展,让更多行业和领域能够受益于人工智能技术。

ECSg8i通过CPU的定制化改造和与英特尔的深度合作,提高了CPU的并行计算能力,解决了通讯延时的问题

这一创新使得ECSg8i能够胜任中小规模和大规模参数模型的AI推理工作负载,从而降低了AI推理的成本。CPU算力与GPU算力相辅相成,共同支撑了AI推理的算力需求,为用户提供了强大而高效的计算资源。

这次阿里云与英特尔的合作,不仅提升了ECSg8i的性能和功能,更为AI创新应用的落地提供了新的路径。阿里云作为云计算领域的领军企业,一直致力于推动人工智能技术的发展和应用。

通过与英特尔的深度合作,阿里云进一步拓宽了AI计算的边界,为用户带来了更多创新的机会

总之,阿里云发布的ECSg8i搭载了英特尔第五代至强可扩展处理器EmeraldRapids,通过CPU的定制化改造和与英特尔的深度合作,提高了CPU在AI推理方面的性能,并解决了通讯延时的问题,降低了AI推理的成本

这一新方案为加速AI创新应用的落地提供了新的路径,将进一步推动人工智能技术的发展。

ECSg8i的推出代表了阿里云在人工智能领域的持续创新和进步。

通过提升性能、降低成本和解决现有技术的瓶颈,阿里云为企业用户提供了更高效、更稳定的计算实例

随着人工智能技术的快速发展,对计算资源的需求也越来越大。AI开发者需要处理海量的数据和复杂的模型,以提供更准确和高效的智能决策。而ECSg8i的发布则为这些需求提供了更好的支持。

通过提升CPU的计算能力,降低了传统方法中的瓶颈问题,ECSg8i能够更好地满足用户在AI推理方面的需求

ECSg8i还提供了全面的解决方案来支持用户在人工智能领域的创新应用。阿里云为用户提供了全球领先的AI平台,其中包括丰富的数据处理和分析工具、强大的机器学习框架和模型以及高效的深度学习工具。这些工具和资源的整合使得用户能够更方便、更高效地开发和部署自己的人工智能应用。

阿里云的ECSg8i不仅为AI开发者提供了更高效的计算实例,还为各行各业的企业用户提供了更多的应用机会。人工智能技术的应用已经渗透到了各个行业,从智能驾驶到智能制造,从人脸识别到自然语言处理,AI的创新应用正在改变我们的生活和工作方式。而ECSg8i的发布将进一步加速这种应用的落地,为用户带来更多创新的机会。

阿里云ECSg8i的发布是一项具有重大意义的技术突破。它不仅提升了计算实例的性能和功能,还为用户带来了更多创新的机会。阿里云作为云计算领域的领军企业,将继续致力于推动人工智能技术的发展和应用,为企业用户提供更优质的服务和解决方案。