AI时代:网络基础下算力智能调度解析

近年来,随着人工智能技术的飞速发展,对算力的需求也呈现爆发式增长。然而,据国工程院院士刘韵洁在2024中国算力大会上透露,过去五年间,GPU算力仅增长了90倍,而网络带宽却只增长了10倍,导致模型训练时间不断延长。

据信通院联合浪潮信息发布的《人工智能算力高质量发展评估体系报告》显示,截至2023年底,全球算力总规模约为910 EFLOPS,同比增长40%,其中智能算力规模达到335 EFLOPS,同比增长达136%,增速远超算力整体规模增速。刘韵洁认为,GPU算力增长虽快,但网络带宽的增长却相对滞后,成为制约算力产业发展的瓶颈。

刘韵洁指出,当前算力组网需求迫切,算网融合、算力调度将成为未来发展的重点。没有网络,数据中心和算力中心就像孤岛,无法实现互联互通,发挥出价值。为了解决这一难题,刘韵洁提出,可以通过协同训练方式缩小半导体领域与国际先进水平的差距,并通过万卡集群之间的连通和算力的协同调度,实现算力突破。

在政策层面,国家积极推动算力调度平台建设,推动算网融合发展。2024年3月,工信部办公厅发布《关于深化算力基础设施统筹监测工作的通知》,提出“深化网络质量监测”等重点任务。2024年8月,工信部等十一部门联合发布《关于推动新型信息基础设施协调发展有关事项的通知》,提出要统筹规划骨干网络设施,鼓励网络与算力设施协同发展。

然而,目前各地算力调度平台建设仍处于初期阶段,发展缓慢。中国信息通信研究院云计算与大数据研究所总工程师郭亮表示,虽然各地各类平台百花齐放,但大多“各自为政”,并未形成联动效应。对于小型智算中心而言,如果不能有效实现集群协同发展,就无法满足企业应用需求,导致运营状况不佳。

东数西算工程是保障民生的重要基础设施,同时也要担负起带动西部地区地方经济的重任。郭亮认为,东数西算工程应具备“商业化”属性,要有经济效益。但从现阶段发展来看,我国东西部算力协同均衡发展仍有差距。

为推动算力产业高质量发展,中国信通院积极推动中国算力平台建设,将90%的小型智算中心联接起来,实现算力统一纳管,打通各类大模型产品、数据集,实现完整的闭环全联接。在调度算力方面,通过硬件重构和软件定义对GPU、AI芯片等进行聚合池化,利用先进的资源管理技术提升算力资源利用率。

浪潮云海首席科学家张东表示,提高算效是算力实现高质量发展的重要一环。浪潮信息主推的企业大模型开发平台元脑企智EPAI平台,旨在建立统一的平台,屏蔽芯片差异,让用户在获取更高算效的同时,将更多精力集中在业务本身。

同时,算力技术的开放解耦也成为推动算力产业发展的重要方向。张东表示,通过标准化、模块化的设计,实现算力技术的各个组件独立发展、灵活组合,有助于打破传统封闭系统的限制,促进技术创新和产业融合。

发表回复