国产AI大模型选择CPU技术揭秘
在大模型商业化进程中,算力基础设施的选择至关重要。在这方面,国产头部大模型玩家百度智能云提出了全新的解决方案:让CPU成为客户的选择之一,实现”快好省”。为此,百度智能云千帆大模型平台选择了英特尔® 至强® 可扩展处理器作为后端推理引擎,并深度优化了大模型推理软件解决方案xFasterTransformer (xFT)。
千帆大模型平台充分利用AMX/AVX512等指令集,高效实现核心算子如Flash Attention等;采用低精度量化,降低数据访存量,发挥INT8/BF16运算的优势;支持超大规模模型的多机多卡并行推理。此外,该平台已经引入了针对英特尔® 至强® 可扩展平台深度优化的大模型推理软件解决方案xFasterTransformer (xFT),大幅提升了推理性能。
在实际应用中,英特尔® 至强® 可扩展处理器在Llama-2-7B模型上的输出Token吞吐可达100 TPS以上,比第三代提高了60%。在低延迟的场景,同等并发下,第四代至强® 可扩展处理器的首Token时延比第三代至强® 可降低50%以上。这表明,充分利用CPU进行推理,可以让AI从”烧钱游戏”变成”普惠科技”,为大模型商业化和产业应用提供强有力的支持。
总之,随着技术创新和生态完善,让CPU成为大模型推理的主流方式将成为可能,为更多企业创造价值,为产业发展注入新的动力。