国产AI大模型选择CPU技术揭秘

10 7 月 2024

国产AI大模型选择CPU技术揭秘

在大模型商业化进程中，算力基础设施的选择至关重要。在这方面，国产头部大模型玩家百度智能云提出了全新的解决方案：让CPU成为客户的选择之一，实现”快好省”。为此，百度智能云千帆大模型平台选择了英特尔® 至强® 可扩展处理器作为后端推理引擎，并深度优化了大模型推理软件解决方案xFasterTransformer (xFT)。

千帆大模型平台充分利用AMX/AVX512等指令集，高效实现核心算子如Flash Attention等；采用低精度量化，降低数据访存量，发挥INT8/BF16运算的优势；支持超大规模模型的多机多卡并行推理。此外，该平台已经引入了针对英特尔® 至强® 可扩展平台深度优化的大模型推理软件解决方案xFasterTransformer (xFT)，大幅提升了推理性能。

在实际应用中，英特尔® 至强® 可扩展处理器在Llama-2-7B模型上的输出Token吞吐可达100 TPS以上，比第三代提高了60%。在低延迟的场景，同等并发下，第四代至强® 可扩展处理器的首Token时延比第三代至强® 可降低50%以上。这表明，充分利用CPU进行推理，可以让AI从”烧钱游戏”变成”普惠科技”，为大模型商业化和产业应用提供强有力的支持。

总之，随着技术创新和生态完善，让CPU成为大模型推理的主流方式将成为可能，为更多企业创造价值，为产业发展注入新的动力。

分秒AI研究院

分秒AI研究院

国产AI大模型选择CPU技术揭秘

分秒AI

发表回复取消回复

分秒AI研究院

分秒AI研究院

国产AI大模型选择CPU技术揭秘

国产AI大模型选择CPU技术揭秘

分秒AI

发表回复 取消回复

发表回复取消回复