昆仑万维发布2千亿天工MoE:全球首创使用4090进行推理
近日,我国知名科技企业昆仑万维宣布开源一款名为Skywork-MoE的千亿级稀疏大模型。该模型性能出色,且推理成本较低,成为业内关注的焦点。
Skywork-MoE模型基于昆仑万维之前开源的Skywork-13B模型,并首次将MoE Upcycling技术应用并落地。作为首个支持单台4090服务器推理的开源千亿MoE大模型,它将为研究人员提供强大的计算资源。
Skywork-MoE模型属于天工3.0研发的模型系列中的中档大小模型(Skywork-MoE-Medium)。该模型拥有146B的总参数量、22B的激活参数量以及16个专家模块,每个专家模块的大小为13B。此外,Skywork-MoE模型还采用了先进的训练优化算法,如Gating Logits归一化和自适应的Aux Loss,以提高模型的性能和泛化水平。
训练Infra方面,Skywork-MoE提出了两种并行优化设计,使模型在千卡集群上实现了MFU 38%的训练吞吐。其中,MFU以22B的激活参数计算理论计算量。此外,Skywork-MoE还针对非均匀切分流水并行进行了深入研究,提高了训练吞吐约10%。
作为首个能在8×4090服务器上推理的开源千亿MoE大模型,Skywork-MoE具有重要的意义。该模型的开源将进一步推动我国人工智能领域的发展,为构建强大的人工智能系统贡献力量。