“电信AI院推全国产万卡万参模型,TeleChat2-115B开源亮相”

近日,中国电信人工智能研究院(以下简称TeleAI)在人工智能领域取得重大突破,成功完成了国内首个基于全国产化万卡集群训练的万亿参数大模型,并已对外开源首个基于全国产化万卡集群和国产深度学习框架训练的千亿参数大模型——星辰语义大模型TeleChat2-115B。

这一科研成果标志着我国国产大模型训练技术实现了全国产化的替代,正式迈入了全国产自主创新、安全可控的新阶段。TeleChat2-115B的构建得益于中国电信自研的天翼云“息壤一体化智算服务平台”和人工智能公司“星海AI平台”的支持。

TeleAI在保证训练精度的同时,通过多种优化手段显著提升了模型训练的效率和稳定性。该模型在GPU同等算力计算效率上达到了超过93%,模型有效训练时长占比高达98%。在超大参数模型训练方面,TeleAI采用了大量小模型进行Scaling,有效验证了不同模型结构的有效性。

在数据配比方面,TeleAI根据小模型实验结果反馈,运用回归预测模型,实现了较优的数据配比。在Post-Training阶段,TeleAI首先针对数学、代码和逻辑推理等内容,合成了大量的问答数据,用于监督式微调(SFT)的第一阶段模型训练。

接着,TeleAI采用迭代式更新策略,利用模型对提示词数据进行指令复杂性和多样性扩充,通过模型合成和人工标注,提高了答案质量。同时,通过拒绝采样技术获取优质的数据,用于SFT训练、偏好对齐(DPO)训练,以及模型效果的迭代优化。

值得一提的是,TeleAI已将TeleChat2-115B的源代码和模型信息分别发布于GitHub(https://github.com/Tele-AI/TeleChat2)、Gitee(https://gitee.com/Tele-AI/tele-chat2)以及ModelScope(https://modelscope.cn/models/TeleAI/TeleChat2-115B)和Modelers(https://modelers.cn/models/TeleAI/TeleChat2-115B)等平台,以开放共享的精神推动人工智能技术的发展。

此次TeleAI的突破性进展,不仅展示了我国在人工智能领域的自主创新能力,也为国内大模型技术的发展和应用提供了强有力的技术支撑。

发表回复