Transformer作者创立公司推出自动钓鱼模型

AI领域最新研究:自动检测大模型中训练不足的token

近日,一项由研究人员提出的新方法成功实现了自动检测大型语言模型(LLM)中训练不足的token。该研究团队发现,由于大模型tokenizer的创建和模型训练是分开进行的,可能导致某些token在训练过程中从未出现过,从而引发模型的异常输出。研究人员针对这一问题提出了一种有效的方法,并对多个主流开源LLM进行了验证。

研究人员首先分析了tokenizer的编码和解码行为,找出其中的特殊类别token,例如不完整的UTF-8序列等。接着,根据模型架构计算识别指标,找出嵌入向量异常的token,将其列入“训练不足”候选名单。然后,通过特定的prompt进行验证,确定候选token是否能引发异常输出。

研究人员发现,训练不足的token在大规模LLM中普遍存在,包括Llama系列、Mistral系列等。此外,词汇表较大的模型训练不足的token数量也较多。为了解决这一问题,研究人员提出了一系列建议,包括确保tokenizer训练数据、模型训练数据和模型推理中输入数据的预处理完全相同,保证模型训练数据和tokenizer对齐,以及训练后检查无法访问的token等。

这项研究为LLM开发者提供了一种有效的方法,可以帮助他们及时发现并修复训练不足的token,以提高模型的性能和稳定性。未来,随着技术的不断发展,相信会有更多的解决方案被提出,助力人工智能领域的发展。

发表回复