Transformer作者创立公司推出自动钓鱼模型

13 5 月 2024

Transformer作者创立公司推出自动钓鱼模型

AI领域最新研究：自动检测大模型中训练不足的token

近日，一项由研究人员提出的新方法成功实现了自动检测大型语言模型（LLM）中训练不足的token。该研究团队发现，由于大模型tokenizer的创建和模型训练是分开进行的，可能导致某些token在训练过程中从未出现过，从而引发模型的异常输出。研究人员针对这一问题提出了一种有效的方法，并对多个主流开源LLM进行了验证。

研究人员首先分析了tokenizer的编码和解码行为，找出其中的特殊类别token，例如不完整的UTF-8序列等。接着，根据模型架构计算识别指标，找出嵌入向量异常的token，将其列入“训练不足”候选名单。然后，通过特定的prompt进行验证，确定候选token是否能引发异常输出。

研究人员发现，训练不足的token在大规模LLM中普遍存在，包括Llama系列、Mistral系列等。此外，词汇表较大的模型训练不足的token数量也较多。为了解决这一问题，研究人员提出了一系列建议，包括确保tokenizer训练数据、模型训练数据和模型推理中输入数据的预处理完全相同，保证模型训练数据和tokenizer对齐，以及训练后检查无法访问的token等。

这项研究为LLM开发者提供了一种有效的方法，可以帮助他们及时发现并修复训练不足的token，以提高模型的性能和稳定性。未来，随着技术的不断发展，相信会有更多的解决方案被提出，助力人工智能领域的发展。

分秒AI研究院

分秒AI研究院

Transformer作者创立公司推出自动钓鱼模型

分秒AI

发表回复取消回复

分秒AI研究院

分秒AI研究院

Transformer作者创立公司推出自动钓鱼模型

Transformer作者创立公司推出自动钓鱼模型

分秒AI

发表回复 取消回复

发表回复取消回复