牛津研究语义熵识破AI幻觉 – 分秒AI研究院

24 6 月 2024

牛津研究语义熵识破AI幻觉

在人工智能领域，聊天机器人的普及率不断提高，使得它们能够为用户提供便捷的信息获取途径。然而，聊天机器人仍然可能出现“幻觉”现象，即在某些情况下，它们会提供错误或具有误导性的回答。这种情况的出现原因之一是训练数据的准确性不足、模型的泛化能力有限以及在数据收集过程中产生的副作用。

针对这个问题，英国牛津大学的研究团队提出了一种新的方法，用于检测大型语言模型（LLMs）中的“捏造”问题。与传统的基于任务的监督或强化学习方法不同，该方法利用语义熵这一概念，通过分析词语的多重含义来评估LLM的输出内容是否存在“幻觉”的可能性。

具体来说，语义熵是指同一个词语在不同语境下具有多种含义的现象。当LLM使用这类词语时，可能会对表达的含义产生困惑。通过对语义熵的分析，研究人员旨在发现LLM输出内容中的异常之处，以判断其是否存在“捏造”的风险。

该方法的优点在于它不需要额外的监督或强化学习，可以快速有效地检测LLM的“幻觉”问题。此外，该方法适用于各种类型的LLM，无论它们面临的是已知的任务还是全新的问题。

研究人员指出：“我们的方法可以帮助用户了解何时应谨慎对待LLM的输出，并为原本因不可靠性而受到限制的LLM应用开辟了新的可能性。”

虽然语义熵作为一种“幻觉”检测手段具有一定的优势，但仍需注意，即使采用了最先进的错误检测工具，LLM也仍有可能犯错。因此，在使用ChatGPT等聊天机器人时，用户仍需保持警惕，对所接收到的信息进行仔细核实。

分秒AI

查看所有文章

发表回复取消回复

要发表评论，您必须先登录。