AI智能升级，虚构风险同步攀升

29 9 月 2024

AI智能升级，虚构风险同步攀升

研究发现：随着语言模型强大，编造事实倾向上升，可靠性降低

近日，一项发表在《自然》杂志上的研究发现，随着大型语言模型（LLM）的不断发展，它们在回答问题时越来越倾向于编造事实，而非回避无法回答的问题。这表明，这些先进的AI聊天机器人实际上变得越来越不可靠。

研究人员对OpenAI的GPT、Meta的LLaMA以及BigScience团队创建的开源模型BLOOM等业界领先的商业LLM进行了研究。结果表明，尽管这些模型在许多情况下提供了更准确的回答，但整体可靠性却有所下降，错误回答的比例甚至高于旧模型。

西班牙瓦伦西亚人工智能研究所的研究员José Hernández-Orallo在接受《自然》杂志采访时表示：“现在这些模型几乎可以回答任何问题。这虽然意味着能给出更多正确答案，但也意味着会有更多错误答案。”

格拉斯哥大学的科学和技术哲学家Mike Hicks（未参与该研究）对此提出了更严厉的观点：“在我看来，这就像是胡言乱语，它们越来越擅长装作知识渊博。”

在测试中，这些模型被要求回答涵盖数学、地理等多个领域的各种问题，并执行指定顺序的信息排列等任务。总体来看，更大、更强大的模型给出了更准确的答案，但在面对难度较高的问题时，准确率则明显下降。研究发现，OpenAI的GPT-4和o1等一些模型是“撒谎者”的代表，而所有研究的LLM似乎都存在这种趋势。即使是对于简单的提问，LLaMA系列模型中没有一个能达到60%的准确率。在评估聊天机器人的回答是否准确时，有少量参与者的判断错误率在10%至40%之间。

研究总结指出，AI模型参数、训练数据等因素越大，它们给出错误答案的比例也越高。研究人员认为，解决这一问题的最简单方法是让LLM不那么急于回答所有问题。Hernández-Orallo表示：“可以设定一个阈值，当问题具有挑战性时，让聊天机器人说出‘不，我不知道’。”然而，如果限制聊天机器人只回答已知信息，可能会暴露技术的局限性。

分秒AI研究院

分秒AI研究院

AI智能升级，虚构风险同步攀升

分秒AI

发表回复取消回复

分秒AI研究院

分秒AI研究院

AI智能升级，虚构风险同步攀升

AI智能升级，虚构风险同步攀升

分秒AI

发表回复 取消回复

发表回复取消回复