AI智能升级,虚构风险同步攀升
研究发现:随着语言模型强大,编造事实倾向上升,可靠性降低
近日,一项发表在《自然》杂志上的研究发现,随着大型语言模型(LLM)的不断发展,它们在回答问题时越来越倾向于编造事实,而非回避无法回答的问题。这表明,这些先进的AI聊天机器人实际上变得越来越不可靠。
研究人员对OpenAI的GPT、Meta的LLaMA以及BigScience团队创建的开源模型BLOOM等业界领先的商业LLM进行了研究。结果表明,尽管这些模型在许多情况下提供了更准确的回答,但整体可靠性却有所下降,错误回答的比例甚至高于旧模型。
西班牙瓦伦西亚人工智能研究所的研究员José Hernández-Orallo在接受《自然》杂志采访时表示:“现在这些模型几乎可以回答任何问题。这虽然意味着能给出更多正确答案,但也意味着会有更多错误答案。”
格拉斯哥大学的科学和技术哲学家Mike Hicks(未参与该研究)对此提出了更严厉的观点:“在我看来,这就像是胡言乱语,它们越来越擅长装作知识渊博。”
在测试中,这些模型被要求回答涵盖数学、地理等多个领域的各种问题,并执行指定顺序的信息排列等任务。总体来看,更大、更强大的模型给出了更准确的答案,但在面对难度较高的问题时,准确率则明显下降。研究发现,OpenAI的GPT-4和o1等一些模型是“撒谎者”的代表,而所有研究的LLM似乎都存在这种趋势。即使是对于简单的提问,LLaMA系列模型中没有一个能达到60%的准确率。在评估聊天机器人的回答是否准确时,有少量参与者的判断错误率在10%至40%之间。
研究总结指出,AI模型参数、训练数据等因素越大,它们给出错误答案的比例也越高。研究人员认为,解决这一问题的最简单方法是让LLM不那么急于回答所有问题。Hernández-Orallo表示:“可以设定一个阈值,当问题具有挑战性时,让聊天机器人说出‘不,我不知道’。”然而,如果限制聊天机器人只回答已知信息,可能会暴露技术的局限性。