谷歌DeepMind新研究:人类难以完成三个AI任务

近日,Google DeepMind 团队发布了一项最新研究成果,揭示人工智能在推理过程中的局限性。研究发现,即使是当前热门的语言模型(LMs),在处理与已有知识或信念相符的信息时,推理表现更加准确和自信,而在处理与这些知识或信念相悖的信息时,推理可能会出现偏差或错误,这种现象被称为“内容效应”。同时,人类存在两种推理系统:“直觉系统”和“理性系统”,在推理过程中容易受到已有知识和经验的影响。

研究人员通过比较 LMs 和人类在自然语言推理(NLI)、判断三段论(Syllogisms)的逻辑有效性和 Wason 选择任务三种推理任务上的表现,发现无论是人类还是 LMs ,在处理这些任务时,都容易受到语义内容合理性和可信度的影响。这一现象表明,即使是在处理自然语言方面表现出色的 AI 系统,在涉及复杂逻辑推理时,也需要谨慎使用。

在自然语言推理任务中,LMs 和人类在面对语义合理的句子时,都容易出现错误判断。例如,尽管前提和结论之间的逻辑关系错误,但由于前提句子的合理性,LMs 和人类都容易将其判断为正确。在判断三段论逻辑有效性任务中,尽管语言模型在处理自然语言方面表现优异,但仍容易受到语义内容的影响,导致错误判断。在 Wason 选择任务中,LMs 和人类也容易选择没有信息价值的卡片,而不是那些能真正验证规则的卡片。

总之,尽管语言模型在推理任务方面与人类表现相差不多,甚至在涉及语义内容的推理任务中,错误率较低,但仍暴露出其在推理过程中的局限性。为了改进 AI 推理能力,研究人员建议可以通过因果操纵模型训练来减少内容偏见,并评估这些偏见是否在更类似人类语言数据的规模下仍然出现。此外,还需研究教育因素对模型推理能力的影响,以及不同训练特征如何影响内容效应的出现。

发表回复