谷歌DeepMind新研究:人类难以完成三个AI任务

22 7 月 2024

谷歌DeepMind新研究:人类难以完成三个AI任务

近日，Google DeepMind 团队发布了一项最新研究成果，揭示人工智能在推理过程中的局限性。研究发现，即使是当前热门的语言模型（LMs），在处理与已有知识或信念相符的信息时，推理表现更加准确和自信，而在处理与这些知识或信念相悖的信息时，推理可能会出现偏差或错误，这种现象被称为“内容效应”。同时，人类存在两种推理系统：“直觉系统”和“理性系统”，在推理过程中容易受到已有知识和经验的影响。

研究人员通过比较 LMs 和人类在自然语言推理（NLI）、判断三段论（Syllogisms）的逻辑有效性和 Wason 选择任务三种推理任务上的表现，发现无论是人类还是 LMs ，在处理这些任务时，都容易受到语义内容合理性和可信度的影响。这一现象表明，即使是在处理自然语言方面表现出色的 AI 系统，在涉及复杂逻辑推理时，也需要谨慎使用。

在自然语言推理任务中，LMs 和人类在面对语义合理的句子时，都容易出现错误判断。例如，尽管前提和结论之间的逻辑关系错误，但由于前提句子的合理性，LMs 和人类都容易将其判断为正确。在判断三段论逻辑有效性任务中，尽管语言模型在处理自然语言方面表现优异，但仍容易受到语义内容的影响，导致错误判断。在 Wason 选择任务中，LMs 和人类也容易选择没有信息价值的卡片，而不是那些能真正验证规则的卡片。

总之，尽管语言模型在推理任务方面与人类表现相差不多，甚至在涉及语义内容的推理任务中，错误率较低，但仍暴露出其在推理过程中的局限性。为了改进 AI 推理能力，研究人员建议可以通过因果操纵模型训练来减少内容偏见，并评估这些偏见是否在更类似人类语言数据的规模下仍然出现。此外，还需研究教育因素对模型推理能力的影响，以及不同训练特征如何影响内容效应的出现。

分秒AI研究院

分秒AI研究院

谷歌DeepMind新研究:人类难以完成三个AI任务

分秒AI

发表回复取消回复

分秒AI研究院

分秒AI研究院

谷歌DeepMind新研究:人类难以完成三个AI任务

谷歌DeepMind新研究:人类难以完成三个AI任务

分秒AI

发表回复 取消回复

发表回复取消回复