GPT-4o超越人类:道德推理新研究

近期,美国北卡罗莱纳大学教堂山分校和艾伦 AI 研究所的研究人员进行了一项关于道德推理的研究。该研究发现,OpenAI 最新的人工智能助手 GPT-4o 在道德方面的解释和建议质量超过了公认的道德专家。

研究人员进行了两项研究来比较 GPT 模型与其他人类参与者在道德推理方面的表现。第一项研究中,501 名美国成年人对比了 GPT-3.5-turbo 模型和其他人类参与者的道德解释。结果显示,人们认为 GPT 的解释更符合道德、更值得信赖、更周到,并且评估者也认为人工智能的评估比其他人更可靠。尽管差异很小,但这些发现表明 AI 可以匹配甚至超过人类水平的道德推理。

第二项研究则将 GPT-4o 生成的建议与《纽约时报》的“伦理学家”专栏中著名伦理学家 Kwame Anthony Appiah 的建议进行了比较。共有 900 名参与者对 50 个“伦理困境”的建议质量进行了评分。结果显示,GPT-4o 在几乎所有方面都超过了人类专家。人们认为 AI 生成的建议在道德上更正确、更值得信赖、更周到、更准确。只有在感知细微差别方面,人工智能和人类专家之间没有显著差异。

研究人员认为,这些结果表明 AI 可以通过“比较道德图灵测试”(cMTT)。此外,文本分析还显示 GPT-4o 在提供建议时使用的道德和积极语言比人类专家更多。这可能是 AI 建议评分更高的原因之一,但并非唯一因素。

值得注意的是,这项研究仅针对美国参与者,未来的研究还需要进一步考察人们在不同文化背景下如何看待 AI 生成的道德推理。

发表回复