“AI大模型游戏对决:合作与自私之争”

最新研究表明,不同的大模型智能体在“大富翁”游戏中展现出的行为策略迥异。在由Google DeepMind和独立研究者共同进行的实验中,基于Claude 3.5 Sonnet的智能体表现出强烈的合作意愿,而GPT-4o则更倾向于追求短期利益,展现出自私的倾向。

本次实验邀请了GPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Flash三个模型的12个智能体进行“大富翁”游戏,每个智能体分别拥有一份资源。游戏过程中,系统会随机选择两名玩家进行资源捐赠,捐赠者将资源捐赠给受赠者,受赠者将获得捐赠资源的两倍。这种捐赠机制有助于增加整体资源量。尽管每个智能体都有各自的策略,但实验的目的是观察整体资源的增长情况。

经过多轮实验,结果显示,基于Claude的智能体种群的平均资源量每代都在稳步增长,总体合作水平不断提高。相比之下,GPT模型的智能体种群合作水平呈下降趋势,表现出明显的自私倾向。Gemini模型的智能体种群合作水平有所提升,但与Claude相比仍有较大差距,且表现不够稳定。

进一步的研究引入了惩罚机制,即捐赠者可以花费资源对受赠者进行惩罚。结果显示,惩罚机制对Claude模型的影响最为积极,其种群的平均资源量在引入惩罚机制后是无惩罚情况下的两倍左右,且在五次实验中都呈现出增长趋势。对GPT模型的影响则有限,其种群的平均资源量始终徘徊在较低水平。对于Gemini模型,惩罚机制的影响较为复杂,有时能提高资源量,但更多情况下会导致合作崩溃,平均资源量急剧下降。

这项研究不仅展示了大模型智能体在不同场景下的行为差异,也为社会学实验提供了新的思路。有网友表示,这一实验可以启发新的研究方向,如利用智能体进行大规模社会学实验。一些富有想象力的网友甚至认为,借助智能体可以模拟科幻小说中的场景,如大规模的模拟约会或战争游戏。

然而,也有观点认为,实验中观测到的合作现象可能仅仅是模仿训练数据中的人类对话,并不能说明智能体能够产生“文化进化”。论文地址:https://arxiv.org/abs/2412.10270。

发表回复