ChatGPT等大模型被指脆弱:研究称其对抗攻击能力不足
人工智能(AI)发展迅速,人们越来越期待其能超越人类智能。然而,最新研究发现,即使是打败人类围棋冠军的 AI 系统,如 AlphaGo 和 KataGo,也存在着容易被攻击的弱点。这一发现对于构建安全可靠的 AI 系统提出了新的挑战。
美国伊利诺伊大学的计算机科学家 Huan Zhang 和 MIT 的计算机科学家 Stephen Casper 领导的研究团队开展了一项名为“Can Go AIs be adversarially robust?”的研究,他们对围棋 AI 系统进行了测试,发现即使采用了多种防御手段,如位置对抗性训练、迭代对抗性训练以及更改网络架构等,也无法完全防止 AI 被攻击。这意味着,即使在围棋这个相对封闭的环境中,AI 的安全性仍需加强。
研究团队指出,要让 AI 系统始终优于人类智能水平且具有强健的鲁棒性,可能比我们想象的更为困难。为了确保 AI 系统的安全,研究人员提出了一系列方法,包括扩充攻击性 AI 机器人训练数据、提高对抗训练样本效率以及采用多智能体强化学习方案等。然而,这些方法并不能保证完全消除对抗性攻击的威胁。
尽管如此,该研究对于理解和提升 AI 系统的安全性具有重要意义。研究人员认为,从设计之初就应考虑 AI 的鲁棒性,以确保其在开放环境中也能保持稳定运行。