AI助手失控:GPT-4成网络恶作剧者

近日,美国伊利诺伊大学香槟分校的研究团队发布了一项引人关注的研究。研究人员设计了一种黑客智能体框架,使用包括 GPT-4、GPT-3.5 在内的多个模型进行了测试。结果令人惊讶,只有 GPT-4 能够在阅读漏洞描述后,学会利用漏洞攻击,其他模型均未能实现这一目标。

研究团队在测试中发现,GPT-4 的成功率达到 87%,而其他模型的成功率为 0。研究人员表示,OpenAI 已要求他们不要将该研究的具体提示词公之于众。尽管如此,这一结果还是引发了广大网友的关注和热议。

这项研究的核心表明,GPT-4 能够利用真实的漏洞进行攻击。研究人员为此设计了一个漏洞数据集,包含被 CVE 描述为严重漏洞的信息。接着,他们使用黑客智能体架构,让大模型模拟攻击行为。这一过程中,GPT-4 通过一系列工具和 CVE 漏洞数据库信息进行处理,并根据历史记录产生反应。

研究人员共进行了 15 次测试,收集了 15 个真实世界的 One-Day 漏洞数据集。这些数据集涵盖了网站、容器管理软件和 Python 包等多个领域。其中,有 8 个漏洞被评为高级或关键严重漏洞,而 11 个漏洞已超过了 GPT-4 的知识截止日期。

在实验阶段,研究人员使用 91 行代码,其中包括调试和日志记录语句,构建了整个黑客智能体。他们总共在 ReAct 智能体框架中测试了 10 个模型,包括 GPT-4 和 GPT-3.5。结果显示,只有 GPT-4 能够成功破解单个 One-Day 漏洞,其他模型则未能实现这一目标。

研究人员还计算了 GPT-4 利用漏洞的成本。结果显示,GPT-4 每次利用漏洞的平均成本为 3.52 美元,主要来自输入 token 的费用。考虑到 GPT-4 在整个数据集上 40% 的成功率,每次成功利用漏洞的平均成本约为 8.8 美元。

针对这一研究结果,不少网友展开了讨论。有人认为这有点危言耸听,毕竟测试的 15 个漏洞中,5 个是容易被攻破的 XSS 漏洞。也有人分享了自己的经验,认为只要给 GPT-4 和 Claude 一个 shell 和一个简单的提示词,就可以实现类似的攻击效果。

值得一提的是,考虑到 OpenAI 已经知晓了这一研究,未来或许会看到相应的安全提升措施出台。

发表回复