AI助手失控：GPT-4成网络恶作剧者

近日，美国伊利诺伊大学香槟分校的研究团队发布了一项引人关注的研究。研究人员设计了一种黑客智能体框架，使用包括 GPT-4、GPT-3.5 在内的多个模型进行了测试。结果令人惊讶，只有 GPT-4 能够在阅读漏洞描述后，学会利用漏洞攻击，其他模型均未能实现这一目标。

研究团队在测试中发现，GPT-4 的成功率达到 87%，而其他模型的成功率为 0。研究人员表示，OpenAI 已要求他们不要将该研究的具体提示词公之于众。尽管如此，这一结果还是引发了广大网友的关注和热议。

这项研究的核心表明，GPT-4 能够利用真实的漏洞进行攻击。研究人员为此设计了一个漏洞数据集，包含被 CVE 描述为严重漏洞的信息。接着，他们使用黑客智能体架构，让大模型模拟攻击行为。这一过程中，GPT-4 通过一系列工具和 CVE 漏洞数据库信息进行处理，并根据历史记录产生反应。

研究人员共进行了 15 次测试，收集了 15 个真实世界的 One-Day 漏洞数据集。这些数据集涵盖了网站、容器管理软件和 Python 包等多个领域。其中，有 8 个漏洞被评为高级或关键严重漏洞，而 11 个漏洞已超过了 GPT-4 的知识截止日期。

在实验阶段，研究人员使用 91 行代码，其中包括调试和日志记录语句，构建了整个黑客智能体。他们总共在 ReAct 智能体框架中测试了 10 个模型，包括 GPT-4 和 GPT-3.5。结果显示，只有 GPT-4 能够成功破解单个 One-Day 漏洞，其他模型则未能实现这一目标。

研究人员还计算了 GPT-4 利用漏洞的成本。结果显示，GPT-4 每次利用漏洞的平均成本为 3.52 美元，主要来自输入 token 的费用。考虑到 GPT-4 在整个数据集上 40% 的成功率，每次成功利用漏洞的平均成本约为 8.8 美元。

针对这一研究结果，不少网友展开了讨论。有人认为这有点危言耸听，毕竟测试的 15 个漏洞中，5 个是容易被攻破的 XSS 漏洞。也有人分享了自己的经验，认为只要给 GPT-4 和 Claude 一个 shell 和一个简单的提示词，就可以实现类似的攻击效果。

值得一提的是，考虑到 OpenAI 已经知晓了这一研究，未来或许会看到相应的安全提升措施出台。