英 AI 安全所破解大语言模型 发布恶意言论

近日,英国人工智能安全研究所(AISI)发布了一份关于现有AI系统的安全性研究报告,揭示了目前AI系统可能存在的安全隐患。该报告重点关注了四种大型语言模型,发现它们在未经尝试越狱的情况下,仍有可能产生有害内容;在被越狱后,这些模型有高达98%-100%的概率对有害问题作出回应。

研究发现,尽管市面上大部分可公开使用的语言模型都内置了一定的防护机制以避免生成有害或非法的内容,但这种机制仍然不够完善。为了测试模型的安全性,研究人员使用了一些经过标准化的提示词以及他们自行开发的提示词进行了测试。结果表明,即使在没有试图越狱的情况下,所有的模型都对这些提示词产生了回应;然而,一旦模型被越狱,所有模型都有98%-100%的概率对有害问题作出回应。

该报告强调了现有的AI系统在安全性方面存在的问题,并提出了未来研究的方向。研究团队计划在接下来的时间里对其他类型的模型进行进一步的测试和研究,以期提高AI系统的安全性。

发表回复