元 AI 安全漏洞被利用:空格键成绕行密钥

Meta公司发布Prompt-Guard-86M模型以保护AI免受恶意提示词攻击

近日,Meta公司在推出Llama 3.1 AI模型的同时,还发布了一款名为Prompt-Guard-86M的安全工具,旨在帮助开发人员检测并应对提示词注入和越狱等威胁。然而,有安全专家指出,这款模型本身也存在漏洞,容易被用户利用空格键等简单操作绕过。

提示词注入是一种针对自然语言处理(NLP)技术的攻击手段,攻击者通过在提示语中植入恶意内容,进而劫持模型的输出结果。提示泄漏和越狱则是提示词攻击的两种子类型,分别涉及模型对敏感词汇的泄漏以及对安全审查功能的绕过。尽管这些攻击方式可能导致严重的后果,但防范它们仍然至关重要。

为了提高AI系统的安全性,Meta公司开发的Prompt-Guard-86M模型采用了多种技术手段来识别和过滤潜在的危险内容。然而,安全专家阿曼・普里扬舒(Aman Priyanshu)在对该模型与其他基础模型进行比较分析时,发现了一种绕过安全防护的方法:在给出的提示词中,用户只需在每个字母之间插入空格,并省略标点符号,即可让模型忽视之前的指令。通过这种方式,攻击者可以尝试向模型传递有害信息,从而绕过安全防护措施。

虽然这类攻击的成功率受到多种因素的影响,例如模型的训练数据、提示词的长度和复杂性等,但在某些情况下,它甚至可以达到100%的攻击成功率。

总之,尽管AI技术带来了诸多便利和创新,但也面临着日益严峻的安全挑战。因此,研究人员和企业需要继续加强对此类问题的关注和研究,以确保AI技术能够健康、安全地发展。

发表回复