ArtPrompt:允许您使用 ASCII 图像绕过 AI 过滤器的越狱

艺术提示

艺术提示法

MGI 人工智能发展进步不断加大 y 需要更多的安全层 防止不怀好意的人滥用这些已成为双刃剑的工具。

在广泛应用的法学硕士的开发过程中,安全性不再是可选的,因为在很多情况下我们已经看到了它的滥用情况。

即使实施了所有这些技术, 问题不断出现 在训练数据中找到的这些数据,乍一看并没有什么异常或危险的,而不考虑数据的其他可能的解释。

之所以提到这一点,是因为最近 有关名为“ArtPrompt”的新攻击的信息已发布, 这是 利用人工智能识别 ASCII 图像的局限性 绕过安全措施并触发模型中不需要的行为。

这次攻击是 由华盛顿大学、伊利诺伊大学和芝加哥大学的研究人员发现,他们提到“ArtPrompt”是一种绕过 GPT-3.5、GPT-4 (OpenAI)、Gemini (Google)、Claude (Anthropic) 和 Llama2 (Meta) 等人工智能聊天机器人限制的方法。

这种攻击方式 分两步运行 因此,利用了 ASCII 格式文本的成功识别。第一步 包括识别提示中可能引发拒绝的单词 逃避检测危险问题的过滤器,然后 这些单词被 ASCII 艺术掩盖了 创建一个伪装的提示,从而设法在模型中引起有害的反应。

ArtPrompt 的有效性在五个聊天机器人上进行了评估, 展示了其绕过现有防御并胜过其他类型越狱攻击的能力。为了评估聊天机器人识别 ASCII 艺术形式查询的能力,提出了“文本视觉挑战(VITC)”作为基准。

该挑战旨在测试模型解释和响应使用 ASCII art 的查询的能力,表明法学硕士很难理解用 ASCII art 表示单个字母或数字的查询。随着查询包含更多字符,模型的准确性显着下降,揭示了法学硕士处理以这种方式编码的视觉信息的能力的漏洞。此外,还回顾了法学硕士中针对越狱的其他攻击和防御。

有人提到 ArtPrompt 明显比其他已知方法更有效 在 Gemini、GPT-4 和 GPT-3.5 等型号上实现了最高质量的 ASCII 图形识别,测试中过滤器绕过率分别达到 100%、98% 和 92%。攻击的成功率分别为 76%、32% 和 76%,收到的响应的危险性分别为 4,42、3,38 和 4,56 分(满分 XNUMX 分)。

ArtPrompt 在构建有害指令方面从其他越狱攻击中脱颖而出,因为它们需要大量迭代,而 ArtPrompt 实现了最高的 ASR
所有越狱攻击都只需一次迭代。原因是 ArtPrompt 可以有效地构建隐藏提示集,并将它们并行发送到模型。

此外,研究人员 证明了目前使用的常见过滤器旁路方法 (释义和重新标记) 不能有效阻止此类攻击 称为“艺术提示”。有趣的是,使用重新令牌化方法甚至增加了成功处理的请求数量,这凸显了在与聊天机器人交互时开发新策略来应对此类威胁的必要性。

ArtPrompt 因其绕过现有防御的能力而脱颖而出 研究人员提到,只要模型继续以图像作为输入,混淆模型并允许 ArtPrompt 诱发不安全行为,它就会继续有效地攻击多模态语言模型。

最后 如果您有兴趣了解更多信息, 您可以在中查看详细信息 以下链接。


发表您的评论

您的电子邮件地址将不会被发表。 必填字段标有 *

*

*

  1. 负责资料:AB Internet Networks 2008 SL
  2. 数据用途:控制垃圾邮件,注释管理。
  3. 合法性:您的同意
  4. 数据通讯:除非有法律义务,否则不会将数据传达给第三方。
  5. 数据存储:Occentus Networks(EU)托管的数据库
  6. 权利:您可以随时限制,恢复和删除您的信息。