ArtPrompt: джейлбрейк, позволяющий обходить AI-фильтры с помощью изображений ASCII

АртПромпт

Метод АртПромпт

прогресс в развитии искусственного интеллекта растет y требуется больше уровней безопасности чтобы помешать злонамеренным людям злоупотреблять этими инструментами, которые стали палкой о двух концах.

А при разработке LLM, которые используются в широком спектре приложений, безопасность больше не является необязательной, поскольку во многих случаях мы видели, на что похоже ее неправильное использование.

Даже несмотря на все эти методы, проблемы продолжают возникать которые находятся в обучающих данных, что на первый взгляд не является чем-то необычным или опасным, если не учитывать другие возможные интерпретации данных.

Причиной упоминания об этом является то, что в последнее время Обнародована информация о новой атаке под названием «ArtPrompt». который Воспользуйтесь преимуществами ИИ при распознавании изображений ASCII. для обхода мер безопасности и запуска нежелательного поведения в моделях.

Эта атака была обнаружен исследователями из университетов Вашингтона, Иллинойса и Чикагои они упоминают, что «ArtPrompt» — это метод обхода ограничений на чат-боты с искусственным интеллектом, такие как GPT-3.5, GPT-4 (OpenAI), Gemini (Google), Claude (Anthropic) и Llama2 (Meta).

Этот метод атаки выполняется в два этапа и, таким образом, использует преимущества успешного распознавания текста в формате ASCII. Первый шаг состоит из определения слов в подсказке, которые могут вызвать отказ обойти фильтры, обнаруживающие опасные вопросы, и во втором эти слова скрыты с помощью символов ASCII. создать замаскированную подсказку, тем самым сумев вызвать вредные реакции в модели.

Эффективность ArtPrompt оценивалась на пяти чат-ботах: демонстрируя свою способность обходить существующую защиту и превосходить другие типы джейлбрейк-атак. Для оценки способности чат-ботов распознавать запросы в художественной форме ASCII в качестве эталона предлагается «Vision-in-Text Challenge (VITC)».

Эта задача направлена ​​​​на проверку способности моделей интерпретировать и отвечать на запросы, в которых используется искусство ASCII, показывая, что LLM испытывают трудности с пониманием запросов, которые представляют собой одну букву или цифру с изображением ASCII. Точность моделей значительно снижается по мере того, как запросы содержат больше символов, что обнажает уязвимость в способности LLM обрабатывать закодированную таким образом визуальную информацию. Кроме того, рассматриваются другие атаки и средства защиты от взлома в LLM.

Упоминается, что ArtPrompt заметно эффективнее других известных методов. поскольку он достиг высочайшего качества распознавания графики ASCII на таких моделях, как Gemini, GPT-4 и GPT-3.5, с успешным коэффициентом обхода фильтра 100%, 98% и 92% соответственно при тестировании. Что касается успешности атаки, то зафиксировано 76%, 32% и 76%, а опасность полученных ответов оценена в 4,42, 3,38 и 4,56 балла по пятибалльной шкале соответственно.

ArtPrompt выделяется среди других джейлбрейк-атак созданием вредоносных инструкций, поскольку они требуют большого количества итераций, а ArtPrompt достигает самого высокого ASR среди
все джейлбрейк-атаки за одну итерацию. Причина в том, что ArtPrompt может эффективно создавать набор скрытых подсказок и параллельно отправлять их в модель.

Кроме того, исследователи продемонстрировал, что распространенные методы обхода фильтров, используемые в настоящее время (Перефраз и ретокенизация) не эффективны при блокировании этого типа атаки под названием «АртПромпт». Интересно, что использование метода ретокенизации даже увеличило количество успешно обработанных запросов, подчеркнув необходимость разработки новых стратегий для борьбы с этими типами угроз при взаимодействии с чат-ботами.

ArtPrompt выделяется своей способностью обходить существующую защиту. и исследователи отмечают, что он будет по-прежнему эффективен при атаке на мультимодальные языковые модели, пока модели продолжают принимать изображения в качестве входных данных, что сбивает модель с толку и позволяет ArtPrompt вызывать небезопасное поведение.

В конце концов Если вам интересно узнать об этом больше, вы можете проверить детали в по следующей ссылке.


Оставьте свой комментарий

Ваш электронный адрес не будет опубликован. Обязательные для заполнения поля помечены *

*

*

  1. Ответственный за данные: AB Internet Networks 2008 SL
  2. Назначение данных: контроль спама, управление комментариями.
  3. Легитимация: ваше согласие
  4. Передача данных: данные не будут переданы третьим лицам, кроме как по закону.
  5. Хранение данных: база данных, размещенная в Occentus Networks (ЕС)
  6. Права: в любое время вы можете ограничить, восстановить и удалить свою информацию.