ArtPrompt : un jailbreak qui permet de contourner les filtres IA grâce aux images ASCII

Méthode ArtPrompt

Les les progrès dans le développement de l’intelligence artificielle s’accélèrent y nécessite plus de niveaux de sécurité pour empêcher des personnes mal intentionnées d’abuser de ces outils devenus des armes à double tranchant.

Et dans le développement de LLM utilisés dans un large éventail d'applications, la sécurité n'est plus une option, car nous avons vu à plusieurs reprises à quoi ressemble son utilisation abusive.

Même avec toutes ces techniques mises en œuvre, des problèmes continuent de surgir qui se trouvent dans les données d’entraînement, ce qui à première vue n’a rien d’extraordinaire ou de dangereux sans tenir compte d’autres interprétations possibles des données.

La raison de mentionner ceci est que récemment Des informations ont été publiées sur une nouvelle attaque appelée "ArtPrompt", lequel est Profitez des limites des IA dans la reconnaissance des images ASCII pour contourner les mesures de sécurité et déclencher des comportements indésirables dans les modèles.

Cette attaque était découvert par des chercheurs des universités de Washington, de l'Illinois et de Chicago, et ils mentionnent que « ArtPrompt » est une méthode pour contourner les restrictions sur les chatbots d’intelligence artificielle tels que GPT-3.5, GPT-4 (OpenAI), Gemini (Google), Claude (Anthropic) et Llama2 (Meta).

Cette méthode d'attaque se déroule en deux étapes et profite en tant que tel de la reconnaissance réussie du texte au format ASCII. Le premier pas consiste à identifier les mots dans l'invite qui pourraient déclencher des refus pour échapper aux filtres qui détectent les questions dangereuses et dans le second ces mots sont masqués à l'aide de l'art ASCII pour créer une invite camouflée, parvenant ainsi à induire des réponses nuisibles dans le modèle.

L'efficacité d'ArtPrompt a été évaluée sur cinq chatbots, démontrant sa capacité à contourner les défenses existantes et à surpasser les autres types d'attaques de jailbreak. Pour évaluer la capacité des chatbots à reconnaître les requêtes sous forme d'art ASCII, le « Vision-in-Text Challenge (VITC) » est proposé comme référence.

Ce défi vise à tester la capacité des modèles à interpréter et à répondre aux requêtes utilisant l'art ASCII, montrant que les LLM ont des difficultés à comprendre les requêtes qui représentent une seule lettre ou un seul chiffre avec l'art ASCII. La précision des modèles diminue considérablement à mesure que les requêtes contiennent plus de caractères, révélant une vulnérabilité dans la capacité des LLM à traiter les informations visuelles ainsi codées. De plus, d'autres attaques et défenses contre les jailbreaks dans les LLM sont examinées.

Il est mentionné que ArtPrompt est nettement plus efficace que les autres méthodes connues car il a obtenu la plus haute qualité de reconnaissance graphique ASCII sur des modèles tels que Gemini, GPT-4 et GPT-3.5, avec des taux de contournement de filtre réussis de 100 %, 98 % et 92 % respectivement lors des tests. Concernant le taux de réussite de l'attaque, 76%, 32% et 76% ont été enregistrés, et la dangerosité des réponses reçues a été évaluée à 4,42, 3,38 et 4,56 points sur une échelle de cinq, respectivement.

ArtPrompt se distingue des autres attaques de jailbreak par la construction d'instructions nuisibles car elles nécessitent un grand nombre d'itérations, tandis qu'ArtPrompt atteint l'ASR le plus élevé parmi
toutes les attaques de jailbreak en une seule itération. La raison en est qu'ArtPrompt peut créer efficacement un ensemble d'invites secrètes et les envoyer au modèle en parallèle.

De plus, les chercheurs démontré que les méthodes courantes de contournement des filtres actuellement utilisées (Paraphrase et retokénisation) ne sont pas efficaces pour bloquer ce type d’attaque appelé « ArtPrompt ». Il est intéressant de noter que l’utilisation de la méthode de retokenisation a même augmenté le nombre de requêtes traitées avec succès, soulignant la nécessité de développer de nouvelles stratégies pour faire face à ce type de menaces lors de l’interaction avec les chatbots.

ArtPrompt se distingue par sa capacité à contourner les défenses existantes et les chercheurs mentionnent qu'il continuera à être efficace pour attaquer les modèles de langage multimodaux, tant que les modèles continueront à prendre des images en entrée, ce qui confondra le modèle et permettra à ArtPrompt d'induire un comportement dangereux.

Enfin Si vous souhaitez en savoir plus, vous pouvez vérifier les détails dans le lien suivant

LinuxAdictos

ArtPrompt : un jailbreak qui permet de contourner les filtres IA grâce aux images ASCII

Laisser un commentaire Annuler la réponse