ArtPrompt: un jailbreak que permet eludir els filtres de les IA mitjançant imatges ASCII

Mètode ArtPrompt

Els avenços en el desenvolupament d'intel·ligències artificials cada vegada és més gran y requereix més capes de seguretat per evitar que persones mal intencionades abusin d'aquestes eines que han esdevingut armes doni doble tall.

I és que el desenvolupament dels LLMs que s'utilitzen en una àmplia gamma d'aplicacions, la seguretat ja no és opcional, ja que en moltes ocasions hem vist del que és capes el seu mal ús.

Tot i amb totes aquestes tècniques implementades, segueixen sorgint problemes que es troben dins de les dades d'entrenament, la qual cosa a primera vista no resulta res fora del comú o perillós en no considerar altres interpretacions possibles de les dades.

La raó d'esmentar això és que fa poc es va donar a conèixer informació sobre un nou atac anomenat «ArtPrompt», el qual es aprofita de les limitacions de les IA a reconèixer imatges ASCII per eludir les mesures de seguretat i desencadenar comportaments no desitjats als models.

Aquest atac va ser descobert per investigadors de les universitats de Washington, Illinois i Chicago, i esmenten que «ArtPrompt» és un mètode per eludir les restriccions en chatbots d'intel·ligència artificial tals com GPT-3.5, GPT-4 (OpenAI), Gemini (Google), Claude (Anthropic) i Llama2 (Meta).

Aquest mètode datac s'executa en dos passos i com a tal s'aprofita del reconeixement exitós de text formatat a ASCII. El primer pas consisteix a identifiquen les paraules del prompt que podrien desencadenar rebutjos per evadir els filtres que detecten preguntes perilloses i al segon s'encobreixen aquestes paraules utilitzant art ASCII per crear un prompt camuflat aconseguint així induir respostes perjudicials en el model.

L'efectivitat d'ArtPrompt es va avaluar en cinc chatbots, demostrant la seva capacitat per eludir les defenses existents i superar altres tipus datacs de jailbreak. Per avaluar la capacitat dels chatbots en reconèixer consultes en forma d'art ASCII, es proposa Vision-in-Text Challenge (VITC) com un benchmark.

Aquest desafiament cerca posar a prova la capacitat dels models per interpretar i respondre a consultes que utilitzen art ASCII, mostrant que els LLM tenen dificultats per comprendre consultes que representen una sola lletra o número amb art ASCII. La precisió dels models disminueix significativament a mesura que les consultes contenen més caràcters, cosa que posa de manifest una vulnerabilitat en la capacitat dels LLM per processar informació visual codificada d'aquesta manera. A més, es revisen altres atacs i defenses contra els jailbreaks a LLMs.

S'esmenta que ArtPrompt és notablement més efectiu que altres mètodes coneguts ja que va aconseguir la més alta qualitat de reconeixement de gràfics ASCII en models com Gemini, GPT-4 i GPT-3.5, amb taxes d'omissió reeixida del filtre del 100%, 98% i 92% respectivament a les proves. Pel que fa a la taxa d'èxit de l'atac, es va registrar un 76%, 32% i 76%, i la perillositat de les respostes rebudes es va avaluar en 4,42, 3,38 i 4,56 punts en una escala de cinc, respectivament.

ArtPrompt destaca d'altres atacs de jailbreak per construir les instruccions perjudicials, ja que requereixen un gran nombre d'iteracions, mentre que ArtPrompt aconsegueix l'ASR més alt entre
tots els atacs de jailbreak amb una sola iteració. La raó és que ArtPrompt pot construir eficientment el conjunt d'indicacions encobertes i enviar-los al model en paral·lel.

A més, els investigadors van demostrar que els mètodes comuns d'elusió de filtres actualment en ús (Paraphrase i Retokenization) no són efectius per bloquejar aquest tipus d'atac anomenat «ArtPrompt». Curiosament, l'ús del mètode de Retokenització fins i tot va augmentar la quantitat de sol·licituds processades amb èxit, cosa que ressalta la necessitat de desenvolupar noves estratègies per enfrontar aquest tipus d'amenaces en la interacció amb chatbots.

ArtPrompt destaca per la seva capacitat per eludir les defenses existents i els investigadors esmenten que seguirà sent eficaç per atacar models de llenguatge multimodal, mentre els models continuïn prenent imatges com a entrades, confonent el model i permetent que ArtPrompt indueixi comportaments insegurs.

Finalment si estàs interessat en poder conèixer més a l'respecte, pots consultar els detalls al següent enllaç.

LinuxAdictos

ArtPrompt: un jailbreak que permet eludir els filtres de les IA mitjançant imatges ASCII

Deixa el teu comentari Cancel lar la resposta