ArtPrompt: ett jailbreak som låter dig kringgå AI-filter med ASCII-bilder

ArtPrompt

ArtPrompt-metoden

mycket framstegen i utvecklingen av artificiell intelligens ökar y kräver fler lager av säkerhet för att förhindra illasinnade människor från att missbruka dessa verktyg som har blivit tveeggade svärd.

Och i utvecklingen av LLM som används i ett brett spektrum av applikationer är säkerhet inte längre valfritt, eftersom vi vid många tillfällen har sett hur dess missbruk är.

Även med alla dessa tekniker implementerade, problem fortsätter att uppstå som finns inom träningsdata, som vid första anblicken inte är något ovanligt eller farligt utan att överväga andra möjliga tolkningar av data.

Anledningen till att nämna detta är att nyligen Information släpptes om en ny attack kallad "ArtPrompt", vilket är Utnyttja begränsningarna hos AI:er när det gäller att känna igen ASCII-bilder att kringgå säkerhetsåtgärder och utlösa oönskat beteende i modeller.

Denna attack var upptäckt av forskare från universiteten i Washington, Illinois och Chicago, och de nämner att "ArtPrompt" är en metod för att kringgå restriktioner för artificiell intelligens chatbots som GPT-3.5, GPT-4 (OpenAI), Gemini (Google), Claude (Anthropic) och Llama2 (Meta).

Denna attackmetod går i två steg och som sådan drar fördel av den framgångsrika igenkänningen av ASCII-formaterad text. Det första steget består av att identifiera de ord i prompten som kan utlösa avslag att undvika filtren som upptäcker farliga frågor och i den andra dessa ord täcks över med ASCII-art att skapa en kamouflerad prompt och på så sätt lyckas framkalla skadliga svar i modellen.

Effektiviteten av ArtPrompt utvärderades på fem chatbots, demonstrerar sin förmåga att kringgå befintliga försvar och överträffa andra typer av jailbreak-attacker. För att utvärdera chatbotarnas förmåga att känna igen frågor i ASCII-konstform, föreslås "Vision-in-Text Challenge (VITC)" som ett riktmärke.

Denna utmaning försöker testa modellernas förmåga att tolka och svara på frågor som använder ASCII-konst, vilket visar att LLM:er har svårt att förstå frågor som representerar en enda bokstav eller siffra med ASCII-art. Modellernas noggrannhet minskar avsevärt när frågor innehåller fler tecken, vilket avslöjar en sårbarhet i LLM:ers förmåga att bearbeta visuell information kodad på detta sätt. Dessutom granskas andra attacker och försvar mot jailbreaks i LLM.

Det nämns det ArtPrompt är märkbart effektivare än andra kända metoder eftersom den uppnådde den högsta kvaliteten på ASCII-grafikigenkänning på modeller som Gemini, GPT-4 och GPT-3.5, med framgångsrika filterbypasshastigheter på 100 %, 98 % respektive 92 % i testning. När det gäller attackens framgångsfrekvens registrerades 76 %, 32 % och 76 %, och farligheten i de mottagna svaren utvärderades till 4,42, 3,38 respektive 4,56 poäng på en femskala.

ArtPrompt sticker ut från andra jailbreak-attacker för att konstruera skadliga instruktioner eftersom de kräver ett stort antal iterationer, medan ArtPrompt uppnår den högsta ASR bland
alla jailbreakattacker med en enda iteration. Anledningen är att ArtPrompt effektivt kan bygga uppsättningen av hemliga uppmaningar och skicka dem till modellen parallellt.

Dessutom forskarna visade att vanliga filterbypassmetoder som används för närvarande (Parafraser och retokenisering) är inte effektiva för att blockera denna typ av attack kallas "ArtPrompt". Intressant nog ökade användningen av Retokenization-metoden till och med antalet förfrågningar som behandlades framgångsrikt, vilket belyser behovet av att utveckla nya strategier för att hantera dessa typer av hot när man interagerar med chatbots.

ArtPrompt utmärker sig för sin förmåga att kringgå befintliga försvar och forskarna nämner att det kommer att fortsätta att vara effektivt för att attackera multimodala språkmodeller, så länge som modellerna fortsätter att ta bilder som input, förvirrar modellen och tillåter ArtPrompt att framkalla osäkert beteende.

Slutligen Om du är intresserad av att veta mer om det, Du kan kontrollera detaljerna i följande länk.


Lämna din kommentar

Din e-postadress kommer inte att publiceras. Obligatoriska fält är markerade med *

*

*

  1. Ansvarig för data: AB Internet Networks 2008 SL
  2. Syftet med uppgifterna: Kontrollera skräppost, kommentarhantering.
  3. Legitimering: Ditt samtycke
  4. Kommunikation av uppgifterna: Uppgifterna kommer inte att kommuniceras till tredje part förutom enligt laglig skyldighet.
  5. Datalagring: databas värd för Occentus Networks (EU)
  6. Rättigheter: När som helst kan du begränsa, återställa och radera din information.