ArtPrompt: jailbreak, leidžiantis apeiti AI filtrus naudojant ASCII vaizdus

ArtPrompt metodas

Los dirbtinio intelekto kūrimo pažanga didėja y reikalauja daugiau saugumo sluoksnių kad piktavališki žmonės nepiktnaudžiautų šiais dviašmeniais kardais tapusiais įrankiais.

Kuriant LLM, kurios naudojamos įvairiose programose, saugumas nebėra neprivalomas, nes daug kartų matėme, koks yra netinkamas jos naudojimas.

Net ir įgyvendinus visus šiuos metodus, problemos kyla ir toliau kurie yra treniruočių duomenyse, kurie iš pirmo žvilgsnio nėra neįprasti ar pavojingi, neatsižvelgiant į kitas galimas duomenų interpretacijas.

Priežastis tai paminėti yra ta, kad neseniai Paskelbta informacija apie naują ataką pavadinimu „ArtPrompt“, kuris yra Pasinaudokite AI apribojimais atpažindami ASCII vaizdus apeiti saugumo priemones ir sukelti nepageidaujamą modelių elgesį.

Ši ataka buvo atrado Vašingtono, Ilinojaus ir Čikagos universitetų mokslininkai, ir jie mini, kad "ArtPrompt" yra būdas apeiti apribojimus dirbtinio intelekto pokalbių robotams, tokiems kaip GPT-3.5, GPT-4 (OpenAI), Gemini (Google), Claude (Anthropic) ir Llama2 (Meta).

Šis atakos metodas veikia dviem etapais ir todėl naudojasi sėkmingu ASCII formato teksto atpažinimu. Pirmas žingsnis susideda iš žodžių, galinčių sukelti atmetimą, identifikavimas raginime išvengti pavojingus klausimus aptinkančių filtrų ir antrajame šie žodžiai uždengti naudojant ASCII str sukurti užmaskuotą raginimą, taip sugebant sukelti žalingus modelio atsakymus.

„ArtPrompt“ efektyvumas buvo įvertintas penkiuose pokalbių robotuose, demonstruodamas savo gebėjimą apeiti esamą gynybą ir pranokti kitų tipų jailbreak atakas. Norint įvertinti pokalbių robotų gebėjimą atpažinti užklausas ASCII meno formoje, kaip etalonas siūlomas „Vision-in-Text Challenge (VITC)“.

Šiuo iššūkiu siekiama patikrinti modelių gebėjimą interpretuoti ir atsakyti į užklausas, kuriose naudojamas ASCII menas, ir parodyta, kad LLM sunku suprasti užklausas, kuriose yra viena raidė ar skaičius, naudojant ASCII meną. Modelių tikslumas žymiai sumažėja, nes užklausose yra daugiau simbolių, o tai atskleidžia LLM gebėjimo apdoroti tokiu būdu užkoduotą vaizdinę informaciją pažeidžiamumą. Be to, apžvelgiamos kitos LLM atakos ir gynybos priemonės nuo įsilaužimo į kalėjimą.

Minima, kad ArtPrompt yra žymiai efektyvesnis už kitus žinomus metodus nes jis pasiekė aukščiausią ASCII grafikos atpažinimo kokybę tokiuose modeliuose kaip Gemini, GPT-4 ir GPT-3.5, o sėkmingas filtro apėjimo rodiklis buvo atitinkamai 100%, 98% ir 92% bandymų metu. Pagal atakos sėkmės rodiklį užfiksuoti 76%, 32% ir 76%, o gautų atsakymų pavojingumas penkių balų skalėje įvertintas atitinkamai 4,42, 3,38 ir 4,56 balais.

Iš kitų „Jailbreak“ atakų „ArtPrompt“ išsiskiria tuo, kad kuria kenksmingas instrukcijas, nes jiems reikia daug pakartojimų, o „ArtPrompt“ pasiekia aukščiausią ASR.
visos jailbreak atakos su viena iteracija. Priežastis ta, kad „ArtPrompt“ gali efektyviai sukurti slaptų raginimų rinkinį ir lygiagrečiai juos siųsti modeliui.

Be to, tyrėjai parodė, kad šiuo metu naudojami įprasti filtrų apėjimo metodai (Parafrazė ir retokenizacija) nėra veiksmingi blokuojant tokio tipo atakas vadinamas „ArtPrompt“. Įdomu tai, kad naudojant retokenizacijos metodą netgi padidėjo sėkmingai apdorojamų užklausų skaičius, todėl išryškėjo būtinybė kurti naujas strategijas, kaip susidoroti su tokio tipo grėsmėmis bendraujant su pokalbių robotais.

ArtPrompt išsiskiria savo gebėjimu apeiti esamas apsaugos priemones ir mokslininkai mini, kad jis ir toliau bus veiksmingas puolant multimodalinius kalbų modelius, kol modeliai ir toliau ims vaizdus kaip įvestis, supainiodami modelį ir leisdami ArtPrompt sukelti nesaugų elgesį.

Pagaliau Jei norite sužinoti daugiau apie tai, išsamią informaciją galite patikrinti sekanti nuoroda.

LinuxAdictos

ArtPrompt: jailbreak, leidžiantis apeiti AI filtrus naudojant ASCII vaizdus

Palikite komentarą Atšaukti atsakymą