ArtPrompt: een jailbreak waarmee je AI-filters kunt omzeilen met ASCII-afbeeldingen

ArtPrompt-methode

De De vooruitgang in de ontwikkeling van kunstmatige intelligentie neemt toe y vereist meer beveiligingslagen om te voorkomen dat mensen met slechte bedoelingen misbruik maken van deze instrumenten, die tweesnijdende zwaarden zijn geworden.

En bij de ontwikkeling van LLM's die in een breed scala aan toepassingen worden gebruikt, is beveiliging niet langer optioneel, omdat we bij veel gelegenheden hebben gezien hoe het misbruik ervan is.

Zelfs met al deze technieken geïmplementeerd, problemen blijven zich voordoen die worden aangetroffen in de trainingsgegevens, wat op het eerste gezicht niets bijzonders of gevaarlijks is zonder rekening te houden met andere mogelijke interpretaties van de gegevens.

De reden om dit te vermelden is dat onlangs Er is informatie vrijgegeven over een nieuwe aanval genaamd "ArtPrompt", wat is? Profiteer van de beperkingen van AI bij het herkennen van ASCII-afbeeldingen om beveiligingsmaatregelen te omzeilen en ongewenst gedrag in modellen te veroorzaken.

Deze aanval was ontdekt door onderzoekers van de universiteiten van Washington, Illinois en Chicago, en ze vermelden dat “ArtPrompt” een methode is om beperkingen op kunstmatige intelligentie-chatbots zoals GPT-3.5, GPT-4 (OpenAI), Gemini (Google), Claude (Anthropic) en Llama2 (Meta) te omzeilen.

Deze aanvalsmethode verloopt in twee stappen en profiteert als zodanig van de succesvolle herkenning van ASCII-geformatteerde tekst. De eerste stap bestaat uit het identificeren van de woorden in de prompt die tot afwijzingen kunnen leiden om de filters te omzeilen die gevaarlijke vragen detecteren en in de tweede die woorden zijn bedekt met ASCII-kunst om een gecamoufleerde prompt te creëren, waardoor schadelijke reacties in het model kunnen worden geïnduceerd.

De effectiviteit van ArtPrompt werd geëvalueerd op vijf chatbots, waarmee het zijn vermogen aantoont om bestaande verdedigingen te omzeilen en beter te presteren dan andere soorten jailbreak-aanvallen. Om het vermogen van chatbots bij het herkennen van zoekopdrachten in de ASCII-kunstvorm te evalueren, wordt “Vision-in-Text Challenge (VITC)” voorgesteld als benchmark.

Deze uitdaging is bedoeld om het vermogen van de modellen te testen om zoekopdrachten die ASCII-kunst gebruiken te interpreteren en erop te reageren, wat aantoont dat LLM's moeite hebben met het begrijpen van zoekopdrachten die een enkele letter of cijfer vertegenwoordigen met ASCII-kunst. De nauwkeurigheid van de modellen neemt aanzienlijk af naarmate zoekopdrachten meer tekens bevatten, wat een kwetsbaarheid aan het licht brengt in het vermogen van LLM's om op deze manier gecodeerde visuele informatie te verwerken. Daarnaast worden andere aanvallen en verdedigingen tegen jailbreaks in LLM's beoordeeld.

Er wordt gezegd dat ArtPrompt is merkbaar effectiever dan andere bekende methoden omdat het de hoogste kwaliteit van ASCII grafische herkenning behaalde op modellen als Gemini, GPT-4 en GPT-3.5, met succesvolle filterbypasspercentages van respectievelijk 100%, 98% en 92% tijdens tests. Wat het succespercentage van de aanval betreft, werden 76%, 32% en 76% geregistreerd, en de gevaarlijkheid van de ontvangen reacties werd beoordeeld op respectievelijk 4,42, 3,38 en 4,56 punten op een schaal van vijf.

ArtPrompt onderscheidt zich van andere jailbreak-aanvallen door het construeren van schadelijke instructies, omdat deze een groot aantal iteraties vereisen, terwijl ArtPrompt de hoogste ASR behaalt onder de
alle jailbreak-aanvallen met een enkele iteratie. De reden is dat ArtPrompt de set geheime aanwijzingen efficiënt kan opbouwen en deze parallel naar het model kan sturen.

Daarnaast hebben de onderzoekers heeft aangetoond dat de gangbare filter-bypass-methoden die momenteel worden gebruikt (Parafrase en hertokenisatie) zijn niet effectief in het blokkeren van dit soort aanvallen genaamd “ArtPrompt”. Interessant is dat het gebruik van de Retokenization-methode zelfs het aantal succesvol verwerkte verzoeken heeft doen toenemen, wat de noodzaak benadrukt om nieuwe strategieën te ontwikkelen om dit soort bedreigingen het hoofd te bieden bij interactie met chatbots.

ArtPrompt valt op door zijn vermogen om bestaande verdedigingen te omzeilen en de onderzoekers vermelden dat het effectief zal blijven in het aanvallen van multimodale taalmodellen, zolang de modellen afbeeldingen als input blijven gebruiken, waardoor het model in de war raakt en ArtPrompt in staat wordt gesteld onveilig gedrag te veroorzaken.

Eindelijk Als u er meer over wilt weten, u kunt de details in het volgende link.

LinuxAdictos

ArtPrompt: een jailbreak waarmee je AI-filters kunt omzeilen met behulp van ASCII-afbeeldingen

Laat je reactie achter Antwoord annuleren