ArtPrompt: jailbreak yang membolehkan anda memintas penapis AI menggunakan imej ASCII

ArtPrompt

Kaedah ArtPrompt

The kemajuan dalam pembangunan kecerdasan buatan semakin meningkat y memerlukan lebih banyak lapisan keselamatan untuk mengelakkan orang yang berniat jahat daripada menyalahgunakan alat yang telah menjadi pedang bermata dua ini.

Dan dalam pembangunan LLM yang digunakan dalam pelbagai aplikasi, keselamatan tidak lagi menjadi pilihan, kerana pada banyak masa kita telah melihat bagaimana penyalahgunaannya.

Walaupun dengan semua teknik ini dilaksanakan, masalah terus timbul yang terdapat dalam data latihan, yang pada pandangan pertama bukanlah sesuatu yang luar biasa atau berbahaya tanpa mengambil kira kemungkinan tafsiran data yang lain.

Sebab untuk menyebut perkara ini ialah baru-baru ini Maklumat dikeluarkan tentang serangan baharu yang dipanggil "ArtPrompt", iaitu Manfaatkan keterbatasan AI dalam mengenali imej ASCII untuk memintas langkah keselamatan dan mencetuskan tingkah laku yang tidak diingini dalam model.

Serangan ini adalah ditemui oleh penyelidik dari universiti Washington, Illinois dan Chicago, dan mereka menyebut bahawa "ArtPrompt" ialah kaedah untuk memintas sekatan pada chatbot kecerdasan buatan seperti GPT-3.5, GPT-4 (OpenAI), Gemini (Google), Claude (Anthropic) dan Llama2 (Meta).

Kaedah serangan ini berjalan dalam dua langkah dan oleh itu mengambil kesempatan daripada kejayaan pengiktirafan teks berformat ASCII. Langkah pertama terdiri daripada mengenal pasti perkataan dalam gesaan yang boleh mencetuskan penolakan untuk mengelak daripada penapis yang mengesan soalan berbahaya dan pada yang kedua perkataan itu ditutup menggunakan seni ASCII untuk mencipta gesaan yang disamarkan, dengan itu menguruskan untuk mendorong tindak balas berbahaya dalam model.

Keberkesanan ArtPrompt dinilai pada lima chatbots, menunjukkan keupayaannya untuk memintas pertahanan sedia ada dan mengatasi jenis serangan jailbreak yang lain. Untuk menilai keupayaan chatbots dalam mengenali pertanyaan dalam bentuk seni ASCII, "Cabaran Visi dalam Teks (VITC)" dicadangkan sebagai penanda aras.

Cabaran ini bertujuan untuk menguji keupayaan model untuk mentafsir dan menjawab pertanyaan yang menggunakan seni ASCII, menunjukkan bahawa LLM mengalami kesukaran memahami pertanyaan yang mewakili satu huruf atau nombor dengan seni ASCII. Ketepatan model berkurangan dengan ketara kerana pertanyaan mengandungi lebih banyak aksara, mendedahkan kelemahan dalam keupayaan LLM untuk memproses maklumat visual yang dikodkan dengan cara ini. Selain itu, serangan dan pertahanan lain terhadap jailbreak dalam LLM disemak.

Disebutkan bahawa ArtPrompt nyata lebih berkesan daripada kaedah lain yang diketahui kerana ia mencapai kualiti tertinggi pengiktirafan grafik ASCII pada model seperti Gemini, GPT-4 dan GPT-3.5, dengan kadar pintasan penapis yang berjaya masing-masing sebanyak 100%, 98% dan 92% dalam ujian. Mengenai kadar kejayaan serangan, 76%, 32% dan 76% telah direkodkan, dan bahaya tindak balas yang diterima dinilai pada 4,42, 3,38 dan 4,56 mata pada skala lima, masing-masing.

ArtPrompt menonjol daripada serangan jailbreak lain untuk membina arahan berbahaya kerana ia memerlukan sejumlah besar lelaran, manakala ArtPrompt mencapai ASR tertinggi antara
semua serangan jailbreak dengan satu lelaran. Sebabnya ialah ArtPrompt boleh membina set gesaan rahsia dengan cekap dan menghantarnya kepada model secara selari.

Di samping itu, para penyelidik menunjukkan bahawa kaedah pintasan penapis biasa sedang digunakan (Parafrasa dan Retokenisasi) tidak berkesan untuk menyekat jenis serangan ini dipanggil "ArtPrompt". Menariknya, penggunaan kaedah Retokenization malah meningkatkan bilangan permintaan yang berjaya diproses, menonjolkan keperluan untuk membangunkan strategi baharu untuk menangani jenis ancaman ini apabila berinteraksi dengan chatbots.

ArtPrompt menonjol kerana keupayaannya untuk memintas pertahanan sedia ada dan penyelidik menyebut bahawa ia akan terus berkesan dalam menyerang model bahasa multimodal, selagi model tersebut terus mengambil imej sebagai input, mengelirukan model dan membenarkan ArtPrompt untuk mendorong tingkah laku yang tidak selamat.

Akhirnya Sekiranya anda berminat untuk mengetahui lebih lanjut mengenainya, anda boleh menyemak butiran di pautan berikut.


Tinggalkan komen anda

Alamat email anda tidak akan disiarkan. Ruangan yang diperlukan ditanda dengan *

*

*

  1. Bertanggungjawab untuk data: AB Internet Networks 2008 SL
  2. Tujuan data: Mengendalikan SPAM, pengurusan komen.
  3. Perundangan: Persetujuan anda
  4. Komunikasi data: Data tidak akan disampaikan kepada pihak ketiga kecuali dengan kewajiban hukum.
  5. Penyimpanan data: Pangkalan data yang dihoskan oleh Occentus Networks (EU)
  6. Hak: Pada bila-bila masa anda boleh menghadkan, memulihkan dan menghapus maklumat anda.