Egy új tanulmány szerint, ha versben fogalmazzuk meg a kérdéseinket, könnyen megzavarhatjuk a mesterséges intelligencia (MI) alapú chatbotokat – írta a Wired. Az Icaro Lab kutatói úgy vélik, az MI-chatbotok érzékenyebb témákról – mint például nukleáris fegyverekről, gyermekpornográf tartalomról vagy kártékony szoftverekről – is képesek információt adni,
amennyiben a felhasználók vers formájában teszik fel a kérdéseiket.
A kutatók 25 különböző chatboton tesztelték a módszert, többek között az OpenAI, a Meta és az Anthropic termékein. Általában az MI-eszközök, így a Claude vagy a ChatGPT, biztonsági korlátokkal rendelkeznek, amelyek megakadályozzák, hogy a felhasználók bosszúpornóval vagy nukleáris fegyverekkel kapcsolatos kérdéseket tehessenek fel.
Ennek ellenére számos esetről tudni, amikor a védelmi mechanizmusok megbomlottak, például akkor,
- amikor az MI-játék arról tájékoztatott egy 5 éves gyereket, hogy hol találja a gyufát;
- vagy a ChatGPT öngyilkosságra buzdított egy 14 éves fiút.
Most kiderítették, hogy a védelmi rendszerek az úgynevezett „jailbreak” módszerrel szintén könnyen átvághatóak. A technika lényege, hogy extra, zavart keltő szövegrészekkel toldják meg a kéréseket, ezáltal összezavarható a mesterséges intelligencia.
Így verhető át az MI
Egy korábbi tanulmányban az Intel kutatói hasonló módon, több száz szavas akadémiai szakzsargonnal álcázták a veszélyes kérdéseket. A költői jailbreak hasonló elven működik: a kutatók verses formában, metaforákkal és burkolt utalásokkal fogalmazták meg a kényes kéréseiket. A szövegeket kézzel és géppel írott formában is betáplálták a chatbotokba.
A költői keret a kézzel írt versek esetén átlagosan 62 százalékos sikerességi arányt ért el, míg körülbelül 43 százalékosat a géppel írt szövegeknél.
A legfejlettebb modelleknél az arány a 90 százalékot is meghaladta.
A chatbotok több esetben a váratlan szavakkal és képzettársításokkal nem tudtak mit kezdeni. A módszer titka, hogy kihasználja az MI-modellek szófelismerő képességeinek gyenge pontjait. Bár a biztonsági korlátok nem minden esetben azonosak, és általában az MI fölé épített, tőle elkülönített rendszerekként működnek, ugyanakkor egy elterjedt típusa, az úgynevezett osztályozó, a kulcsszavak és kifejezések alapján ellenőrzi a szövegeket, és leállítja azokat, amelyeket veszélyesnek ítél.
Az Icaro Lab szerint azonban a költészet „lágyítja” ezeket a rendszereket, ami azt jelzi, hogy az MI gyengén reagál a stílusbeli változatosságra. A chatbotok, amikor értelmeznek egy szót, akkor több irányba indulnak el a belső „értelmezési térképükön”, és kiválasztják a megfelelő jelentést. Azonban a költői nyelvezet egy olyan „útvonalra” viszi őket, ami gyakran nem a veszélyesnek tartott szavak felé vezeti, még ha a kérdés tartalma valójában kritikus témákat is feszeget.
The post Ha az ember ügyesen kérdez, a mesterséges intelligencia egy atomfegyver elkészítésében is segít first appeared on 24.hu.
Tovább az erdeti cikkre:: 24.hu





