Az Anthropic kutatása feltárta a nyelvmodellek biztonsági réseit
A "many-shot jailbreaking" működése
A támadás lényege, hogy a felhasználó egyetlen promptba ágyazva hamis párbeszédeket szerkeszt egy feltételezett ember és egy AI asszisztens között. Ezekben a párbeszédekben az AI olyan kérésekre is készségesen válaszol, amelyek potenciálisan káros vagy veszélyes tevékenységekre irányulnak. Ha kellően nagy számú ilyen párbeszédet adnak meg a promptban, az képes felülírni a nyelvmodell biztonsági tréningjét, és a legvégén szereplő célzott, de valójában nem kívánatos kérdésre is választ generál.
A sérülékenység háttere
A "many-shot jailbreaking" hatékonyságát a "kontextuson belüli tanulás" (angolul "in-context learning") jelensége teszi lehetővé. Ennek lényege, hogy a nyelvmodell pusztán a promptban szereplő példák alapján képes alkalmazkodni és új feladatokat megoldani, anélkül, hogy direkt erre a célra tanították volna. A kutatók azt találták, hogy a sikeres jailbreakeléshez szükséges prompt hossza hasonló skálázódási mintát mutat, mint a hagyományos in-context learning feladatok. Ráadásul a nagyobb és fejlettebb nyelvmodelleknél már rövidebb promptok is elegendőek lehetnek a biztonsági rések kihasználásához.
Lehetséges védekezési módszerek
Az Anthropic szakemberei többféle lehetséges védekezési módszert is megvizsgáltak a sérülékenység kivédésére. A kontextus ablakok méretének korlátozása ugyan megakadályozhatná a támadást, de egyben csökkentené a modellek sokoldalú felhasználhatóságát is. A modellek közvetlen finomhangolása, hogy elutasítsák a gyanús promptokat, csak időlegesen odázná el a problémát. Ígéretesebbnek tűnik viszont a felhasználói promptok intelligens osztályozása és szűrése, mielőtt azok egyáltalán eljutnának a nyelvmodellhez. A tesztek szerint az ilyen prompt-alapú védekezés jelentősen, akár 61%-ról 2%-ra is képes volt csökkenteni a jailbreaking sikerességét.
Következtetések
Az Anthropic kutatása rámutatott, hogy a nagy nyelvmodellek fejlődésével párhuzamosan a biztonsági kockázatok is megváltoznak. A növekvő kontextus ablakok kétélű fegyvernek bizonyulnak: egyrészt sokoldalúbbá teszik a modelleket, másrészt új támadási felületet is kínálnak. A cég a sérülékenység publikálásával a szélesebb szakmai közösség figyelmét is fel kívánja hívni a problémára. Ahogy az MI rendszerek egyre kifinomultabbá és képesebbé válnak, úgy válik egyre kritikusabbá az ehhez hasonló biztonsági rések felderítése és kivédése. Az Anthropic ezért továbbra is kiemelt figyelmet fordít a felelősségteljes és biztonságos mesterséges intelligencia fejlesztésére.