Az Anthropic kutatása feltárta a nyelvmodellek biztonsági réseit

Az Anthropic, a megbízható és irányítható mesterséges intelligencia fejlesztésére szakosodott vállalat egy újonnan felfedezett sérülékenységre hívta fel a figyelmet a nagy nyelvmodellek (LLM-ek) kapcsán. Az úgynevezett "many-shot jailbreaking" technika képes kijátszani az LLM-ek beépített biztonsági korlátait, kihasználva a modellek egyre növekvő kontextus ablakait.

A "many-shot jailbreaking" működése

A támadás lényege, hogy a felhasználó egyetlen promptba ágyazva hamis párbeszédeket szerkeszt egy feltételezett ember és egy AI asszisztens között. Ezekben a párbeszédekben az AI olyan kérésekre is készségesen válaszol, amelyek potenciálisan káros vagy veszélyes tevékenységekre irányulnak. Ha kellően nagy számú ilyen párbeszédet adnak meg a promptban, az képes felülírni a nyelvmodell biztonsági tréningjét, és a legvégén szereplő célzott, de valójában nem kívánatos kérdésre is választ generál.

A sérülékenység háttere

A "many-shot jailbreaking" hatékonyságát a "kontextuson belüli tanulás" (angolul "in-context learning") jelensége teszi lehetővé. Ennek lényege, hogy a nyelvmodell pusztán a promptban szereplő példák alapján képes alkalmazkodni és új feladatokat megoldani, anélkül, hogy direkt erre a célra tanították volna. A kutatók azt találták, hogy a sikeres jailbreakeléshez szükséges prompt hossza hasonló skálázódási mintát mutat, mint a hagyományos in-context learning feladatok. Ráadásul a nagyobb és fejlettebb nyelvmodelleknél már rövidebb promptok is elegendőek lehetnek a biztonsági rések kihasználásához.

Lehetséges védekezési módszerek

Az Anthropic szakemberei többféle lehetséges védekezési módszert is megvizsgáltak a sérülékenység kivédésére. A kontextus ablakok méretének korlátozása ugyan megakadályozhatná a támadást, de egyben csökkentené a modellek sokoldalú felhasználhatóságát is. A modellek közvetlen finomhangolása, hogy elutasítsák a gyanús promptokat, csak időlegesen odázná el a problémát. Ígéretesebbnek tűnik viszont a felhasználói promptok intelligens osztályozása és szűrése, mielőtt azok egyáltalán eljutnának a nyelvmodellhez. A tesztek szerint az ilyen prompt-alapú védekezés jelentősen, akár 61%-ról 2%-ra is képes volt csökkenteni a jailbreaking sikerességét.

Következtetések

Az Anthropic kutatása rámutatott, hogy a nagy nyelvmodellek fejlődésével párhuzamosan a biztonsági kockázatok is megváltoznak. A növekvő kontextus ablakok kétélű fegyvernek bizonyulnak: egyrészt sokoldalúbbá teszik a modelleket, másrészt új támadási felületet is kínálnak. A cég a sérülékenység publikálásával a szélesebb szakmai közösség figyelmét is fel kívánja hívni a problémára. Ahogy az MI rendszerek egyre kifinomultabbá és képesebbé válnak, úgy válik egyre kritikusabbá az ehhez hasonló biztonsági rések felderítése és kivédése. Az Anthropic ezért továbbra is kiemelt figyelmet fordít a felelősségteljes és biztonságos mesterséges intelligencia fejlesztésére.

Népszerű bejegyzések