Az AI modellek képzése: az emberek és az AI közötti határmezsgyén

Egy új tanulmány szerint jelentős része azoknak az embereknek, akiket AI modellek képzésére fizetnek, maguk is AI-t használnak a munkájuk kiszervezésére. Az AI rendszerek pontos és megbízható működéséhez hatalmas mennyiségű adatra van szükség. Sok vállalat fizet olyan munkavállalóknak, akik a Mechanical Turk nevű platformon dolgoznak, hogy olyan feladatokat végezzenek el, amelyeket általában nehéz automatizálni, például CAPTCHA-k megoldása, adatok címkézése és szövegek annotálása. Ezeket az adatokat aztán az AI modellekbe táplálják, hogy azokat képezni lehessen. A munkavállalók rosszul fizetettek és gyakran sok feladatot kell nagyon gyorsan elvégezniük. Az AI modellek tele vannak biztonsági sebezhetőségekkel, mégis nagy mennyiségben beépülnek a technológiai termékekbe. Nem csoda, hogy néhányan olyan eszközökhöz fordulnak, mint a ChatGPT, hogy maximalizálják a kereseti lehetőségeiket. Egy svájci kutatócsoport 44 embert bérelt fel a Mechanical Turk platformon, hogy összefoglalják 16 orvosi kutatási cikk kivonatát. Majd elemzést végeztek a válaszaikon, egy olyan AI modellt használva, amelyet saját maguk képeztek ki, és amely a ChatGPT kimenetének jellegzetes jeleit keresi, például a szavak választékának hiányát. Emellett rögzítették a munkavállalók billentyűleütéseit annak megállapítására, hogy másolták-e be válaszaikat, ami arra utal, hogy máshol generálták a válaszokat. Becsülték, hogy a munkavállalók közül valahol 33% és 46% használt olyan AI modelleket, mint az OpenAI ChatGPT. A tanulmány szerzői szerint ez az arány valószínűleg még magasabb lesz, ahogy a ChatGPT és más AI rendszerek egyre erősebbek és könnyebben hozzáférhetővé válnak. Az AI által generált adatok használata az AI képzéséhez további hibákat eredményezhet a már hibára hajlamos modellekben. A nagy nyelvi modellek gyakran hamis információkat adnak ki tényként. Ha ezek hibás kimeneteket generálnak, amelyeket aztán más AI modellek képzéséhez használnak, akkor ezek a hibák felszívódnak azokba a modellekbe és idővel felerősödnek, így egyre nehezebb kideríteni az eredetüket. Ezért nincs egyszerű megoldás erre a problémára. A tanulmány rámutat az új módszerek szükségességére annak ellenőrzésére, hogy az adatok emberek vagy AI által generáltak-e. Emellett rávilágít azoknak a problémáknak az egyikére, amikor a technológiai vállalatok hajlamosak a gig munkavállalókra támaszkodni az AI rendszereknek táplált adatok rendbetételének fontos munkájában. Az AI közösségnek alaposan meg kell vizsgálnia, mely feladatok a leginkább automatizálhatók, és dolgoznia kell azon, hogy megelőzze ezt.

Népszerű bejegyzések