GPT-4: Az AI chatbot, amely elveszíti a pontosságát

Az OpenAI által kifejlesztett ChatGPT nevű mesterséges intelligencia chatbot, amelyet a Stanford Egyetem tanulmánya is vizsgált, néhány hónap alatt jelentős pontossági veszteséget szenvedett el. A kutatás szerint a ChatGPT júniusban rosszabbul teljesített bizonyos feladatokban, mint a márciusi verziója. A tanulmány négy különböző feladatot vizsgált: matematikai feladatok megoldása, érzékeny kérdések megválaszolása, szoftverkód generálása és vizuális gondolkodás. A kutatók az úgynevezett "driftet" fedezték fel, vagyis a technológia egyes feladatok elvégzésében bekövetkező vad ingadozásokat. A legjelentősebb változásokat a GPT-4 matematikai feladatok megoldására vonatkozó képessége mutatta. Márciusban a GPT-4 97,6%-ban helyesen azonosította a 17077-es számot prímszámként, de júniusra ez a pontosság mindössze 2,4%-ra csökkent. Ugyanakkor a GPT-3.5 modell pontossága ellentétes irányba változott. Márciusban mindössze 7,4%-ban válaszolt helyesen ugyanehhez a kérdéshez, míg júniusra az esetek 86,8%-ában helyes választ adott.

Az eredmények hasonlóan eltérőek voltak, amikor a modelleket arra kérték, hogy írjanak kódot, vagy végezzenek egy vizuális gondolkodási tesztet. A kutatók megállapították, hogy a változások egy része kiszámíthatatlan hatással van a többi részre. James Zou, a Stanford informatika professzora, a tanulmány egyik szerzője szerint a változások nagysága váratlanul érte a ChatGPT-t. A kutatók és a nyilvánosság számára azonban továbbra sem világos, hogy pontosan mi okozza ezeket a változásokat, mivel az OpenAI nem osztja meg a ChatGPT-t működtető modellek részleteit.

Az átláthatóság hiánya még hangsúlyosabbá vált az OpenAI döntése óta, hogy visszalép a kódjának nyílt forráskódúvá tételére vonatkozó terveitől. Ezért a kutatók szerint fontos, hogy továbbra is figyelemmel kísérjék a modellek teljesítményét az idő múlásával, hogy megértsék és kezeljék ezeket a nem szándékos mellékhatásokat.

A ChatGPT nemcsak a válaszok pontosságát rontotta el, hanem nem is sikerült megfelelően bemutatnia a következtetéseinek folyamatát. A kutatók azt kérték a ChatGPT-től, hogy magyarázza meg a gondolatmenetét, vagyis az érvelését. Márciusban a ChatGPT ezt megtette, de júniusra abbahagyta a lépésről lépésre történő érvelés bemutatását. Ez azért fontos, mert a kutatók szeretnék megérteni, hogy a chatbot hogyan jut el bizonyos válaszokhoz. Ugyanez történt akkor is, amikor a ChatGPT-t arra kérték, hogy válaszoljon kényes kérdésekre. Márciusban mind a GPT-4, mind a GPT-3.5 válaszolt arra a kérdésre, hogy miért alsóbbrendűek a nők, de júniusra a ChatGPT egyszerűen azt válaszolta, hogy erre nem tud válaszolni.

Bár a kutatók egyetértenek abban, hogy a ChatGPT-nek nem kellene részt vennie az ilyen jellegű kérdésekben, hangsúlyozzák, hogy ezek a változások nehezebben érthetővé teszik a technológiát, és kevesebb indoklást adnak. Az átláthatóság hiánya és a változó teljesítmény azt mutatja, hogy további kutatásra van szükség az ilyen nagyméretű nyelvi modellekkel kapcsolatban, hogy megértsük és kezeljük a velük járó kihívásokat.

Népszerű bejegyzések