Meta Llama3: új király az AI világában


A Meta által fejlesztett Llama3 a legerősebb nyílt forráskódú nagy nyelvi modell (LLM), amely mindössze egyetlen 4 GB-os GPU-val is futtatható lokálisan. Az AirLLM támogatásával a Llama3 70B modell könnyen használható, akár egy MacBook-on is. A Llama3 architektúrája nem változott az előző verzióhoz képest, de a fejlesztők jelentős előrelépéseket értek el az adatmennyiség és -minőség terén, valamint a tanítási módszerekben, mint például a DPO-alapú modellillesztési tanítás.

Llama3 teljesítménye a GPT-4-hez képest

A hivatalos értékelési adatok és az lmsys ranglistája alapján a Llama3 70B nagyon közel áll a GPT-4 és a Claude3 Opus teljesítményéhez. A hasonló méretű, 400B-os modellek összehasonlítása még ésszerűbb lenne, és a még fejlesztés alatt álló Llama3 400B már most megközelíti a GPT-4 és Claude3 legerősebb verzióit.

A Llama3 fő erőssége: az adatok

A Llama3 sikerének kulcsa elsősorban a tanítóadatok mennyiségének és minőségének drasztikus növelése. A Llama2 2T-ról 15T-ra nőtt az adatmennyiség, de ez a növekedés szigorú szűrés és tisztítás után értendő. A Meta hatalmas erőfeszítéseket tett az adatok minőségének javítására, többek között a Llama2-höz hasonló nagy modellek segítségével végzett szűréssel és kiválasztással.

Nyílt vagy zárt forráskód?

Bár a Llama3 sikere a nyílt forráskódú modellek felemelkedését jelezheti, a harc még korántsem ért véget. A nagy modellek tanítása hatalmas pénzügyi befektetést igényel, amit csak kevés szereplő engedhet meg magának. Az AI közösség nyílt és megosztó kultúrája kulcsfontosságú az AI gyors fejlődéséhez, de végső soron a befektetések hosszú távú megtérülési képessége és hatékonysága fog dönteni a nyílt és zárt forráskódú modellek versenyében.

(Eredeti cikk: medium.com)

Népszerű bejegyzések