Elképesztő teljesítmény: az Octopus v2 lekörözi a GPT-4-et
Az Octopus v2, a Stanford Egyetem kutatói által kifejlesztett nagy nyelvmodell az elmúlt napokban hatalmas népszerűségre tett szert a fejlesztői közösségben. A 2 milliárd paraméteres modell letöltéseinek száma egy éjszaka alatt meghaladta a 2000-et. Az Octopus v2 egyedülálló módon képes okostelefonokon, autókban és számítógépeken futni, miközben pontosságban és késleltetésben felülmúlja a GPT-4-et, és 95%-kal csökkenti a szükséges kontextus hosszát.
Az Octopus v2 nem csak a GPT-4-nél teljesít jobban, de 36-szor gyorsabb a Llama7B + RAG megoldásnál is. Sokan a készülék-oldali AI ügynökök korszakának eljövetelét látják az Octopus v2 sikerében. A modell sebességbeli áttörését egyedi funkcionális token dizájnja teszi lehetővé, ami a pontosságot is jelentősen javítja a Llama7B + RAG megoldáshoz képest.
A modell áttekintése
Az Octopus-V2-2B egy 2 milliárd paraméteres nyílt forráskódú nyelvmodell, amelyet kifejezetten az Android API-hoz igazítottak. Zökkenőmentesen fut Android eszközökön, és képes az Android rendszerkezeléstől kezdve több eszköz vezérléséig és számos más alkalmazásig terjedő funkciókat ellátni.
A modell egyedülálló módon a betanítási és következtetési szakaszokban is funkció tokeneket használ, amelyek lehetővé teszik a GPT-4-hez hasonló teljesítményt, miközben jelentősen javítják a következtetési sebességet a RAG alapú módszerekhez képest. Ez különösen előnyös a peremhálózati eszközök számára.
Adathalmaz és modell fejlesztés
A kutatócsapat 20 Android API leírást írt a modell betanításához. A betanítás során a Google Gemma-2B modellt használták előtanított modellként, és kétféle tanítási módszert alkalmaztak: a teljes modell tanítását és a LoRA modell tanítását.
Mindkét módszer esetében 3 korszakot (epoch) használtak a tanításhoz. A teljes modell esetében az AdamW optimalizálót 5e-5 tanulási rátával, míg a LoRA esetében ugyanezt 16-os rangú LoRA rétegekkel és 32-es alfa paraméterrel alkalmazták bizonyos modulokon.
Teljesítményértékelés
Az Octopus-V2-2B lenyűgöző következtetési sebességet mutatott a teszteken. Egyetlen A100 GPU-n 36-szor gyorsabb volt, mint a "Llama7B + RAG megoldás". Emellett 168%-kal gyorsabb a fürtözött A100/H100 GPU-kra támaszkodó GPT-4-turbónál is.
A sebesség mellett a pontosságban is remekelt, 31%-kal felülmúlva a "Llama7B + RAG megoldást" a függvényhívások terén. Teljesítménye összemérhető a GPT-4 és a RAG + GPT-3.5 modellekkel. Az Octopus v2 tehát nem csak rendkívül gyors, de kiemelkedően pontos is, ami alkalmassá teszi valós idejű alkalmazásokra akár mobil eszközökön is.
Az Octopus v2 megjelenése egyértelműen jelzi, hogy az eszköz-oldali mesterséges intelligencia ügynökök kora elérkezett. A hordozható eszközökön futó nagy teljesítményű nyelvmodellek forradalmasíthatják az AI asszisztensek piacát, és teljesen új alkalmazási lehetőségeket nyithatnak meg. A jövőben várhatóan egyre több hasonló, kifejezetten mobil és peremhálózati eszközökre optimalizált modell jelenik majd meg, amelyek az Octopus v2-höz hasonló sebességgel és pontossággal működnek majd.
(Eredeti cikk: levelup.gitconnected.com)