Grok-1 forradalmasítja a nyelvi modellezést

Az xAI közzétette 314 milliárd paraméteres, Mixture-of-Experts architektúrájú Grok-1 modelljének súlyait és architektúráját Apache 2.0 licenc alatt. Ez a nyers alapmodell ellenőrzőpont a Grok-1 előzetes betanítási fázisából származik, amely 2023 októberében zárult le. Ez azt jelenti, hogy a modell nincs finomhangolva semmilyen konkrét alkalmazásra, például párbeszédre. A Grok 314 milliárd paraméterrel rendelkezik, ami jelenleg a legnagyobb elérhető nyílt forráskódú modellé teszi. Összehasonlításképpen, ez több mint kétszerese az OpenAI 2020-ban kiadott GPT-3 modelljének, amelyet annak idején áttörésnek tekintettek.

A Grok néhány fontos jellemzője:

- Kvantált súlyokat használ, valószínűleg a hatékony tárolás és a pontosság csökkentésével a gyorsabb számítás érdekében. - Mixture of Experts architektúrát alkalmaz a modellen belül, amely lehetővé teszi a bemenetek dinamikus irányítását különböző "szakértői" hálózatokhoz, hatékonyan skálázva nagyobb paraméterszámra. - Rotary Positional Embeddings (RoPE) technikát használ, amely egy új innováció a szekvencia pozíció információk hatékonyabb kezelésére. - Kontextus mérete 8192 token, szókincs mérete 131072. - Apache 2.0 licenc alatt érhető el.

Grok teljesítménye a benchmarkokon


A Grok 73%-os MMLU pontszámot ért el, megelőzve a Llama 2 70B 68,9%-os és a Mixtral 8x7B 70,6%-os eredményét. Az MMLU (Massive Multitask Language Understanding) egy átfogó benchmark, amely a nyelvi modellek teljesítményét méri különböző területeken, mint például a természettudományok, társadalomtudományok, matematika és bölcsészettudományok. A magasabb pontszám jobb általános nyelvi megértési képességeket jelez.

Grok tokenizálása és speciális tokenjei

Struktúrájában a Grok tokenizáló hasonlít a Llama 2-höz (BPE bájt-tartalékkal), de jóval nagyobb, 131072-es szókincs mérettel (Llama 32k-jához képest). Az `add_prefix_space=True` beállítással a "hello world" [21560, 1135] // ["▁hello", "▁world"] lesz. A "[PAD]", "[BOS]", "[EOS]" és "[UNK]" speciális tokeneken kívül "<|separator|>" és "<|mask|>" tokenek is vannak, valamint 20 vezérlő token "<|controlX|>" formában (X 1-től 20-ig). Pontos funkciójuk nem teljesen tisztázott, de talán néhányat csevegési sablonokhoz vagy a finomhangolás megkönnyítéséhez tartanak fenn. A speciális és vezérlő tokenek lehetővé teszik a modell viselkedésének testreszabását különböző feladatokhoz. Például a szeparátor token jelezheti a bemeneti szöveg különböző részeit, míg a maszk tokenek az olyan technikákhoz hasznosak, mint a kitöltéses nyelvmodellezés.  

Eredeti cikk: medium.com

Népszerű bejegyzések