Verseny a tökéletes AI asszisztensért: ki lesz a befutó?


A multimodális AI technológia legújabb trendje a technológiát forradalmasítja, lehetővé téve, hogy az AI rendszerek lássanak, halljanak és értelmezzék a körülöttünk lévő világot. Az OpenAI és a Google versenyben állnak, hogy olyan AI modelleket fejlesszenek, amelyek zökkenőmentesen válthatnak a robotikus beszéd, látás és hallás között.

A multimodális AI lényege

A multimodális AI legnagyobb előnye, hogy egyetlen modell képes natív módon feldolgozni a hangot, a videót és a szöveget. Korábban az OpenAI-nak külön AI modellekre volt szüksége ahhoz, hogy a beszédet és a videót szöveggé alakítsa, hogy az alapul szolgáló GPT-4, amely nyelvalapú, megérthesse ezeket a különböző médiumokat. Ez a technológia lehetővé teszi, hogy az AI asszisztensek természetesebben kommunikáljanak velünk, mintha egy sci-fi filmben lennénk.

Az OpenAI előnye a multimodális AI versenyben

Az OpenAI bemutatta a GPT-4 Omni-t, amely az "omnichannel" rövidítése. A demó során a ChatGPT egy telefonkamera segítségével megnézett egy matematikai problémát, miközben az OpenAI munkatársa szóban kérte a chatbotot, hogy vezesse végig a megoldáson. Ez a technológia már most elérhető a Prémium felhasználók számára, ami jelentős előnyt jelent a Google-lal szemben. A Google Project Astra nagyjából ugyanezt ígéri, de a demó alapján lassabbnak tűnik, mint a GPT-4o, és a hangja is sokkal robotikusabb. A Google elismeri, hogy ez még a fejlesztés korai szakaszában van, és olyan kihívásokkal néz szembe, amelyeket az OpenAI már leküzdött.

Az AI viselhető eszközök térnyerése

A multimodális AI térnyerésével párhuzamosan egyre több AI-alapú viselhető eszköz jelenik meg a piacon, mint például a Humane AI Pin, a Rabbit R1 és a Meta Ray-Bans. Ezek az eszközök ígérik, hogy kevésbé leszünk függők az okostelefonoktól, bár elképzelhető, hogy a Siri és a Google Assistant is hamarosan multimodális AI-val fog rendelkezni.

A multimodális AI jövője

A multimodális AI fejlesztése és termékekbe integrálása jelentősen hasznosabbá teheti az AI-t. A technológia végső soron leveszi a terhet a felhasználóról, hogy átírja a világot egy LLM számára, és lehetővé teszi az AI számára, hogy "lássa" és "hallja" a világot saját maga számára. 

  Eredeti cikk: gizmodo.com

Népszerű bejegyzések