Claudetools: kapunyitás a jövő adatkinyerési technikáihoz

A Claude 3 modellek látványos képességei lenyűgözőek. Az Anthropic által nemrégiben kiadott modellek kiváló érvelési, kódolási és strukturált adatgenerálási képességekkel rendelkeznek. A Claude 3 család tagjai multimodálisak, képesek képeket és videókat is feldolgozni, valamint jelentős előrelépést mutatnak az összetett multimodális érvelési kihívások megoldásában.

A modellek látásképességei vetekszenek a GPT-4 modellel, sőt bizonyos benchmarkokban még felül is múlják azt. A Claude 3 modellek a vizuális formátumok széles skáláját képesek feldolgozni, beleértve a fotókat, diagramokat, grafikonokat és műszaki rajzokat is. Ez izgalmas lehetőségeket nyit meg a multimodális interakciók terén.

Strukturált adatkinyerés PDF dokumentumokból

A modellek kifinomult látás-, érvelés- és strukturált adatgenerálási képességeinek kombinálásával közvetlenül használhatjuk őket összetett struktúrájú PDF dokumentumok elemzésére és a tartalom strukturált kinyerésére. Ahelyett, hogy külső parsereket használnánk, a Claude 3 modellek segítségével blokkokban nyerhetjük ki a szöveget, képeket és táblázatokat a dokumentumokból.

A kinyert tartalom egy olyan sémát követ, ahol a szöveg változatlan marad, a táblázatokat oszlopnév-érték párok listájaként reprezentáljuk, a képeknél pedig a modell leírja vagy kivonatolja a képen látható szöveges információkat. Bár a modellek még nem képesek a képrészletek pontos helyének meghatározására, a dokumentumban található képek tartalmának értelmezésében nagyon jól teljesítenek.

Tartalomkinyerés Claudetools segítségével

A Claudetools egy Python könyvtár, amely megkönnyíti a Claude 3 modellek funkcióhívását képbemenettel. A könyvtár használatával gyorsan összeállíthatunk egy tartalomkinyerő rendszert, amely képes PDF dokumentumok feldolgozására.

A tartalomkinyerés előtt a modellnek időt adunk a "gondolkodásra" azáltal, hogy a kimeneti séma elején egy elemzést kérünk a dokumentumról. Ebben a modell összefoglalja, hogy hány bekezdés, kép és táblázat található a dokumentumban, és hol helyezkednek el. Ezután következik maga a strukturált tartalom kinyerése a megadott blokkos formátumban.

A Claudetools segítségével egyszerűen létrehozhatunk egy FastAPI szervert, amely egy POST végponton keresztül fogadja a base64 kódolású képet és a média típust, majd visszaadja a kinyert strukturált tartalmat. Bár a Claude API egyszerre 20 kép küldését is lehetővé teszi, a generált tokenek száma 4096-ra van korlátozva, ezért érdemes egyesével feldolgozni a képeket a teljes tartalom kinyeréséhez.

Összegzés

A Claude 3 modellek érvelési, látási és strukturált kimeneti képességei lenyűgözőek, és rengeteg lehetőséget kínálnak az adatkinyerés és a funkció hívások terén képi adatokon. A Pydantic és a Claudetools könyvtárak használatával gyorsan megvalósíthatjuk az ötleteinket, és hatékony tartalomkinyerő rendszereket építhetünk összetett dokumentumok feldolgozására.

(Eredeti cikk: towardsai.net)


Népszerű bejegyzések