Claudetools: kapunyitás a jövő adatkinyerési technikáihoz
A modellek látásképességei vetekszenek a GPT-4 modellel, sőt bizonyos benchmarkokban még felül is múlják azt. A Claude 3 modellek a vizuális formátumok széles skáláját képesek feldolgozni, beleértve a fotókat, diagramokat, grafikonokat és műszaki rajzokat is. Ez izgalmas lehetőségeket nyit meg a multimodális interakciók terén.
Strukturált adatkinyerés PDF dokumentumokból
A modellek kifinomult látás-, érvelés- és strukturált adatgenerálási képességeinek kombinálásával közvetlenül használhatjuk őket összetett struktúrájú PDF dokumentumok elemzésére és a tartalom strukturált kinyerésére. Ahelyett, hogy külső parsereket használnánk, a Claude 3 modellek segítségével blokkokban nyerhetjük ki a szöveget, képeket és táblázatokat a dokumentumokból.
A kinyert tartalom egy olyan sémát követ, ahol a szöveg változatlan marad, a táblázatokat oszlopnév-érték párok listájaként reprezentáljuk, a képeknél pedig a modell leírja vagy kivonatolja a képen látható szöveges információkat. Bár a modellek még nem képesek a képrészletek pontos helyének meghatározására, a dokumentumban található képek tartalmának értelmezésében nagyon jól teljesítenek.
Tartalomkinyerés Claudetools segítségével
A Claudetools egy Python könyvtár, amely megkönnyíti a Claude 3 modellek funkcióhívását képbemenettel. A könyvtár használatával gyorsan összeállíthatunk egy tartalomkinyerő rendszert, amely képes PDF dokumentumok feldolgozására.
A tartalomkinyerés előtt a modellnek időt adunk a "gondolkodásra" azáltal, hogy a kimeneti séma elején egy elemzést kérünk a dokumentumról. Ebben a modell összefoglalja, hogy hány bekezdés, kép és táblázat található a dokumentumban, és hol helyezkednek el. Ezután következik maga a strukturált tartalom kinyerése a megadott blokkos formátumban.
A Claudetools segítségével egyszerűen létrehozhatunk egy FastAPI szervert, amely egy POST végponton keresztül fogadja a base64 kódolású képet és a média típust, majd visszaadja a kinyert strukturált tartalmat. Bár a Claude API egyszerre 20 kép küldését is lehetővé teszi, a generált tokenek száma 4096-ra van korlátozva, ezért érdemes egyesével feldolgozni a képeket a teljes tartalom kinyeréséhez.
Összegzés
A Claude 3 modellek érvelési, látási és strukturált kimeneti képességei lenyűgözőek, és rengeteg lehetőséget kínálnak az adatkinyerés és a funkció hívások terén képi adatokon. A Pydantic és a Claudetools könyvtárak használatával gyorsan megvalósíthatjuk az ötleteinket, és hatékony tartalomkinyerő rendszereket építhetünk összetett dokumentumok feldolgozására.
(Eredeti cikk: towardsai.net)