Textricator: egyszerű adatelszívó a PDF fájlokhoz

Textricator logó

A Textricator érdekes eszköz hogy tudnia kell. Nyílt forráskódú, összetett adatok PDF dokumentumokból történő kinyerésére szolgál, programozási ismeretek nélkül. Ha további információkat szeretne megtudni erről az eszközről, elérheti a web oficial a projektről. Innen talál információkat és hozzáférést biztosít az eszköz Github kódjához, valamint annak dokumentációjához.

A Textricator képes kibontani a szöveget PDF fájlok és strukturált adatokat generál (CSV vagy JSON). Valami nagyon praktikus, ha sok azonos formátumú vagy nagy PDF-fájllal dolgozik, és akár OCR-dokumentumokon is működhet. Az eszköz nagyon jól néz ki, és a 2018-as Code for America csúcstalálkozón bemutatták, és a Measures for Justice fejlesztette ki azzal a céllal, hogy segítsen mindazokat, akik programozási ismeretek nélkül szeretnék kinyerni az ilyen típusú adatokat.

Más alternatívák programozási igényei helyett a Textricator lehetővé teszi a felhasználó számára, hogy a yaml fájl segítségével leírja a dokumentum felépítését. Így szinte bármilyen elrendezésben kivonhatja az adatokat a PDF fájlokból, beleértve a táblázatokat is, és összetett jelentéseket készíthet ezekből eszközök, mint a Crystal Reports. Ez ilyen egyszerű, megrendeli, amit gyűjteni szeretne, a Textricator pedig teljesen automatikusan megteszi ...

Fejlesztői Joe Hale és Stephen Byrne Az elmúlt két évben azzal a munkával dolgoztak, hogy több tízezer oldalnyi adatot tudtak kinyerni szinte bármilyen PDF formátumból. És parancssorból is használható, de a kényelem érdekében elérhető egy GUI is. Ezért azt javasoljuk az LxA-tól, hogy használja ezt a Tabula-alternatívát (bár az adatok kinyerésére a funkciók korlátozottabbak, mint a rugalmas Textricator-nál) és az ahhoz hasonló egyéb szoftvereket az adatok kinyeréséhez.


Hagyja megjegyzését

E-mail címed nem kerül nyilvánosságra. Kötelező mezők vannak jelölve *

*

*

  1. Az adatokért felelős: AB Internet Networks 2008 SL
  2. Az adatok célja: A SPAM ellenőrzése, a megjegyzések kezelése.
  3. Legitimáció: Az Ön beleegyezése
  4. Az adatok közlése: Az adatokat csak jogi kötelezettség alapján továbbítjuk harmadik felekkel.
  5. Adattárolás: Az Occentus Networks (EU) által üzemeltetett adatbázis
  6. Jogok: Bármikor korlátozhatja, helyreállíthatja és törölheti adatait.