Textricator: egyszerű adatkivonó PDF-fájlokhoz

A Textricator érdekes eszköz hogy tudnia kell. Nyílt forráskódú, összetett adatok PDF dokumentumokból történő kinyerésére szolgál, programozási ismeretek nélkül. Ha további információkat szeretne megtudni erről az eszközről, elérheti a web oficial a projektről. Innen talál információkat és hozzáférést biztosít az eszköz Github kódjához, valamint annak dokumentációjához.

A Textricator képes kibontani a szöveget PDF fájlok és strukturált adatokat generál (CSV vagy JSON). Valami nagyon praktikus, ha sok azonos formátumú vagy nagy PDF-fájllal dolgozik, és akár OCR-dokumentumokon is működhet. Az eszköz nagyon jól néz ki, és a 2018-as Code for America csúcstalálkozón bemutatták, és a Measures for Justice fejlesztette ki azzal a céllal, hogy segítsen mindazokat, akik programozási ismeretek nélkül szeretnék kinyerni az ilyen típusú adatokat.

Más alternatívák programozási igényei helyett a Textricator lehetővé teszi a felhasználó számára, hogy a yaml fájl segítségével leírja a dokumentum felépítését. Így szinte bármilyen elrendezésben kivonhatja az adatokat a PDF fájlokból, beleértve a táblázatokat is, és összetett jelentéseket készíthet ezekből eszközök, mint a Crystal Reports. Ez ilyen egyszerű, megrendeli, amit gyűjteni szeretne, a Textricator pedig teljesen automatikusan megteszi ...

Fejlesztői Joe Hale és Stephen Byrne Az elmúlt két évben azzal a munkával dolgoztak, hogy több tízezer oldalnyi adatot tudtak kinyerni szinte bármilyen PDF formátumból. És parancssorból is használható, de a kényelem érdekében elérhető egy GUI is. Ezért azt javasoljuk az LxA-tól, hogy használja ezt a Tabula-alternatívát (bár az adatok kinyerésére a funkciók korlátozottabbak, mint a rugalmas Textricator-nál) és az ahhoz hasonló egyéb szoftvereket az adatok kinyeréséhez.

LinuxAdictos

Textricator: egyszerű adatelszívó a PDF fájlokhoz

Hagyja megjegyzését Mégsem válaszát