Textricator: enostaven ekstraktor podatkov za datoteke PDF

Textricator je zanimivo orodje da bi morali vedeti. Je odprtokodna in se uporablja za pridobivanje zapletenih podatkov iz dokumentov PDF, ne da bi bilo treba poznati znanje programiranja. Če želite izvedeti več informacij o tem orodju, lahko dostopate do uradna spletna stran projekta. Od tam boste našli informacije in tudi povezave do kode orodja na Githubu, skupaj z njegovo dokumentacijo.

Textricator lahko črpa besedilo iz Datoteke PDF in ustvarjajo strukturirane podatke (CSV ali JSON). Nekaj zelo praktičnega, če delate z več datotekami PDF istega ali velikega formata PDF, lahko pa deluje tudi z dokumenti OCR. Orodje je videti zelo dobro in je bilo predstavljeno na vrhu Kodeksa za Ameriko leta 2018, razvil pa ga je Measures for Justice z namenom pomagati vsem, ki želijo tovrstne podatke pridobivati brez znanja programiranja.

Namesto programskih potreb drugih alternativ Textricator omogoča uporabniku, da opiše strukturo dokumenta z datoteko yaml. Tako lahko iz datotek PDF izvlečete podatke v skoraj vseh postavitvah, vključno s tabelami, in iz njih ustvarite zapletena poročila orodja, kot je Crystal Reports. Tako preprosto je, naročite, kar želite zbrati, Textricator pa to naredi popolnoma samodejno ...

Njegovi razvijalci Joe Hale in Stephen Byrne Zadnji dve leti so delali na projektu, da so lahko iz skoraj vseh formatov PDF izvlekli več deset tisoč strani podatkov. Uporablja se lahko iz ukazne vrstice, vendar je za udobje na voljo tudi GUI. Zato vas iz LxA spodbujamo, da uporabite to alternativo Tabula (čeprav je v funkcijah za pridobivanje podatkov bolj omejena kot prilagodljivi Textricator) in drugo podobno programsko opremo za pridobivanje podatkov.

LinuxAdictos

Textricator: enostaven ekstraktor podatkov za datoteke PDF

Pustite svoj komentar Prekliči odgovor