Textricator: enostaven ekstraktor podatkov za datoteke PDF

Logotip učbenika

Textricator je zanimivo orodje da bi morali vedeti. Je odprtokodna in se uporablja za pridobivanje zapletenih podatkov iz dokumentov PDF, ne da bi bilo treba poznati znanje programiranja. Če želite izvedeti več informacij o tem orodju, lahko dostopate do uradna spletna stran projekta. Od tam boste našli informacije in tudi povezave do kode orodja na Githubu, skupaj z njegovo dokumentacijo.

Textricator lahko črpa besedilo iz Datoteke PDF in ustvarjajo strukturirane podatke (CSV ali JSON). Nekaj ​​zelo praktičnega, če delate z več datotekami PDF istega ali velikega formata PDF, lahko pa deluje tudi z dokumenti OCR. Orodje je videti zelo dobro in je bilo predstavljeno na vrhu Kodeksa za Ameriko leta 2018, razvil pa ga je Measures for Justice z namenom pomagati vsem, ki želijo tovrstne podatke pridobivati ​​brez znanja programiranja.

Namesto programskih potreb drugih alternativ Textricator omogoča uporabniku, da opiše strukturo dokumenta z datoteko yaml. Tako lahko iz datotek PDF izvlečete podatke v skoraj vseh postavitvah, vključno s tabelami, in iz njih ustvarite zapletena poročila orodja, kot je Crystal Reports. Tako preprosto je, naročite, kar želite zbrati, Textricator pa to naredi popolnoma samodejno ...

Njegovi razvijalci Joe Hale in Stephen Byrne Zadnji dve leti so delali na projektu, da so lahko iz skoraj vseh formatov PDF izvlekli več deset tisoč strani podatkov. Uporablja se lahko iz ukazne vrstice, vendar je za udobje na voljo tudi GUI. Zato vas iz LxA spodbujamo, da uporabite to alternativo Tabula (čeprav je v funkcijah za pridobivanje podatkov bolj omejena kot prilagodljivi Textricator) in drugo podobno programsko opremo za pridobivanje podatkov.


Pustite svoj komentar

Vaš e-naslov ne bo objavljen. Obvezna polja so označena z *

*

*

  1. Odgovoren za podatke: AB Internet Networks 2008 SL
  2. Namen podatkov: Nadzor neželene pošte, upravljanje komentarjev.
  3. Legitimacija: Vaše soglasje
  4. Sporočanje podatkov: Podatki se ne bodo posredovali tretjim osebam, razen po zakonski obveznosti.
  5. Shranjevanje podatkov: Zbirka podatkov, ki jo gosti Occentus Networks (EU)
  6. Pravice: Kadar koli lahko omejite, obnovite in izbrišete svoje podatke.