„Textricator“: paprastas duomenų rinkiklis PDF failams

„Textricator“ logotipas

„Textricator“ yra įdomi priemonė kad turėtum žinoti. Tai yra atviro kodo programa ir naudojama sudėtingiems duomenims iš PDF dokumentų išgauti, nereikia programavimo žinių. Jei norite sužinoti daugiau informacijos apie šį įrankį, galite pasiekti oficiali svetainė projekto. Iš ten rasite informaciją ir nuorodas į įrankio kodą „Github“ kartu su jo dokumentais.

„Textricator“ gali išgauti tekstą iš PDF failai ir generuoti struktūrizuotus duomenis (CSV arba JSON). Kažkas labai praktiška, kai dirbate su daugeliu to paties formato PDF failų arba dideliu PDF, ir tai netgi gali veikti su OCR dokumentais. Šis įrankis atrodo labai gerai ir buvo pristatytas Amerikos kodekso viršūnių susitikime 2018 m., Kurį sukūrė „Teisingumo priemonės“, siekdama padėti visiems norintiems išgauti tokio tipo duomenis be programavimo žinių.

Vietoj kitų alternatyvų programavimo poreikių, „Textricator“ leidžia vartotojui aprašyti dokumento struktūrą naudojant „yaml“ failą. Taigi galite išgauti duomenis iš PDF failų beveik bet kokiu išdėstymu, įskaitant lenteles, ir iš jų kurti sudėtingas ataskaitas įrankiai, tokie kaip „Crystal Reports“. Tai taip paprasta, jūs užsisakote tai, ką norite surinkti, o „Textricator“ tai daro visiškai automatiškai ...

Jo kūrėjai Joe Hale'as ir Stephenas Byrne'as Pastaruosius dvejus metus jie praleido dirbdami prie projekto, kad galėtų išgauti dešimtis tūkstančių puslapių duomenų iš beveik bet kokio PDF formato. Ir jį galima naudoti iš komandinės eilutės, tačiau patogumui taip pat yra GUI. Taigi mes raginame jus iš „LxA“ naudoti šią „Tabula“ alternatyvą (nors duomenų išgauti funkcijos yra ribotos nei lankstaus „Textricator“) ir kitą į ją panašią programinę įrangą duomenims išgauti.


Palikite komentarą

Jūsų elektroninio pašto adresas nebus skelbiamas. Privalomi laukai yra pažymėti *

*

*

  1. Už duomenis atsakingas: AB Internet Networks 2008 SL
  2. Duomenų paskirtis: kontroliuoti šlamštą, komentarų valdymą.
  3. Įteisinimas: jūsų sutikimas
  4. Duomenų perdavimas: Duomenys nebus perduoti trečiosioms šalims, išskyrus teisinius įsipareigojimus.
  5. Duomenų saugojimas: „Occentus Networks“ (ES) talpinama duomenų bazė
  6. Teisės: bet kuriuo metu galite apriboti, atkurti ir ištrinti savo informaciją.