Textricator: jednoduchý extraktor údajov pre súbory PDF

Logo textátora

Textricator je zaujímavý nástroj ktoré by ste mali vedieť. Je to open source a používa sa na extrakciu zložitých údajov z dokumentov PDF bez potreby programovacích znalostí. Ak sa chcete dozvedieť viac informácií o tomto nástroji, môžete prejsť na stránku Oficiálne internetové stránky projektu. Odtiaľ nájdete informácie a tiež prístupové odkazy na kód nástroja na Github spolu s jeho dokumentáciou.

Textricator dokáže extrahovať text z Súbory PDF a generovať štruktúrované dáta (CSV alebo JSON). Niečo veľmi praktické, keď pracujete s mnohými súbormi PDF rovnakého formátu alebo veľkým súborom PDF a dokonca to môže fungovať aj na dokumentoch OCR. Tento nástroj vyzerá veľmi dobre a bol predstavený na samite Kódex pre Ameriku v roku 2018 a bol vyvinutý spoločnosťou Measures for Justice s cieľom pomôcť všetkým tým, ktorí chcú získať tento typ údajov bez znalosti programovania.

Namiesto programovacích potrieb iných alternatív umožňuje Textricator používateľovi popísať štruktúru dokumentu pomocou súboru yaml. Môžete teda extrahovať údaje zo súborov PDF v takmer akomkoľvek rozložení vrátane tabuliek a generovať z nich zložité správy nástroje ako Crystal Reports. Je to také jednoduché, objednáte si to, čo chcete zhromaždiť, a Textricator to urobí úplne automaticky ...

Jeho vývojári Joe Hale a Stephen Byrne Posledné dva roky strávili prácou na projekte, aby dokázali extrahovať desaťtisíce strán dát z takmer ľubovoľného formátu PDF. Dá sa použiť z príkazového riadku, pre pohodlie je však k dispozícii aj grafické rozhranie. Takže vám odporúčame od LxA, aby ste použili túto alternatívu Tabula (aj keď je vo funkciách na extrahovanie dát obmedzenejšia ako flexibilný Textricator) a iný softvér podobný tejto na extrakciu dát.


Zanechajte svoj komentár

Vaša e-mailová adresa nebude zverejnená. Povinné položky sú označené *

*

*

  1. Za údaje zodpovedá: AB Internet Networks 2008 SL
  2. Účel údajov: Kontrolný SPAM, správa komentárov.
  3. Legitimácia: Váš súhlas
  4. Oznamovanie údajov: Údaje nebudú poskytnuté tretím stranám, iba ak to vyplýva zo zákona.
  5. Ukladanie dát: Databáza hostená spoločnosťou Occentus Networks (EU)
  6. Práva: Svoje údaje môžete kedykoľvek obmedziť, obnoviť a vymazať.