Textricator: un facile estrattore di dati per file PDF

Logo Textricator

Textricator è uno strumento interessante che dovresti sapere. È open source e viene utilizzato per estrarre dati complessi da documenti PDF, senza la necessità di conoscenze di programmazione. Se vuoi saperne di più informazioni su questo strumento, puoi accedere al file Sito ufficiale del progetto. Da lì troverai le informazioni e anche i collegamenti al codice dello strumento su Github, insieme alla sua documentazione.

Textricator può estrarre testo da File PDF e generare dati strutturati (CSV o JSON). Qualcosa di molto pratico quando si lavora con molti PDF dello stesso formato o un PDF di grandi dimensioni, e può anche funzionare su documenti OCR. Lo strumento ha un bell'aspetto ed è stato presentato al Code for America Summit 2018 e sviluppato da Measures for Justice con l'obiettivo di aiutare tutti coloro che vogliono estrarre questo tipo di dati senza conoscenze di programmazione.

Invece delle esigenze di programmazione di altre alternative, Textricator consente all'utente di descrivere la struttura del documento utilizzando un file yaml. In questo modo puoi estrarre dati da file PDF in quasi tutti i layout, comprese le tabelle, e generare report complessi da strumenti come Crystal Reports. È così semplice, ordini quello che vuoi raccogliere e Textricator lo fa in modo completamente automatico ...

I suoi sviluppatori Joe Hale e Stephen Byrne hanno trascorso gli ultimi due anni a lavorare al progetto per essere in grado di estrarre decine di migliaia di pagine di dati da quasi tutti i formati PDF. E può essere utilizzato dalla riga di comando, ma per comodità è disponibile anche una GUI. Quindi ti incoraggiamo da LxA a utilizzare questa alternativa Tabula (sebbene sia più limitata nelle funzioni per estrarre i dati rispetto al flessibile Textricator) e altri software simili per l'estrazione dei dati.


Lascia un tuo commento

L'indirizzo email non verrà pubblicato. I campi obbligatori sono contrassegnati con *

*

*

  1. Responsabile del trattamento: AB Internet Networks 2008 SL
  2. Scopo dei dati: controllo SPAM, gestione commenti.
  3. Legittimazione: il tuo consenso
  4. Comunicazione dei dati: I dati non saranno oggetto di comunicazione a terzi se non per obbligo di legge.
  5. Archiviazione dati: database ospitato da Occentus Networks (UE)
  6. Diritti: in qualsiasi momento puoi limitare, recuperare ed eliminare le tue informazioni.