Textricator: a un fàcil extractor de dades per a fitxers PDF

Textricator logo

Textricator és una interessant eina que hauries de conèixer. És de codi obert i serveix per extreure dades complexes de documents PDF, sense necessitat de tenir coneixements de programació. Si vols conèixer més dades d'aquesta eina pots accedir a la web oficial de el projecte. Des d'allà trobaràs informació i també accedir a enllaços d'el codi de l'tool en Github, juntament amb la seva documentació.

Textricator pot extreure text de PDF i generar dades estructurades (CSV o JSON). Una cosa molt pràctic per quan es treballa amb molts PDFs d'igual format o un gran PDF, i fins i tot pot funcionar en documents OCR. L'eina té molt bona pinta, i va ser presentada en el Code for America Summit de 2018, i desenvolupat per Measures for Justice amb l'objectiu de servir d'ajuda a tots aquells que volen extreure aquest tipus de dades sense coneixements de programació.

En comptes de les necessitats de programació d'altres alternatives, Textricator permet a l'usuari descriure l'estructura de el document utilitzant un fitxer YAML. I així podrà extreure les dades d'arxius PDF en gairebé qualsevol disseny, inclòs les taules, i generaciónd i informes complexos a partir de eines com Crystal Reports. Així de senzill, ordenes el que vols recopilar i Textricator ho fa de forma totalment automàtica ...

els seus desenvolupadors Joe Hale i Stephen Byrne han passat els dos últims anys treballant en el projecte per poder extreure desenes de milers de pàgines de dades de gairebé qualsevol format de PDF. I es pot fer servir des de la línia d'ordres, però també hi ha una GUI disponible per a més comoditat. Així que t'animem des LxA a fer servir aquesta alternativa de Tabula (encara que aquest estigui més limitat en funcions per extreure dades que l'flexible Textricator) i altres programari similars a aquest per a l'extracció de dades.


Deixa el teu comentari

La seva adreça de correu electrònic no es publicarà. Els camps obligatoris estan marcats amb *

*

*

  1. Responsable de les dades: AB Internet Networks 2008 SL
  2. Finalitat de les dades: Controlar l'SPAM, gestió de comentaris.
  3. Legitimació: El teu consentiment
  4. Comunicació de les dades: No es comunicaran les dades a tercers excepte per obligació legal.
  5. Emmagatzematge de les dades: Base de dades allotjada en Occentus Networks (UE)
  6. Drets: En qualsevol moment pots limitar, recuperar i esborrar la teva informació.