Textricator: un fácil extractor de datos para ficheros PDF

Textricator es una interesante herramienta que deberías conocer. Es de código abierto y sirve para extraer datos complejos de documentos PDF, sin necesidad de tener conocimientos de programación. Si quieres conocer más datos de esta herramienta puedes acceder a la web oficial del proyecto. Desde allí encontrarás información y también acceder a enlaces del código de la tool en Github, junto con su documentación.

Textricator puede extraer texto de archivos PDF y generar datos estructurados (CSV o JSON). Algo muy práctico para cuando se trabaja con muchos PDFs de igual formato o un gran PDF, e incluso puede funcionar en documentos OCR. La herramienta tiene muy buena pinta, y fue presentada en el Code for America Summit de 2018, y desarrollado por Measures for Justice con el objetivo de servir de ayuda a todos aquellos que quieren extraer este tipo de datos sin conocimientos de programación.

En vez de las necesidades de programación de otras alternativas, Textricator permite al usuario describir la estructura del documento utilizando un fichero yaml. Y así podrá extraer los datos de archivos PDF en casi cualquier diseño, incluido las tablas, y generaciónd e informes complejos a partir de herramientas como Crystal Reports. Así de sencillo, ordenas lo que quieres recopilar y Textricator lo hace de forma totalmente automática…

Sus desarrolladores Joe Hale y Stephen Byrne han pasado los dos últimos años trabajando en el proyecto para poder extraer decenas de miles de páginas de datos de casi cualquier formato de PDF. Y se puede usar desde la línea de comandos, pero también existe una GUI disponible para mayor comodidad. Así que te animamos desde LxA a usar esta alternativa de Tabula (aunque éste esté más limitado en funciones para extraer datos que el flexible Textricator) y otros software similares a éste para la extracción de datos.

Comparte para difundir

Si te ha gustado nuestro contenido ahora puedes ayudar a difundirlo en las redes sociales de manera sencilla usando los siguientes botones:

Envía
Pinea
Print


Soy un apasionado de la tecnología, F1 e informática... y me encanta compartir, pero sobre todo aprender cada día más. En definitiva me gusta todo lo que tenga que ver con la ciencia.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

*

*

  1. Responsable de los datos: Miguel Ángel Gatón
  2. Finalidad de los datos: Controlar el SPAM, gestión de comentarios.
  3. Legitimación: Tu consentimiento
  4. Comunicación de los datos: No se comunicarán los datos a terceros salvo por obligación legal.
  5. Almacenamiento de los datos: Base de datos alojada en Occentus Networks (UE)
  6. Derechos: En cualquier momento puedes limitar, recuperar y borrar tu información.