DocHive, Software Libre para extraer datos de PDFs

PDF

Un grupo de periodistas han anunciado el lanzamiento de DocHive, una innovadora solución de software libre para el problema que muchos escritores y periodistas tienen a la hora de obtener datos o imágenes de archivos PDF.

La solución permite convertir de forma fácil los datos en formato Hoja de Cálculo u otros medios diferentes.

El editor Charles Duncan Pardo y su equipo se encontraban a diario el típico problema que ocurre en muchas pequeñas salas de redacción; no disponen del personal suficiente para hacer la entrada de datos de cientos de páginas de información, ni el presupuesto para contratar a algún estudiante universitario que pueda hacerlo por ellos.

Así que Duncan creó junto con su hermano Edward -programador informático- una solución llamada DocHive. Esta herramienta utiliza XML para romper una página en pequeñas secciones, separando cada una en su propio archivo.

A continuación, se utiliza una tecnología de reconocimiento óptico de caracteres (OCR) para leer las palabras o los números e insertarlos en un archivo de texto.

DocHive será lanzado oficialmente el 28 de febrero. El código estará en GitHub y se creará un Wiki en el servidor para compartir plantillas y documentación. La elección de licencia de uso es lo que aún no se ha determinado.

Esta es sin duda una gran noticia para periodistas y escritores, que tendrán así una manera fácil y rápida de convertir los datos en información estructurada.

Más información – El Software Libre y su influencia en el mercado de trabajo en Estados Unidos

Fuente – opensource.com


Categorías

Programas, Software Libre

edumix

Ingeniero Informático de Profesión y Desarrollador Web de vocación. Amante de las Nuevas Tecnologías e Internet. "Linux Adicto" y en contacto permanente con "La Nube".

2 comentarios

  1.   AlbertHdez dijo

    espero que sea GNU

  2.   Nestor Arango dijo

    Que bueno que se promueva el software libre. Gracias

Escribe un comentario