Textricator: un extracteur de données simple pour les fichiers PDF

Logo Textricator

Textricator est un outil intéressant que vous devriez savoir. Il est open source et est utilisé pour extraire des données complexes à partir de documents PDF, sans avoir besoin de connaissances en programmation. Si vous souhaitez en savoir plus sur cet outil, vous pouvez accéder au Web oficial du projet. De là, vous trouverez des informations et également des liens vers le code de l'outil sur Github, ainsi que sa documentation.

Textricator peut extraire du texte de Fichiers PDF et générer des données structurées (CSV ou JSON). Quelque chose de très pratique lorsque vous travaillez avec de nombreux PDF du même format ou un grand PDF, et cela peut même fonctionner sur des documents OCR. L'outil a l'air très bien et a été présenté au Sommet Code for America 2018, et développé par Measures for Justice dans le but d'aider tous ceux qui souhaitent extraire ce type de données sans connaissances en programmation.

Au lieu des besoins de programmation d'autres alternatives, Textricator permet à l'utilisateur de décrire la structure du document à l'aide d'un fichier yaml. Vous pouvez ainsi extraire des données de fichiers PDF dans presque toutes les mises en page, y compris les tableaux, et générer des rapports complexes à partir de des outils comme Crystal Reports. C'est aussi simple que cela, vous commandez ce que vous voulez collecter et Textricator le fait complètement automatiquement ...

Ses développeurs Joe Hale et Stephen Byrne Ils ont passé les deux dernières années à travailler sur le projet pour pouvoir extraire des dizaines de milliers de pages de données de presque tous les formats PDF. Et il peut être utilisé à partir de la ligne de commande, mais une interface graphique est également disponible pour plus de commodité. Nous vous encourageons donc de LxA à utiliser cette alternative Tabula (bien qu'elle soit plus limitée en fonctions d'extraction de données que le Textricator flexible) et d'autres logiciels similaires pour l'extraction de données.


Le contenu de l'article adhère à nos principes de éthique éditoriale. Pour signaler une erreur, cliquez sur c'est par ici !.

Soyez le premier à commenter

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.

*

*

  1. Responsable des données : AB Internet Networks 2008 SL
  2. Finalité des données: Contrôle du SPAM, gestion des commentaires.
  3. Légitimation: votre consentement
  4. Communication des données: Les données ne seront pas communiquées à des tiers sauf obligation légale.
  5. Stockage des données: base de données hébergée par Occentus Networks (EU)
  6. Droits: à tout moment, vous pouvez limiter, récupérer et supprimer vos informations.