Textricator: Ein einfacher Datenextraktor für PDF-Dateien

Textricator-Logo

Textricator ist ein interessantes Werkzeug das solltest du wissen. Es ist Open Source und wird verwendet, um komplexe Daten aus PDF-Dokumenten zu extrahieren, ohne dass Programmierkenntnisse erforderlich sind. Wenn Sie weitere Informationen zu diesem Tool erhalten möchten, können Sie auf das zugreifen Offizielle Website von dem Projekt. Von dort aus finden Sie Informationen und Zugriff auf Links zum Code des Tools auf Github sowie dessen Dokumentation.

Textricator kann Text aus extrahieren PDF-Dateien und generieren Sie strukturierte Daten (CSV oder JSON). Etwas sehr Praktisches für die Arbeit mit vielen PDFs desselben Formats oder einer großen PDF-Datei, und es kann sogar mit OCR-Dokumenten arbeiten. Das Tool sieht sehr gut aus und wurde auf dem Code for America Summit 2018 vorgestellt und von Measures for Justice mit dem Ziel entwickelt, all jenen zu helfen, die diese Art von Daten ohne Programmierkenntnisse extrahieren möchten.

Anstelle der Programmieranforderungen anderer Alternativen ermöglicht Textricator dem Benutzer, die Struktur des Dokuments mithilfe einer Yaml-Datei zu beschreiben. So können Sie Daten aus PDF-Dateien in nahezu jedem Layout, einschließlich Tabellen, extrahieren und komplexe Berichte daraus erstellen Tools wie Crystal Reports. So einfach ist es, Sie bestellen, was Sie sammeln möchten, und Textricator erledigt dies vollautomatisch ...

Seine Entwickler Joe Hale und Stephen Byrne Sie haben in den letzten zwei Jahren an dem Projekt gearbeitet, um Zehntausende von Datenseiten aus nahezu jedem PDF-Format extrahieren zu können. Es kann über die Befehlszeile verwendet werden, es steht jedoch auch eine grafische Benutzeroberfläche zur Verfügung. Wir empfehlen Ihnen daher von LxA, diese Tabula-Alternative (obwohl die Funktionen zum Extrahieren von Daten eingeschränkter sind als der flexible Textricator) und eine ähnliche Software für die Datenextraktion zu verwenden.


Hinterlasse einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert mit *

*

*

  1. Verantwortlich für die Daten: AB Internet Networks 2008 SL
  2. Zweck der Daten: Kontrolle von SPAM, Kommentarverwaltung.
  3. Legitimation: Ihre Zustimmung
  4. Übermittlung der Daten: Die Daten werden nur durch gesetzliche Verpflichtung an Dritte weitergegeben.
  5. Datenspeicherung: Von Occentus Networks (EU) gehostete Datenbank
  6. Rechte: Sie können Ihre Informationen jederzeit einschränken, wiederherstellen und löschen.