Textricator: łatwy ekstraktor danych dla plików PDF

Logo Textricator

Textricator to ciekawe narzędzie że powinieneś wiedzieć. Jest open source i służy do wyodrębniania złożonych danych z dokumentów PDF bez konieczności posiadania wiedzy programistycznej. Jeśli chcesz dowiedzieć się więcej o tym narzędziu, możesz uzyskać dostęp do Oficjalna strona internetowa z projektu. Znajdziesz tam informacje, a także linki do kodu narzędzia na Github, wraz z jego dokumentacją.

Textricator może wyodrębnić tekst z Pliki PDF i generuj dane strukturalne (CSV lub JSON). Coś bardzo praktycznego, gdy pracujesz z wieloma plikami PDF tego samego formatu lub dużym plikiem PDF, a może nawet działać na dokumentach OCR. Narzędzie wygląda bardzo dobrze i zostało zaprezentowane na szczycie Code for America 2018 i opracowane przez Measures for Justice w celu pomocy wszystkim, którzy chcą wyodrębnić tego typu dane bez znajomości programowania.

Zamiast potrzeb programistycznych innych alternatyw, Textricator pozwala użytkownikowi opisać strukturę dokumentu za pomocą pliku yaml. Dzięki temu możesz wyodrębniać dane z plików PDF w prawie każdym układzie, w tym tabelach, i generować złożone raporty z narzędzia takie jak Crystal Reports. To takie proste, zamawiasz to, co chcesz zebrać, a Textricator robi to całkowicie automatycznie ...

Jego twórcy Joe Hale i Stephen Byrne Spędzili ostatnie dwa lata pracując nad projektem, aby móc wyodrębnić dziesiątki tysięcy stron danych z prawie każdego formatu PDF. Można go używać z wiersza poleceń, ale dla wygody dostępny jest również graficzny interfejs użytkownika. Dlatego zachęcamy Cię z LxA do korzystania z tej alternatywy Tabuli (chociaż ma bardziej ograniczone funkcje do wyodrębniania danych niż elastyczny Textricator) i innego podobnego oprogramowania do ekstrakcji danych.


Zostaw swój komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

*

*

  1. Odpowiedzialny za dane: AB Internet Networks 2008 SL
  2. Cel danych: kontrola spamu, zarządzanie komentarzami.
  3. Legitymacja: Twoja zgoda
  4. Przekazywanie danych: Dane nie będą przekazywane stronom trzecim, z wyjątkiem obowiązku prawnego.
  5. Przechowywanie danych: baza danych hostowana przez Occentus Networks (UE)
  6. Prawa: w dowolnym momencie możesz ograniczyć, odzyskać i usunąć swoje dane.