Textricator: łatwy ekstraktor danych z plików PDF

Textricator to ciekawe narzędzie że powinieneś wiedzieć. Jest open source i służy do wyodrębniania złożonych danych z dokumentów PDF bez konieczności posiadania wiedzy programistycznej. Jeśli chcesz dowiedzieć się więcej o tym narzędziu, możesz uzyskać dostęp do Oficjalna strona internetowa z projektu. Znajdziesz tam informacje, a także linki do kodu narzędzia na Github, wraz z jego dokumentacją.

Textricator może wyodrębnić tekst z Pliki PDF i generuj dane strukturalne (CSV lub JSON). Coś bardzo praktycznego, gdy pracujesz z wieloma plikami PDF tego samego formatu lub dużym plikiem PDF, a może nawet działać na dokumentach OCR. Narzędzie wygląda bardzo dobrze i zostało zaprezentowane na szczycie Code for America 2018 i opracowane przez Measures for Justice w celu pomocy wszystkim, którzy chcą wyodrębnić tego typu dane bez znajomości programowania.

Zamiast potrzeb programistycznych innych alternatyw, Textricator pozwala użytkownikowi opisać strukturę dokumentu za pomocą pliku yaml. Dzięki temu możesz wyodrębniać dane z plików PDF w prawie każdym układzie, w tym tabelach, i generować złożone raporty z narzędzia takie jak Crystal Reports. To takie proste, zamawiasz to, co chcesz zebrać, a Textricator robi to całkowicie automatycznie ...

Jego twórcy Joe Hale i Stephen Byrne Spędzili ostatnie dwa lata pracując nad projektem, aby móc wyodrębnić dziesiątki tysięcy stron danych z prawie każdego formatu PDF. Można go używać z wiersza poleceń, ale dla wygody dostępny jest również graficzny interfejs użytkownika. Dlatego zachęcamy Cię z LxA do korzystania z tej alternatywy Tabuli (chociaż ma bardziej ograniczone funkcje do wyodrębniania danych niż elastyczny Textricator) i innego podobnego oprogramowania do ekstrakcji danych.

LinuxAdictos

Textricator: łatwy ekstraktor danych dla plików PDF

Zostaw swój komentarz Anuluj odpowiedź