Textricator: snadný extraktor dat pro soubory PDF

Textricator je zajímavý nástroj že byste měli vědět. Je to open source a používá se k extrakci komplexních dat z dokumentů PDF, aniž by bylo nutné znalosti programování. Pokud se chcete dozvědět více informací o tomto nástroji, přejděte na stránku web oficiální projektu. Odtud najdete informace a také přístupové odkazy na kód nástroje na Githubu spolu s jeho dokumentací.

Textricator může extrahovat text z Soubory PDF a generovat strukturovaná data (CSV nebo JSON). Něco velmi praktického, když pracujete s mnoha soubory PDF stejného formátu nebo velkým souborem PDF, a to může dokonce fungovat i na OCR dokumentech. Tento nástroj vypadá velmi dobře a byl představen na summitu Code for America v roce 2018 a byl vyvinut v rámci opatření pro spravedlnost s cílem pomoci všem, kteří chtějí tento typ dat extrahovat bez znalosti programování.

Místo programovacích potřeb jiných alternativ umožňuje Textricator uživateli popsat strukturu dokumentu pomocí souboru yaml. Můžete tak extrahovat data ze souborů PDF téměř v jakémkoli rozvržení, včetně tabulek, a generovat z nich složité zprávy nástroje jako Crystal Reports. Je to tak jednoduché, objednáte si, co chcete sbírat, a Textricator to udělá úplně automaticky ...

Jeho vývojáři Joe Hale a Stephen Byrne Poslední dva roky strávili prací na projektu, aby dokázali extrahovat desítky tisíc stránek dat z téměř jakéhokoli formátu PDF. Lze jej použít z příkazového řádku, ale pro pohodlí je k dispozici také grafické uživatelské rozhraní. Doporučujeme vám proto od LxA použít tuto alternativu Tabula (i když ve funkcích pro extrakci dat je omezenější než flexibilní Textricator) a další software k ní podobný pro extrakci dat.

LinuxAdictos

Textricator: snadný extraktor dat pro soubory PDF

Zanechte svůj komentář Zrušit odpověď