Textricator: snadný extraktor dat pro soubory PDF

Logo textátorky

Textricator je zajímavý nástroj že byste měli vědět. Je to open source a používá se k extrakci komplexních dat z dokumentů PDF, aniž by bylo nutné znalosti programování. Pokud se chcete dozvědět více informací o tomto nástroji, přejděte na stránku web oficiální projektu. Odtud najdete informace a také přístupové odkazy na kód nástroje na Githubu spolu s jeho dokumentací.

Textricator může extrahovat text z Soubory PDF a generovat strukturovaná data (CSV nebo JSON). Něco velmi praktického, když pracujete s mnoha soubory PDF stejného formátu nebo velkým souborem PDF, a to může dokonce fungovat i na OCR dokumentech. Tento nástroj vypadá velmi dobře a byl představen na summitu Code for America v roce 2018 a byl vyvinut v rámci opatření pro spravedlnost s cílem pomoci všem, kteří chtějí tento typ dat extrahovat bez znalosti programování.

Místo programovacích potřeb jiných alternativ umožňuje Textricator uživateli popsat strukturu dokumentu pomocí souboru yaml. Můžete tak extrahovat data ze souborů PDF téměř v jakémkoli rozvržení, včetně tabulek, a generovat z nich složité zprávy nástroje jako Crystal Reports. Je to tak jednoduché, objednáte si, co chcete sbírat, a Textricator to udělá úplně automaticky ...

Jeho vývojáři Joe Hale a Stephen Byrne Poslední dva roky strávili prací na projektu, aby dokázali extrahovat desítky tisíc stránek dat z téměř jakéhokoli formátu PDF. Lze jej použít z příkazového řádku, ale pro pohodlí je k dispozici také grafické uživatelské rozhraní. Doporučujeme vám proto od LxA použít tuto alternativu Tabula (i když ve funkcích pro extrakci dat je omezenější než flexibilní Textricator) a další software k ní podobný pro extrakci dat.


Zanechte svůj komentář

Vaše e-mailová adresa nebude zveřejněna. Povinné položky jsou označeny *

*

*

  1. Za data odpovídá: AB Internet Networks 2008 SL
  2. Účel údajů: Ovládací SPAM, správa komentářů.
  3. Legitimace: Váš souhlas
  4. Sdělování údajů: Údaje nebudou sděleny třetím osobám, s výjimkou zákonných povinností.
  5. Úložiště dat: Databáze hostovaná společností Occentus Networks (EU)
  6. Práva: Vaše údaje můžete kdykoli omezit, obnovit a odstranit.