Textricator é uma ferramenta interessante que você deve saber. É open source e é usado para extrair dados complexos de documentos PDF, sem a necessidade de conhecimentos de programação. Se você deseja saber mais informações sobre esta ferramenta, você pode acessar o site oficial do projecto. Nele você encontrará informações e também acessar links para o código da ferramenta no Github, juntamente com sua documentação.
Textricator pode extrair texto de Arquivos PDF e gerar dados estruturados (CSV ou JSON). Algo muito prático para quando você está trabalhando com muitos PDFs do mesmo formato ou um PDF grande, e pode até funcionar em documentos OCR. A ferramenta parece muito boa, e foi apresentada na Cúpula Code for America 2018, e desenvolvida pela Measures for Justice com o objetivo de ajudar todos aqueles que desejam extrair este tipo de dados sem conhecimento de programação.
Em vez das necessidades de programação de outras alternativas, Textricator permite ao usuário descrever a estrutura do documento usando um arquivo yaml. E assim você pode extrair dados de arquivos PDF em quase qualquer layout, incluindo tabelas, e gerar relatórios complexos de ferramentas como Crystal Reports. É tão simples, você pede o que deseja coletar e Textricator faz isso de forma totalmente automática ...
Seus desenvolvedores Joe Hale e Stephen Byrne Eles passaram os últimos dois anos trabalhando no projeto para poder extrair dezenas de milhares de páginas de dados de quase qualquer formato PDF. E pode ser usado na linha de comando, mas também há uma GUI disponível para sua conveniência. Portanto, encorajamos você do LxA a usar esta alternativa Tabula (embora seja mais limitada em funções para extrair dados do que o Textricator flexível) e outro software semelhante a ele para extração de dados.