Textricator: um extrator de dados fácil para arquivos PDF

Logotipo da Textricator

Textricator é uma ferramenta interessante que você deve saber. É open source e é usado para extrair dados complexos de documentos PDF, sem a necessidade de conhecimentos de programação. Se você deseja saber mais informações sobre esta ferramenta, você pode acessar o site oficial do projecto. Nele você encontrará informações e também acessar links para o código da ferramenta no Github, juntamente com sua documentação.

Textricator pode extrair texto de Arquivos PDF e gerar dados estruturados (CSV ou JSON). Algo muito prático para quando você está trabalhando com muitos PDFs do mesmo formato ou um PDF grande, e pode até funcionar em documentos OCR. A ferramenta parece muito boa, e foi apresentada na Cúpula Code for America 2018, e desenvolvida pela Measures for Justice com o objetivo de ajudar todos aqueles que desejam extrair este tipo de dados sem conhecimento de programação.

Em vez das necessidades de programação de outras alternativas, Textricator permite ao usuário descrever a estrutura do documento usando um arquivo yaml. E assim você pode extrair dados de arquivos PDF em quase qualquer layout, incluindo tabelas, e gerar relatórios complexos de ferramentas como Crystal Reports. É tão simples, você pede o que deseja coletar e Textricator faz isso de forma totalmente automática ...

Seus desenvolvedores Joe Hale e Stephen Byrne Eles passaram os últimos dois anos trabalhando no projeto para poder extrair dezenas de milhares de páginas de dados de quase qualquer formato PDF. E pode ser usado na linha de comando, mas também há uma GUI disponível para sua conveniência. Portanto, encorajamos você do LxA a usar esta alternativa Tabula (embora seja mais limitada em funções para extrair dados do que o Textricator flexível) e outro software semelhante a ele para extração de dados.


Deixe um comentário

Seu endereço de email não será publicado. Campos obrigatórios são marcados com *

*

*

  1. Responsável pelos dados: AB Internet Networks 2008 SL
  2. Finalidade dos dados: Controle de SPAM, gerenciamento de comentários.
  3. Legitimação: Seu consentimento
  4. Comunicação de dados: Os dados não serão comunicados a terceiros, exceto por obrigação legal.
  5. Armazenamento de dados: banco de dados hospedado pela Occentus Networks (UE)
  6. Direitos: A qualquer momento você pode limitar, recuperar e excluir suas informações.