Textricator: en nem dataudtrækker til PDF-filer

Textricator-logo

Textricator er et interessant værktøj at du skulle vide. Det er open source og bruges til at udtrække komplekse data fra PDF-dokumenter uden behov for programmeringskendskab. Hvis du vil vide mere information om dette værktøj, kan du få adgang til officielle hjemmeside af projektet. Derfra finder du information og også adgang til links til værktøjets kode på Github sammen med dens dokumentation.

Textricator kan udtrække tekst fra PDF-filer og generere strukturerede data (CSV eller JSON). Noget meget praktisk, når du arbejder med mange PDF-filer i samme format eller en stor PDF, og det kan endda fungere på OCR-dokumenter. Værktøjet ser meget godt ud og blev præsenteret på 2018 Code for America Summit og udviklet af Measures for Justice med det formål at hjælpe alle dem, der ønsker at udtrække denne type data uden programmeringskendskab.

I stedet for programmeringsbehovet for andre alternativer giver Textricator brugeren mulighed for at beskrive dokumentets struktur ved hjælp af en yaml-fil. Og så kan du udtrække data fra PDF-filer i næsten ethvert layout, inklusive tabeller, og generere komplekse rapporter fra værktøjer som Crystal Reports. Det er så simpelt, du bestiller, hvad du vil indsamle, og Textricator gør det helt automatisk ...

Dens udviklere Joe Hale og Stephen Byrne De har brugt de sidste to år på projektet for at kunne udtrække titusinder af sider med data fra næsten ethvert PDF-format. Og det kan bruges fra kommandolinjen, men der er også en GUI tilgængelig for nemheds skyld. Så vi opfordrer dig fra LxA til at bruge dette Tabula-alternativ (selvom det er mere begrænset i funktioner til at udtrække data end den fleksible Textricator) og anden software, der ligner det til dataekstraktion.


Efterlad din kommentar

Din e-mailadresse vil ikke blive offentliggjort. Obligatoriske felter er markeret med *

*

*

  1. Ansvarlig for data: AB Internet Networks 2008 SL
  2. Formålet med dataene: Control SPAM, management af kommentarer.
  3. Legitimering: Dit samtykke
  4. Kommunikation af dataene: Dataene vil ikke blive kommunikeret til tredjemand, undtagen ved juridisk forpligtelse.
  5. Datalagring: Database hostet af Occentus Networks (EU)
  6. Rettigheder: Du kan til enhver tid begrænse, gendanne og slette dine oplysninger.