Textricator: isang madaling kumuha ng data para sa mga PDF file

Logo ng Textricator

Ang Textricator ay isang nakawiwiling tool na dapat mong malaman. Ito ay bukas na mapagkukunan at ginagamit upang kumuha ng kumplikadong data mula sa mga dokumento ng PDF, nang hindi kailangan ng kaalaman sa pagprograma. Kung nais mong malaman ang karagdagang impormasyon tungkol sa tool na ito, maaari mong ma-access ang opisyal na website ng proyekto. Mula doon makikita mo ang impormasyon at mag-access din ng mga link sa code ng tool sa Github, kasama ang dokumentasyon nito.

Maaaring makuha ng Textricator ang teksto mula sa Mga PDF file at bumuo ng nakabalangkas na data (CSV o JSON). Isang bagay na napaka praktikal para sa kung nagtatrabaho ka sa maraming mga PDF ng parehong format o isang malaking PDF, at maaari pa itong gumana sa mga dokumento ng OCR. Ang tool ay mukhang napakahusay, at ipinakita sa 2018 Code for America Summit, at binuo ng Mga Panukala para sa Hustisya na may hangaring tulungan ang lahat ng mga nais kumuha ng ganitong uri ng data nang walang kaalaman sa programa.

Sa halip na mga pangangailangan sa pagprograma ng iba pang mga kahalili, pinapayagan ng Textricator ang gumagamit na ilarawan ang istraktura ng dokumento gamit ang isang yaml file. At sa gayon maaari mong makuha ang data mula sa mga PDF file sa halos anumang layout, kasama ang mga talahanayan, at makabuo ng mga kumplikadong ulat mula sa mga tool tulad ng Crystal Reports. Napakadaling iyon, nag-order ka kung ano ang nais mong kolektahin at ginagawa ito ng Textricator na ganap na awtomatiko ...

Ang mga developer nito Joe Hale at Stephen Byrne Ginugol nila ang huling dalawang taon na nagtatrabaho sa proyekto upang makapag-extract ng libu-libong mga pahina ng data mula sa halos anumang format na PDF. At maaari itong magamit mula sa linya ng utos, ngunit mayroon ding magagamit na GUI para sa kaginhawaan. Kaya hinihikayat ka namin mula sa LxA na gamitin ang alternatibong Tabula na ito (bagaman mas limitado ito sa mga pagpapaandar upang kumuha ng data kaysa sa kakayahang umangkop na Textricator) at iba pang software na katulad nito para sa pagkuha ng data.


Iwanan ang iyong puna

Ang iyong email address ay hindi nai-publish. Mga kinakailangang patlang ay minarkahan ng *

*

*

  1. Responsable para sa data: AB Internet Networks 2008 SL
  2. Layunin ng data: Kontrolin ang SPAM, pamamahala ng komento.
  3. Legitimation: Ang iyong pahintulot
  4. Komunikasyon ng data: Ang data ay hindi maiparating sa mga third party maliban sa ligal na obligasyon.
  5. Imbakan ng data: Ang database na naka-host ng Occentus Networks (EU)
  6. Mga Karapatan: Sa anumang oras maaari mong limitahan, mabawi at tanggalin ang iyong impormasyon.