Textricator: ērts datu ekstraktors PDF failiem

Textricator logotips

Textricator ir interesants rīks kas jums būtu jāzina. Tas ir atvērtā pirmkoda un tiek izmantots sarežģītu datu iegūšanai no PDF dokumentiem, bez programmēšanas zināšanām. Ja vēlaties uzzināt vairāk informācijas par šo rīku, varat piekļūt oficiālajā tīmekļa vietnē projekta. Tur jūs atradīsit informāciju un piekļuves saites uz rīka kodu vietnē Github, kā arī tā dokumentāciju.

Textricator var iegūt tekstu no PDF faili un ģenerēt strukturētus datus (CSV vai JSON). Kaut kas ļoti praktisks, strādājot ar daudziem tāda paša formāta PDF failiem vai lielu PDF failu, un tas var darboties pat ar OCR dokumentiem. Šis rīks izskatās ļoti labi, un tas tika prezentēts 2018. gada Amerikas kodeksa samitā, un to izstrādāja Pasākumi taisnīgumam ar mērķi palīdzēt visiem tiem, kuri vēlas iegūt šāda veida datus bez programmēšanas zināšanām.

Citu alternatīvu programmēšanas vajadzību vietā Textricator ļauj lietotājam aprakstīt dokumenta struktūru, izmantojot yaml failu. Tādējādi jūs varat iegūt datus no PDF failiem gandrīz jebkurā izkārtojumā, ieskaitot tabulas, un no tā ģenerēt sarežģītus pārskatus rīki, piemēram, Crystal Reports. Tas ir tik vienkārši, jūs pasūtāt to, ko vēlaties savākt, un Textricator to dara pilnīgi automātiski ...

Tās izstrādātāji Džo Heils un Stīvens Bērns Pēdējos divus gadus viņi ir pavadījuši, strādājot pie projekta, lai gandrīz jebkurā PDF formātā varētu iegūt desmitiem tūkstošu datu lappušu. Un to var izmantot no komandrindas, taču ērtībai ir pieejams arī GUI. Tāpēc mēs iesakām jums no LxA izmantot šo Tabula alternatīvu (lai gan datu iegūšanai funkcijās ir vairāk ierobežojumu nekā elastīgajam Textricator) un citu tai līdzīgu programmatūru datu ieguvei.


Atstājiet savu komentāru

Jūsu e-pasta adrese netiks publicēta. Obligātie lauki ir atzīmēti ar *

*

*

  1. Atbildīgais par datiem: AB Internet Networks 2008 SL
  2. Datu mērķis: SPAM kontrole, komentāru pārvaldība.
  3. Legitimācija: jūsu piekrišana
  4. Datu paziņošana: Dati netiks paziņoti trešām personām, izņemot juridiskus pienākumus.
  5. Datu glabāšana: datu bāze, ko mitina Occentus Networks (ES)
  6. Tiesības: jebkurā laikā varat ierobežot, atjaunot un dzēst savu informāciju.