Textricator: PDF dosyaları için kolay bir veri çıkarıcı

Textricator logosu

Textricator ilginç bir araçtır bilmen gereken Açık kaynak kodludur ve programlama bilgisine ihtiyaç duymadan PDF belgelerinden karmaşık verileri çıkarmak için kullanılır. Bu araç hakkında daha fazla bilgi edinmek isterseniz, şu adrese erişebilirsiniz: Web oficial projenin. Oradan bilgileri bulacak ve ayrıca belgelerle birlikte aracın Github'daki kodunun bağlantılarına erişebileceksiniz.

Textricator, metin ayıklayabilir PDF dosyaları ve yapılandırılmış veriler (CSV veya JSON) oluşturun. Aynı formattaki birçok PDF veya büyük bir PDF ile çalışırken çok pratik bir şey ve hatta OCR belgeleri üzerinde çalışabilir. Araç çok iyi görünüyor ve 2018 Code for America Zirvesi'nde sunuldu ve bu tür verileri programlama bilgisi olmadan çıkarmak isteyen herkese yardımcı olmak amacıyla Measures for Justice tarafından geliştirildi.

Textricator, diğer alternatiflerin programlama ihtiyaçları yerine, kullanıcının bir yaml dosyası kullanarak belgenin yapısını tanımlamasına izin verir. Ve böylece PDF dosyalarından tablolar dahil hemen hemen her düzende veri ayıklayabilir ve Crystal Reports gibi araçlar. Bu kadar basit, toplamak istediğinizi sipariş edersiniz ve Textricator bunu tamamen otomatik olarak yapar ...

Geliştiricileri Joe Hale ve Stephen Byrne Son iki yılı, neredeyse tüm PDF formatlarından on binlerce sayfalık veriyi çıkarabilmek için proje üzerinde çalışarak geçirdiler. Ve komut satırından kullanılabilir, ancak kolaylık sağlamak için bir GUI de mevcuttur. Bu nedenle, sizi LxA'dan bu Tabula alternatifini (esnek Textricator'dan veri çıkarma işlevlerinde daha sınırlı olmasına rağmen) ve veri çıkarma için buna benzer diğer yazılımları kullanmanızı öneririz.


Yorumunuzu bırakın

E-posta hesabınız yayınlanmayacak. Gerekli alanlar ile işaretlenmiştir *

*

*

  1. Verilerden sorumlu: AB Internet Networks 2008 SL
  2. Verilerin amacı: Kontrol SPAM, yorum yönetimi.
  3. Meşruiyet: Onayınız
  4. Verilerin iletilmesi: Veriler, yasal zorunluluk dışında üçüncü kişilere iletilmeyecektir.
  5. Veri depolama: Occentus Networks (AB) tarafından barındırılan veritabanı
  6. Haklar: Bilgilerinizi istediğiniz zaman sınırlayabilir, kurtarabilir ve silebilirsiniz.