Textricator: ekstraktor data yang mudah untuk file PDF

Logo Textricator

Textricator adalah alat yang menarik yang harus Anda ketahui. Ini adalah open source dan digunakan untuk mengekstrak data kompleks dari dokumen PDF, tanpa perlu pengetahuan pemrograman. Jika Anda ingin mengetahui informasi lebih lanjut tentang alat ini, Anda dapat mengakses situs web resmi dari proyek tersebut. Dari sana Anda akan menemukan informasi dan juga mengakses tautan ke kode alat di Github, bersama dengan dokumentasinya.

Textricator dapat mengekstrak teks dari File PDF dan menghasilkan data terstruktur (CSV atau JSON). Sesuatu yang sangat praktis saat Anda bekerja dengan banyak PDF dengan format yang sama atau PDF besar, dan bahkan dapat bekerja pada dokumen OCR. Alat tersebut terlihat sangat bagus, dan dipresentasikan pada KTT Kode untuk Amerika 2018, dan dikembangkan oleh Measures for Justice dengan tujuan membantu semua orang yang ingin mengekstrak jenis data ini tanpa pengetahuan pemrograman.

Alih-alih kebutuhan pemrograman alternatif lain, Textricator memungkinkan pengguna untuk menggambarkan struktur dokumen menggunakan file yaml. Jadi Anda dapat mengekstrak data dari file PDF di hampir semua tata letak, termasuk tabel, dan menghasilkan laporan kompleks dari alat seperti Crystal Reports. Sesederhana itu, Anda memesan apa yang ingin Anda kumpulkan dan Textricator melakukannya sepenuhnya secara otomatis ...

Pengembangnya Joe Hale dan Stephen Byrne Mereka telah menghabiskan dua tahun terakhir mengerjakan proyek untuk dapat mengekstrak puluhan ribu halaman data dari hampir semua format PDF. Dan itu bisa digunakan dari baris perintah, tapi ada juga GUI yang tersedia untuk kenyamanan. Jadi kami mendorong Anda dari LxA untuk menggunakan alternatif Tabula ini (meskipun lebih terbatas dalam fungsi untuk mengekstrak data daripada Textricator fleksibel) dan perangkat lunak lain yang serupa dengannya untuk ekstraksi data.


tinggalkan Komentar Anda

Alamat email Anda tidak akan dipublikasikan. Bidang yang harus diisi ditandai dengan *

*

*

  1. Bertanggung jawab atas data: AB Internet Networks 2008 SL
  2. Tujuan data: Mengontrol SPAM, manajemen komentar.
  3. Legitimasi: Persetujuan Anda
  4. Komunikasi data: Data tidak akan dikomunikasikan kepada pihak ketiga kecuali dengan kewajiban hukum.
  5. Penyimpanan data: Basis data dihosting oleh Occentus Networks (UE)
  6. Hak: Anda dapat membatasi, memulihkan, dan menghapus informasi Anda kapan saja.