Textricator: ekstraktor data yang mudah untuk file PDF

Textricator adalah alat yang menarik yang harus Anda ketahui. Ini adalah open source dan digunakan untuk mengekstrak data kompleks dari dokumen PDF, tanpa perlu pengetahuan pemrograman. Jika Anda ingin mengetahui informasi lebih lanjut tentang alat ini, Anda dapat mengakses situs web resmi dari proyek tersebut. Dari sana Anda akan menemukan informasi dan juga mengakses tautan ke kode alat di Github, bersama dengan dokumentasinya.

Textricator dapat mengekstrak teks dari File PDF dan menghasilkan data terstruktur (CSV atau JSON). Sesuatu yang sangat praktis saat Anda bekerja dengan banyak PDF dengan format yang sama atau PDF besar, dan bahkan dapat bekerja pada dokumen OCR. Alat tersebut terlihat sangat bagus, dan dipresentasikan pada KTT Kode untuk Amerika 2018, dan dikembangkan oleh Measures for Justice dengan tujuan membantu semua orang yang ingin mengekstrak jenis data ini tanpa pengetahuan pemrograman.

Alih-alih kebutuhan pemrograman alternatif lain, Textricator memungkinkan pengguna untuk menggambarkan struktur dokumen menggunakan file yaml. Jadi Anda dapat mengekstrak data dari file PDF di hampir semua tata letak, termasuk tabel, dan menghasilkan laporan kompleks dari alat seperti Crystal Reports. Sesederhana itu, Anda memesan apa yang ingin Anda kumpulkan dan Textricator melakukannya sepenuhnya secara otomatis ...

Pengembangnya Joe Hale dan Stephen Byrne Mereka telah menghabiskan dua tahun terakhir mengerjakan proyek untuk dapat mengekstrak puluhan ribu halaman data dari hampir semua format PDF. Dan itu bisa digunakan dari baris perintah, tapi ada juga GUI yang tersedia untuk kenyamanan. Jadi kami mendorong Anda dari LxA untuk menggunakan alternatif Tabula ini (meskipun lebih terbatas dalam fungsi untuk mengekstrak data daripada Textricator fleksibel) dan perangkat lunak lain yang serupa dengannya untuk ekstraksi data.

LinuxAdictos

Textricator: ekstraktor data yang mudah untuk file PDF

tinggalkan Komentar Anda Batalkan balasan