Textricator: ตัวแยกข้อมูลที่ง่ายสำหรับไฟล์ PDF

โลโก้ Textricator

Textricator เป็นเครื่องมือที่น่าสนใจ ที่คุณควรรู้ เป็นโอเพ่นซอร์สและใช้เพื่อดึงข้อมูลที่ซับซ้อนออกจากเอกสาร PDF โดยไม่จำเป็นต้องมีความรู้ด้านการเขียนโปรแกรม หากคุณต้องการทราบข้อมูลเพิ่มเติมเกี่ยวกับเครื่องมือนี้คุณสามารถเข้าถึงไฟล์ เว็บไซต์ทางการ ของโครงการ จากนั้นคุณจะพบข้อมูลและเข้าถึงลิงก์ไปยังโค้ดของเครื่องมือบน Github พร้อมกับเอกสารประกอบ

Textricator สามารถดึงข้อความจากไฟล์ ไฟล์ PDF และสร้างข้อมูลที่มีโครงสร้าง (CSV หรือ JSON) สิ่งที่ใช้ได้จริงเมื่อคุณทำงานกับ PDF หลายรูปแบบเดียวกันหรือ PDF ขนาดใหญ่และยังสามารถทำงานกับเอกสาร OCR ได้อีกด้วย เครื่องมือนี้ดูดีมากและถูกนำเสนอในการประชุมสุดยอด Code for America ปี 2018 และพัฒนาโดย Measures for Justice โดยมีจุดประสงค์เพื่อช่วยเหลือผู้ที่ต้องการดึงข้อมูลประเภทนี้โดยไม่ต้องมีความรู้ด้านการเขียนโปรแกรม

แทนที่จะต้องการโปรแกรมทางเลือกอื่น Textricator อนุญาตให้ผู้ใช้อธิบายโครงสร้างของเอกสารโดยใช้ไฟล์ yaml ดังนั้นคุณจึงสามารถดึงข้อมูลจากไฟล์ PDF ได้เกือบทุกรูปแบบรวมถึงตารางและสร้างรายงานที่ซับซ้อนจาก เครื่องมือเช่น Crystal Reports. มันง่ายมากที่คุณสั่งสิ่งที่คุณต้องการรวบรวมและ Textricator จะดำเนินการโดยอัตโนมัติ ...

นักพัฒนา Joe Hale และ Stephen Byrne พวกเขาใช้เวลาสองปีที่ผ่านมาในการทำโครงการเพื่อให้สามารถดึงข้อมูลหลายหมื่นหน้าจากเกือบทุกรูปแบบ PDF และสามารถใช้งานได้จากบรรทัดคำสั่ง แต่ยังมี GUI เพื่อความสะดวกอีกด้วย ดังนั้นเราขอแนะนำให้คุณจาก LxA ใช้ทางเลือก Tabula นี้ (แม้ว่าจะมีฟังก์ชั่นการดึงข้อมูลที่ จำกัด มากกว่า Textricator ที่ยืดหยุ่น) และซอฟต์แวร์อื่น ๆ ที่คล้ายกันสำหรับการดึงข้อมูล


แสดงความคิดเห็นของคุณ

อีเมล์ของคุณจะไม่ถูกเผยแพร่ ช่องที่ต้องการถูกทำเครื่องหมายด้วย *

*

*

  1. รับผิดชอบข้อมูล: AB Internet Networks 2008 SL
  2. วัตถุประสงค์ของข้อมูล: ควบคุมสแปมการจัดการความคิดเห็น
  3. ถูกต้องตามกฎหมาย: ความยินยอมของคุณ
  4. การสื่อสารข้อมูล: ข้อมูลจะไม่ถูกสื่อสารไปยังบุคคลที่สามยกเว้นตามข้อผูกพันทางกฎหมาย
  5. การจัดเก็บข้อมูล: ฐานข้อมูลที่โฮสต์โดย Occentus Networks (EU)
  6. สิทธิ์: คุณสามารถ จำกัด กู้คืนและลบข้อมูลของคุณได้ตลอดเวลา