Textricator เป็นเครื่องมือที่น่าสนใจ ที่คุณควรรู้ เป็นโอเพ่นซอร์สและใช้เพื่อดึงข้อมูลที่ซับซ้อนออกจากเอกสาร PDF โดยไม่จำเป็นต้องมีความรู้ด้านการเขียนโปรแกรม หากคุณต้องการทราบข้อมูลเพิ่มเติมเกี่ยวกับเครื่องมือนี้คุณสามารถเข้าถึงไฟล์ เว็บไซต์ทางการ ของโครงการ จากนั้นคุณจะพบข้อมูลและเข้าถึงลิงก์ไปยังโค้ดของเครื่องมือบน Github พร้อมกับเอกสารประกอบ
Textricator สามารถดึงข้อความจากไฟล์ ไฟล์ PDF และสร้างข้อมูลที่มีโครงสร้าง (CSV หรือ JSON) สิ่งที่ใช้ได้จริงเมื่อคุณทำงานกับ PDF หลายรูปแบบเดียวกันหรือ PDF ขนาดใหญ่และยังสามารถทำงานกับเอกสาร OCR ได้อีกด้วย เครื่องมือนี้ดูดีมากและถูกนำเสนอในการประชุมสุดยอด Code for America ปี 2018 และพัฒนาโดย Measures for Justice โดยมีจุดประสงค์เพื่อช่วยเหลือผู้ที่ต้องการดึงข้อมูลประเภทนี้โดยไม่ต้องมีความรู้ด้านการเขียนโปรแกรม
แทนที่จะต้องการโปรแกรมทางเลือกอื่น Textricator อนุญาตให้ผู้ใช้อธิบายโครงสร้างของเอกสารโดยใช้ไฟล์ yaml ดังนั้นคุณจึงสามารถดึงข้อมูลจากไฟล์ PDF ได้เกือบทุกรูปแบบรวมถึงตารางและสร้างรายงานที่ซับซ้อนจาก เครื่องมือเช่น Crystal Reports. มันง่ายมากที่คุณสั่งสิ่งที่คุณต้องการรวบรวมและ Textricator จะดำเนินการโดยอัตโนมัติ ...
นักพัฒนา Joe Hale และ Stephen Byrne พวกเขาใช้เวลาสองปีที่ผ่านมาในการทำโครงการเพื่อให้สามารถดึงข้อมูลหลายหมื่นหน้าจากเกือบทุกรูปแบบ PDF และสามารถใช้งานได้จากบรรทัดคำสั่ง แต่ยังมี GUI เพื่อความสะดวกอีกด้วย ดังนั้นเราขอแนะนำให้คุณจาก LxA ใช้ทางเลือก Tabula นี้ (แม้ว่าจะมีฟังก์ชั่นการดึงข้อมูลที่ จำกัด มากกว่า Textricator ที่ยืดหยุ่น) และซอฟต์แวร์อื่น ๆ ที่คล้ายกันสำหรับการดึงข้อมูล