Textricator: เครื่องมือแยกข้อมูลอย่างง่ายสำหรับไฟล์ PDF

Textricator เป็นเครื่องมือที่น่าสนใจ ที่คุณควรรู้ เป็นโอเพ่นซอร์สและใช้เพื่อดึงข้อมูลที่ซับซ้อนออกจากเอกสาร PDF โดยไม่จำเป็นต้องมีความรู้ด้านการเขียนโปรแกรม หากคุณต้องการทราบข้อมูลเพิ่มเติมเกี่ยวกับเครื่องมือนี้คุณสามารถเข้าถึงไฟล์ เว็บไซต์ทางการ ของโครงการ จากนั้นคุณจะพบข้อมูลและเข้าถึงลิงก์ไปยังโค้ดของเครื่องมือบน Github พร้อมกับเอกสารประกอบ

Textricator สามารถดึงข้อความจากไฟล์ ไฟล์ PDF และสร้างข้อมูลที่มีโครงสร้าง (CSV หรือ JSON) สิ่งที่ใช้ได้จริงเมื่อคุณทำงานกับ PDF หลายรูปแบบเดียวกันหรือ PDF ขนาดใหญ่และยังสามารถทำงานกับเอกสาร OCR ได้อีกด้วย เครื่องมือนี้ดูดีมากและถูกนำเสนอในการประชุมสุดยอด Code for America ปี 2018 และพัฒนาโดย Measures for Justice โดยมีจุดประสงค์เพื่อช่วยเหลือผู้ที่ต้องการดึงข้อมูลประเภทนี้โดยไม่ต้องมีความรู้ด้านการเขียนโปรแกรม

แทนที่จะต้องการโปรแกรมทางเลือกอื่น Textricator อนุญาตให้ผู้ใช้อธิบายโครงสร้างของเอกสารโดยใช้ไฟล์ yaml ดังนั้นคุณจึงสามารถดึงข้อมูลจากไฟล์ PDF ได้เกือบทุกรูปแบบรวมถึงตารางและสร้างรายงานที่ซับซ้อนจาก เครื่องมือเช่น Crystal Reports. มันง่ายมากที่คุณสั่งสิ่งที่คุณต้องการรวบรวมและ Textricator จะดำเนินการโดยอัตโนมัติ ...

นักพัฒนา Joe Hale และ Stephen Byrne พวกเขาใช้เวลาสองปีที่ผ่านมาในการทำโครงการเพื่อให้สามารถดึงข้อมูลหลายหมื่นหน้าจากเกือบทุกรูปแบบ PDF และสามารถใช้งานได้จากบรรทัดคำสั่ง แต่ยังมี GUI เพื่อความสะดวกอีกด้วย ดังนั้นเราขอแนะนำให้คุณจาก LxA ใช้ทางเลือก Tabula นี้ (แม้ว่าจะมีฟังก์ชั่นการดึงข้อมูลที่ จำกัด มากกว่า Textricator ที่ยืดหยุ่น) และซอฟต์แวร์อื่น ๆ ที่คล้ายกันสำหรับการดึงข้อมูล

แสดงความคิดเห็นของคุณ ยกเลิกการตอบ

อีเมล์ของคุณจะไม่ถูกเผยแพร่ ช่องที่ต้องการถูกทำเครื่องหมายด้วย *

คิดเห็น *

ชื่อ*

จดหมายอิเล็กทรอนิกส์*

ฉันยอมรับ ข้อกำหนดความเป็นส่วนตัว*

รับผิดชอบข้อมูล: AB Internet Networks 2008 SL
วัตถุประสงค์ของข้อมูล: ควบคุมสแปมการจัดการความคิดเห็น
ถูกต้องตามกฎหมาย: ความยินยอมของคุณ
การสื่อสารข้อมูล: ข้อมูลจะไม่ถูกสื่อสารไปยังบุคคลที่สามยกเว้นตามข้อผูกพันทางกฎหมาย
การจัดเก็บข้อมูล: ฐานข้อมูลที่โฮสต์โดย Occentus Networks (EU)
สิทธิ์: คุณสามารถ จำกัด กู้คืนและลบข้อมูลของคุณได้ตลอดเวลา

ฉันต้องการรับจดหมายข่าว

LinuxAdictos

Textricator: ตัวแยกข้อมูลที่ง่ายสำหรับไฟล์ PDF

แสดงความคิดเห็นของคุณ ยกเลิกการตอบ