Textricator: חילוץ נתונים קל לקבצי PDF

לוגו Textricator

Textricator הוא כלי מעניין שאתה צריך לדעת. זהו קוד פתוח ומשמש לחילוץ נתונים מורכבים ממסמכי PDF, ללא צורך בידע בתכנות. אם אתה רוצה לדעת מידע נוסף על כלי זה, תוכל לגשת אל אתר רשמי של הפרויקט. משם תוכלו למצוא מידע וגם לגשת לקישורים לקוד הכלי ב- Github, יחד עם התיעוד שלו.

Textricator יכול לחלץ טקסט מתוך קבצי PDF וליצור נתונים מובנים (CSV או JSON). משהו מאוד פרקטי כשאתה עובד עם קבצי PDF רבים באותו פורמט או מסמך PDF גדול, וזה יכול אפילו לעבוד על מסמכי OCR. הכלי נראה טוב מאוד, והוצג בפסגת קוד אמריקה לשנת 2018, ופותח על ידי צעדים לצדק במטרה לעזור לכל אלה שרוצים לחלץ נתונים מסוג זה ללא ידע בתכנות.

במקום צרכי התכנות של חלופות אחרות, Textricator מאפשר למשתמש לתאר את מבנה המסמך באמצעות קובץ yaml. וכך תוכלו לחלץ נתונים מקבצי PDF כמעט בכל פריסה, כולל טבלאות, וליצור מהם דוחות מורכבים כלים כמו Crystal Reports. זה כל כך פשוט, אתה מזמין את מה שאתה רוצה לאסוף ו- Textricator עושה את זה באופן אוטומטי לחלוטין ...

המפתחים שלה ג'ו הייל וסטיבן בירן הם השקיעו בשנתיים האחרונות בפרויקט כדי להיות מסוגלים לחלץ עשרות אלפי דפי נתונים כמעט מכל פורמט PDF. וניתן להשתמש בו משורת הפקודה, אך יש גם ממשק משתמש זמין לנוחיותך. לכן אנו ממליצים לך מ- LxA להשתמש בחלופה זו של טאבולה (אם כי היא מוגבלת יותר בפונקציות לחילוץ נתונים מאשר Textricator הגמיש) ובתוכנות אחרות הדומות לה לצורך חילוץ נתונים.


השאירו את התגובה שלכם

כתובת הדוא"ל שלך לא תפורסם. שדות חובה מסומנים *

*

*

  1. אחראי על הנתונים: AB Internet Networks 2008 SL
  2. מטרת הנתונים: בקרת ספאם, ניהול תגובות.
  3. לגיטימציה: הסכמתך
  4. מסירת הנתונים: הנתונים לא יועברו לצדדים שלישיים אלא בהתחייבות חוקית.
  5. אחסון נתונים: מסד נתונים המתארח על ידי Occentus Networks (EU)
  6. זכויות: בכל עת תוכל להגביל, לשחזר ולמחוק את המידע שלך.