Textricator הוא כלי מעניין שאתה צריך לדעת. זהו קוד פתוח ומשמש לחילוץ נתונים מורכבים ממסמכי PDF, ללא צורך בידע בתכנות. אם אתה רוצה לדעת מידע נוסף על כלי זה, תוכל לגשת אל אתר רשמי של הפרויקט. משם תוכלו למצוא מידע וגם לגשת לקישורים לקוד הכלי ב- Github, יחד עם התיעוד שלו.
Textricator יכול לחלץ טקסט מתוך קבצי PDF וליצור נתונים מובנים (CSV או JSON). משהו מאוד פרקטי כשאתה עובד עם קבצי PDF רבים באותו פורמט או מסמך PDF גדול, וזה יכול אפילו לעבוד על מסמכי OCR. הכלי נראה טוב מאוד, והוצג בפסגת קוד אמריקה לשנת 2018, ופותח על ידי צעדים לצדק במטרה לעזור לכל אלה שרוצים לחלץ נתונים מסוג זה ללא ידע בתכנות.
במקום צרכי התכנות של חלופות אחרות, Textricator מאפשר למשתמש לתאר את מבנה המסמך באמצעות קובץ yaml. וכך תוכלו לחלץ נתונים מקבצי PDF כמעט בכל פריסה, כולל טבלאות, וליצור מהם דוחות מורכבים כלים כמו Crystal Reports. זה כל כך פשוט, אתה מזמין את מה שאתה רוצה לאסוף ו- Textricator עושה את זה באופן אוטומטי לחלוטין ...
המפתחים שלה ג'ו הייל וסטיבן בירן הם השקיעו בשנתיים האחרונות בפרויקט כדי להיות מסוגלים לחלץ עשרות אלפי דפי נתונים כמעט מכל פורמט PDF. וניתן להשתמש בו משורת הפקודה, אך יש גם ממשק משתמש זמין לנוחיותך. לכן אנו ממליצים לך מ- LxA להשתמש בחלופה זו של טאבולה (אם כי היא מוגבלת יותר בפונקציות לחילוץ נתונים מאשר Textricator הגמיש) ובתוכנות אחרות הדומות לה לצורך חילוץ נתונים.