Textricator: أداة استخراج بيانات سهلة لملفات PDF

شعار Textricator

Textricator هي أداة مثيرة للاهتمام يجب أن تعرفه. إنه مفتوح المصدر ويستخدم لاستخراج البيانات المعقدة من مستندات PDF ، دون الحاجة إلى معرفة برمجية. إذا كنت تريد معرفة المزيد من المعلومات حول هذه الأداة ، فيمكنك الوصول إلى ملف ويب الرسمية من المشروع. من هناك ستجد معلومات وستصل أيضًا إلى روابط لرمز الأداة على Github ، جنبًا إلى جنب مع وثائقها.

يستطيع Textricator استخراج النص من ملفات PDF وإنشاء بيانات منظمة (CSV أو JSON). شيء عملي للغاية عند العمل مع العديد من ملفات PDF من نفس التنسيق أو ملف PDF كبير ، ويمكنه أيضًا العمل على مستندات OCR. الأداة تبدو جيدة جدًا ، وتم تقديمها في 2018 Code for America Summit ، وتم تطويرها بواسطة Measures for Justice بهدف مساعدة كل من يريد استخراج هذا النوع من البيانات دون معرفة برمجية.

بدلاً من احتياجات البرمجة للبدائل الأخرى ، يتيح Textricator للمستخدم وصف بنية المستند باستخدام ملف yaml. وبذلك يمكنك استخراج البيانات من ملفات PDF في أي تخطيط تقريبًا ، بما في ذلك الجداول ، وإنشاء تقارير معقدة من ملفات أدوات مثل تقارير Crystal. الأمر بهذه البساطة ، يمكنك طلب ما تريد جمعه ويقوم Textricator بذلك تلقائيًا بالكامل ...

مطوروها جو هيل وستيفن بيرن لقد أمضوا العامين الماضيين في العمل على المشروع ليتمكنوا من استخراج عشرات الآلاف من الصفحات من البيانات من أي تنسيق PDF تقريبًا. ويمكن استخدامه من سطر الأوامر ، ولكن هناك أيضًا واجهة مستخدم رسومية متاحة للراحة. لذلك نشجعك من LxA على استخدام بديل Tabula (على الرغم من أنه يقتصر على وظائف لاستخراج البيانات أكثر من Textricator المرن) والبرامج الأخرى المشابهة له لاستخراج البيانات.


اترك تعليقك

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها ب *

*

*

  1. المسؤول عن البيانات: AB Internet Networks 2008 SL
  2. الغرض من البيانات: التحكم في الرسائل الاقتحامية ، وإدارة التعليقات.
  3. الشرعية: موافقتك
  4. توصيل البيانات: لن يتم إرسال البيانات إلى أطراف ثالثة إلا بموجب التزام قانوني.
  5. تخزين البيانات: قاعدة البيانات التي تستضيفها شركة Occentus Networks (الاتحاد الأوروبي)
  6. الحقوق: يمكنك في أي وقت تقييد معلوماتك واستعادتها وحذفها.