Textricator: простой инструмент для извлечения данных из файлов PDF

Логотип Textricator

Textricator - интересный инструмент что вы должны знать. Это открытый исходный код, который используется для извлечения сложных данных из документов PDF без необходимости знания программирования. Если вы хотите узнать больше об этом инструменте, вы можете получить доступ к Ваш официальный проекта. Оттуда вы найдете информацию, а также доступ к ссылкам на код инструмента на Github вместе с его документацией.

Textricator может извлекать текст из PDF файлы и генерировать структурированные данные (CSV или JSON). Что-то очень практичное при работе с множеством PDF-файлов одного и того же формата или большим PDF-файлом, и оно может даже работать с документами OCR. Инструмент выглядит очень хорошо, он был представлен на саммите Code for America в 2018 году и был разработан компанией Measures for Justice с целью помочь всем тем, кто хочет извлекать данные такого типа без знания программирования.

Вместо необходимости программирования других альтернатив Textricator позволяет пользователю описывать структуру документа с помощью файла yaml. Таким образом, вы можете извлекать данные из файлов PDF практически в любом макете, включая таблицы, и создавать сложные отчеты из такие инструменты, как Crystal Reports. Это так просто: вы заказываете то, что хотите собрать, и Textricator делает это полностью автоматически ...

Его разработчики Джо Хейл и Стивен Бирн Последние два года они работали над проектом, чтобы получить возможность извлекать десятки тысяч страниц данных практически из любого формата PDF. Его можно использовать из командной строки, но для удобства доступен также графический интерфейс. Поэтому мы рекомендуем вам из LxA использовать эту альтернативу Tabula (хотя она более ограничена в функциях для извлечения данных, чем гибкий Textricator) и другое подобное ей программное обеспечение для извлечения данных.


Содержание статьи соответствует нашим принципам редакционная этика. Чтобы сообщить об ошибке, нажмите здесь.

Будьте первым, чтобы комментировать

Оставьте свой комментарий

Ваш электронный адрес не будет опубликован.

*

*

  1. Ответственный за данные: AB Internet Networks 2008 SL
  2. Назначение данных: контроль спама, управление комментариями.
  3. Легитимация: ваше согласие
  4. Передача данных: данные не будут переданы третьим лицам, кроме как по закону.
  5. Хранение данных: база данных, размещенная в Occentus Networks (ЕС)
  6. Права: в любое время вы можете ограничить, восстановить и удалить свою информацию.

bool (истина)