Textricator: PDF ファイル用の簡単なデータ抽出ツール

Textricatorは興味深いツールです あなたが知っておくべきこと。これはオープンソースであり、プログラミングの知識を必要とせずに、PDFドキュメントから複雑なデータを抽出するために使用されます。このツールの詳細については、次のURLにアクセスしてください。公式サイトプロジェクトの。そこから、Githubにあるツールのコードへの情報とアクセスリンク、およびそのドキュメントが表示されます。

Textricatorはからテキストを抽出できます PDFファイル 構造化データ（CSVまたはJSON）を生成します。同じ形式の多数のPDFまたは大きなPDFを操作する場合に非常に実用的なものであり、OCRドキュメントでも操作できます。このツールは非常に見栄えがよく、2018 Code for America Summitで発表され、プログラミングの知識がなくてもこのタイプのデータを抽出したいすべての人を支援することを目的としてMeasures forJusticeによって開発されました。

Textricatorを使用すると、他の選択肢のプログラミングニーズの代わりに、yamlファイルを使用してドキュメントの構造を記述できます。そのため、テーブルを含むほぼすべてのレイアウトのPDFファイルからデータを抽出し、から複雑なレポートを生成できます。 CrystalReportsなどのツール。それはとても簡単です、あなたはあなたが集めたいものを注文します、そしてTextricatorはそれを完全に自動的に行います...

その開発者 ジョー・ヘイルとスティーブン・バーン 彼らは過去XNUMX年間、ほぼすべてのPDF形式から数万ページのデータを抽出できるようにするプロジェクトに取り組んできました。また、コマンドラインから使用できますが、便利なGUIもあります。したがって、LxAから、このTabulaの代替手段（ただし、柔軟なTextricatorよりもデータを抽出する機能が制限されています）およびそれに類似した他のソフトウェアを使用してデータを抽出することをお勧めします。

LinuxAdictos

Textricator：PDFファイル用の簡単なデータ抽出

コメントを残す返信をキャンセル

コメントを残す 返信をキャンセル

コメントを残す返信をキャンセル