Textricatorは興味深いツールです あなたが知っておくべきこと。 これはオープンソースであり、プログラミングの知識を必要とせずに、PDFドキュメントから複雑なデータを抽出するために使用されます。 このツールの詳細については、次のURLにアクセスしてください。 公式サイト プロジェクトの。 そこから、Githubにあるツールのコードへの情報とアクセスリンク、およびそのドキュメントが表示されます。
Textricatorはからテキストを抽出できます PDFファイル 構造化データ(CSVまたはJSON)を生成します。 同じ形式の多数のPDFまたは大きなPDFを操作する場合に非常に実用的なものであり、OCRドキュメントでも操作できます。 このツールは非常に見栄えがよく、2018 Code for America Summitで発表され、プログラミングの知識がなくてもこのタイプのデータを抽出したいすべての人を支援することを目的としてMeasures forJusticeによって開発されました。
Textricatorを使用すると、他の選択肢のプログラミングニーズの代わりに、yamlファイルを使用してドキュメントの構造を記述できます。 そのため、テーブルを含むほぼすべてのレイアウトのPDFファイルからデータを抽出し、から複雑なレポートを生成できます。 CrystalReportsなどのツール。 それはとても簡単です、あなたはあなたが集めたいものを注文します、そしてTextricatorはそれを完全に自動的に行います...
その開発者 ジョー・ヘイルとスティーブン・バーン 彼らは過去XNUMX年間、ほぼすべてのPDF形式から数万ページのデータを抽出できるようにするプロジェクトに取り組んできました。 また、コマンドラインから使用できますが、便利なGUIもあります。 したがって、LxAから、このTabulaの代替手段(ただし、柔軟なTextricatorよりもデータを抽出する機能が制限されています)およびそれに類似した他のソフトウェアを使用してデータを抽出することをお勧めします。