Textricator:PDFファイル用の簡単なデータ抽出

Textricatorのロゴ

Textricatorは興味深いツールです あなたが知っておくべきこと。 これはオープンソースであり、プログラミングの知識を必要とせずに、PDFドキュメントから複雑なデータを抽出するために使用されます。 このツールの詳細については、次のURLにアクセスしてください。 公式サイト プロジェクトの。 そこから、Githubにあるツールのコードへの情報とアクセスリンク、およびそのドキュメントが表示されます。

Textricatorはからテキストを抽出できます PDFファイル 構造化データ(CSVまたはJSON)を生成します。 同じ形式の多数のPDFまたは大きなPDFを操作する場合に非常に実用的なものであり、OCRドキュメントでも操作できます。 このツールは非常に見栄えがよく、2018 Code for America Summitで発表され、プログラミングの知識がなくてもこのタイプのデータを抽出したいすべての人を支援することを目的としてMeasures forJusticeによって開発されました。

Textricatorを使用すると、他の選択肢のプログラミングニーズの代わりに、yamlファイルを使用してドキュメントの構造を記述できます。 そのため、テーブルを含むほぼすべてのレイアウトのPDFファイルからデータを抽出し、から複雑なレポートを生成できます。 CrystalReportsなどのツール。 それはとても簡単です、あなたはあなたが集めたいものを注文します、そしてTextricatorはそれを完全に自動的に行います...

その開発者 ジョー・ヘイルとスティーブン・バーン 彼らは過去XNUMX年間、ほぼすべてのPDF形式から数万ページのデータを抽出できるようにするプロジェクトに取り組んできました。 また、コマンドラインから使用できますが、便利なGUIもあります。 したがって、LxAから、このTabulaの代替手段(ただし、柔軟なTextricatorよりもデータを抽出する機能が制限されています)およびそれに類似した他のソフトウェアを使用してデータを抽出することをお勧めします。


コメントを残す

あなたのメールアドレスが公開されることはありません。 必須フィールドには付いています *

*

*

  1. データの責任者:AB Internet Networks 2008 SL
  2. データの目的:SPAMの制御、コメント管理。
  3. 正当化:あなたの同意
  4. データの伝達:法的義務がある場合を除き、データが第三者に伝達されることはありません。
  5. データストレージ:Occentus Networks(EU)がホストするデータベース
  6. 権利:いつでも情報を制限、回復、削除できます。