Textricator:PDF文件的便捷數據提取器

Textricator徽標

Textricator是一個有趣的工具 你應該知道的。 它是開源的,用於從PDF文檔中提取複雜數據,而無需編程知識。 如果您想了解有關此工具的更多信息,可以訪問 官方網站 該項目的。 在這裡,您可以找到信息,還可以訪問Github上該工具的代碼及其文檔的鏈接。

Textricator可以從中提取文本 PDF文件 並生成結構化數據(CSV或JSON)。 當您處理許多相同格式的PDF或大型PDF時,這是非常實用的,甚至可以在OCR文檔上使用。 該工具看起來非常好,已在2018年美國法典峰會上發布,由司法措施開發,旨在幫助所有想要在沒有編程知識的情況下提取此類數據的人。

代替其他替代方案的編程需求,Textricator允許用戶使用yaml文件描述文檔的結構。 因此,您可以從幾乎任何佈局(包括表格)中的PDF文件中提取數據,並從中生成複雜的報告。 水晶報表之類的工具。 就是這麼簡單,您訂購要收集的東西,Textricator會完全自動執行它...

它的開發商 喬·黑爾(Joe Hale)和史蒂芬·伯恩(Stephen Byrne) 他們在過去的兩年中一直致力於該項目,以便能夠從幾乎任何PDF格式提取成千上萬的數據。 可以從命令行使用它,但是為了方便起見,還提供了一個GUI。 因此,我們建議您從LxA使用此Tabula替代方法(儘管與靈活的Textricator相比,它在提取數據的功能上受到更多限制)和其他與之相似的軟件可以進行數據提取。


發表您的評論

您的電子郵件地址將不會被發表。 必填字段標有 *

*

*

  1. 負責資料:AB Internet Networks 2008 SL
  2. 數據用途:控制垃圾郵件,註釋管理。
  3. 合法性:您的同意
  4. 數據通訊:除非有法律義務,否則不會將數據傳達給第三方。
  5. 數據存儲:Occentus Networks(EU)託管的數據庫
  6. 權利:您可以隨時限制,恢復和刪除您的信息。