Textricator：一個簡單的 PDF 檔案資料擷取器

Textricator是一個有趣的工具 你應該知道的。它是開源的，用於從PDF文檔中提取複雜數據，而無需編程知識。如果您想了解有關此工具的更多信息，可以訪問官方網站該項目的。在這裡，您可以找到信息，還可以訪問Github上該工具的代碼及其文檔的鏈接。

Textricator可以從中提取文本 PDF文件 並生成結構化數據（CSV或JSON）。當您處理許多相同格式的PDF或大型PDF時，這是非常實用的，甚至可以在OCR文檔上使用。該工具看起來非常好，已在2018年美國法典峰會上發布，由司法措施開發，旨在幫助所有想要在沒有編程知識的情況下提取此類數據的人。

代替其他替代方案的編程需求，Textricator允許用戶使用yaml文件描述文檔的結構。因此，您可以從幾乎任何佈局（包括表格）中的PDF文件中提取數據，並從中生成複雜的報告。 水晶報表之類的工具。就是這麼簡單，您訂購要收集的東西，Textricator會完全自動執行它...

它的開發商 喬·黑爾（Joe Hale）和史蒂芬·伯恩（Stephen Byrne） 他們在過去的兩年中一直致力於該項目，以便能夠從幾乎任何PDF格式提取成千上萬的數據。可以從命令行使用它，但是為了方便起見，還提供了一個GUI。因此，我們建議您從LxA使用此Tabula替代方法（儘管與靈活的Textricator相比，它在提取數據的功能上受到更多限制）和其他與之相似的軟件可以進行數據提取。

LinuxAdictos

Textricator：PDF文件的便捷數據提取器

發表您的評論取消回复

發表您的評論 取消回复

發表您的評論取消回复