Textricator是一個有趣的工具 你應該知道的。 它是開源的,用於從PDF文檔中提取複雜數據,而無需編程知識。 如果您想了解有關此工具的更多信息,可以訪問 官方網站 該項目的。 在這裡,您可以找到信息,還可以訪問Github上該工具的代碼及其文檔的鏈接。
Textricator可以從中提取文本 PDF文件 並生成結構化數據(CSV或JSON)。 當您處理許多相同格式的PDF或大型PDF時,這是非常實用的,甚至可以在OCR文檔上使用。 該工具看起來非常好,已在2018年美國法典峰會上發布,由司法措施開發,旨在幫助所有想要在沒有編程知識的情況下提取此類數據的人。
代替其他替代方案的編程需求,Textricator允許用戶使用yaml文件描述文檔的結構。 因此,您可以從幾乎任何佈局(包括表格)中的PDF文件中提取數據,並從中生成複雜的報告。 水晶報表之類的工具。 就是這麼簡單,您訂購要收集的東西,Textricator會完全自動執行它...
它的開發商 喬·黑爾(Joe Hale)和史蒂芬·伯恩(Stephen Byrne) 他們在過去的兩年中一直致力於該項目,以便能夠從幾乎任何PDF格式提取成千上萬的數據。 可以從命令行使用它,但是為了方便起見,還提供了一個GUI。 因此,我們建議您從LxA使用此Tabula替代方法(儘管與靈活的Textricator相比,它在提取數據的功能上受到更多限制)和其他與之相似的軟件可以進行數據提取。