Textricator：一个简单的 PDF 文件数据提取器

Textricator是一个有趣的工具 你应该知道的。它是开源的，用于从PDF文档中提取复杂数据，而无需编程知识。如果您想了解有关此工具的更多信息，可以访问网络公报该项目。在这里，您可以找到信息，还可以访问Github上该工具的代码及其文档的链接。

Textricator可以从中提取文本 PDF文件 并生成结构化数据（CSV或JSON）。当您处理许多相同格式的PDF或大型PDF时，这是非常实用的，甚至可以在OCR文档上使用。该工具看起来非常好，已在2018年美国法典峰会上发布，由司法措施开发，旨在帮助所有想要在没有编程知识的情况下提取此类数据的人。

代替其他替代方案的编程需求，Textricator允许用户使用yaml文件描述文档的结构。因此，您可以从几乎任何布局（包括表格）中的PDF文件中提取数据，并从中生成复杂的报告。 水晶报表之类的工具。就是这么简单，您订购要收集的东西，Textricator会完全自动执行...

它的开发商 乔·黑尔（Joe Hale）和史蒂芬·伯恩（Stephen Byrne） 他们在过去的两年中一直致力于该项目，以便能够从几乎任何PDF格式提取成千上万的数据。可以从命令行使用它，但是为了方便起见，还提供了一个GUI。因此，我们鼓励LxA使用此Tabula替代方法（尽管与灵活的Textricator相比，它在提取数据的功能上受到更多限制）和其他与之相似的软件可以进行数据提取。

LinuxAdictos

Textricator：PDF文件的便捷数据提取器

发表您的评论取消回复

发表您的评论 取消回复

发表您的评论取消回复