Textricator:PDF文件的便捷数据提取器

Textricator徽标

Textricator是一个有趣的工具 你应该知道的。 它是开源的,用于从PDF文档中提取复杂数据,而无需编程知识。 如果您想了解有关此工具的更多信息,可以访问 网络公报 该项目。 在这里,您可以找到信息,还可以访问Github上该工具的代码及其文档的链接。

Textricator可以从中提取文本 PDF文件 并生成结构化数据(CSV或JSON)。 当您处理许多相同格式的PDF或大型PDF时,这是非常实用的,甚至可以在OCR文档上使用。 该工具看起来非常好,已在2018年美国法典峰会上发布,由司法措施开发,旨在帮助所有想要在没有编程知识的情况下提取此类数据的人。

代替其他替代方案的编程需求,Textricator允许用户使用yaml文件描述文档的结构。 因此,您可以从几乎任何布局(包括表格)中的PDF文件中提取数据,并从中生成复杂的报告。 水晶报表之类的工具。 就是这么简单,您订购要收集的东西,Textricator会完全自动执行...

它的开发商 乔·黑尔(Joe Hale)和史蒂芬·伯恩(Stephen Byrne) 他们在过去的两年中一直致力于该项目,以便能够从几乎任何PDF格式提取成千上万的数据。 可以从命令行使用它,但是为了方便起见,还提供了一个GUI。 因此,我们鼓励LxA使用此Tabula替代方法(尽管与灵活的Textricator相比,它在提取数据的功能上受到更多限制)和其他与之相似的软件可以进行数据提取。


发表您的评论

您的电子邮件地址将不会被发表。 必填字段标有 *

*

*

  1. 负责资料:AB Internet Networks 2008 SL
  2. 数据用途:控制垃圾邮件,注释管理。
  3. 合法性:您的同意
  4. 数据通讯:除非有法律义务,否则不会将数据传达给第三方。
  5. 数据存储:Occentus Networks(EU)托管的数据库
  6. 权利:您可以随时限制,恢复和删除您的信息。