Textricator: một công cụ giải nén dữ liệu dễ dàng cho các tệp PDF

Biểu trưng họa tiết

Textricator là một công cụ thú vị mà bạn nên biết. Nó là mã nguồn mở và được sử dụng để trích xuất dữ liệu phức tạp từ các tài liệu PDF mà không cần kiến ​​thức về lập trình. Nếu bạn muốn biết thêm thông tin về công cụ này, bạn có thể truy cập trang web chính thức của dự án. Từ đó, bạn sẽ tìm thấy thông tin và cũng có thể truy cập các liên kết đến mã của công cụ trên Github, cùng với tài liệu của nó.

Textricator có thể trích xuất văn bản từ Tệp PDF và tạo dữ liệu có cấu trúc (CSV hoặc JSON). Một cái gì đó rất thiết thực khi bạn đang làm việc với nhiều tệp PDF có cùng định dạng hoặc một tệp PDF lớn và nó thậm chí có thể hoạt động trên các tài liệu OCR. Công cụ này có vẻ rất tốt và đã được trình bày tại Hội nghị thượng đỉnh Code for America 2018, và được phát triển bởi Measures for Justice với mục đích giúp tất cả những ai muốn trích xuất loại dữ liệu này mà không có kiến ​​thức về lập trình.

Thay vì nhu cầu lập trình của các lựa chọn thay thế khác, Textricator cho phép người dùng mô tả cấu trúc của tài liệu bằng cách sử dụng tệp yaml. Và vì vậy, bạn có thể trích xuất dữ liệu từ các tệp PDF ở hầu hết mọi bố cục, bao gồm các bảng và tạo các báo cáo phức tạp từ các công cụ như Crystal Reports. Thật đơn giản, bạn đặt hàng những gì bạn muốn thu thập và Textricator thực hiện điều đó hoàn toàn tự động ...

Các nhà phát triển của nó Joe Hale và Stephen Byrne Họ đã dành hai năm qua để thực hiện dự án để có thể trích xuất hàng chục nghìn trang dữ liệu từ hầu hết mọi định dạng PDF. Và nó có thể được sử dụng từ dòng lệnh, nhưng cũng có sẵn GUI để thuận tiện. Vì vậy, chúng tôi khuyến khích bạn từ LxA sử dụng thay thế Tabula này (mặc dù nó bị hạn chế hơn về chức năng trích xuất dữ liệu so với Textricator linh hoạt) và các phần mềm khác tương tự như nó để trích xuất dữ liệu.


Để lại bình luận của bạn

địa chỉ email của bạn sẽ không được công bố. Các trường bắt buộc được đánh dấu bằng *

*

*

  1. Chịu trách nhiệm về dữ liệu: AB Internet Networks 2008 SL
  2. Mục đích của dữ liệu: Kiểm soát SPAM, quản lý bình luận.
  3. Hợp pháp: Sự đồng ý của bạn
  4. Truyền thông dữ liệu: Dữ liệu sẽ không được thông báo cho các bên thứ ba trừ khi có nghĩa vụ pháp lý.
  5. Lưu trữ dữ liệu: Cơ sở dữ liệu do Occentus Networks (EU) lưu trữ
  6. Quyền: Bất cứ lúc nào bạn có thể giới hạn, khôi phục và xóa thông tin của mình.