Textricator : PDF 파일을위한 간편한 데이터 추출기

Textricator 로고

Textricator는 흥미로운 도구입니다. 알고 있어야합니다. 오픈 소스이며 프로그래밍 지식 없이도 PDF 문서에서 복잡한 데이터를 추출하는 데 사용됩니다. 이 도구에 대한 자세한 정보를 알고 싶다면 공식 웹 사이트 프로젝트의. 거기에서 정보를 찾을 수 있으며 설명서와 함께 Github의 도구 코드에 대한 링크에 액세스 할 수 있습니다.

Textricator는 다음에서 텍스트를 추출 할 수 있습니다. PDF 파일 구조화 된 데이터 (CSV 또는 JSON)를 생성합니다. 동일한 형식의 많은 PDF 또는 큰 PDF로 작업 할 때 매우 실용적인 기능이며 OCR 문서에서도 작동 할 수 있습니다. 이 도구는 매우 좋아 보이며, 2018 Code for America Summit에서 발표되었으며 Measures for Justice에서 프로그래밍 지식없이 이러한 유형의 데이터를 추출하려는 모든 사람들을 돕기 위해 개발되었습니다.

다른 대안의 프로그래밍 요구 대신 Textricator를 사용하면 사용자가 yaml 파일을 사용하여 문서의 구조를 설명 할 수 있습니다. 따라서 테이블을 포함한 거의 모든 레이아웃의 PDF 파일에서 데이터를 추출하고 다음에서 복잡한 보고서를 생성 할 수 있습니다. Crystal Reports와 같은 도구. 그것은 간단합니다. 수집하고 싶은 것을 주문하면 Textricator가 완전히 자동으로 수행합니다 ...

개발자 조 헤일과 스티븐 번 그들은 거의 모든 PDF 형식에서 수만 페이지의 데이터를 추출 할 수있는 프로젝트를 위해 지난 XNUMX 년 동안 작업했습니다. 명령 줄에서 사용할 수 있지만 편의를 위해 GUI도 제공됩니다. 따라서 LxA에서이 Tabula 대안 (유연한 Textricator보다 데이터를 추출하는 기능이 더 제한적이지만) 및 데이터 추출을 위해 이와 유사한 기타 소프트웨어를 사용하는 것이 좋습니다.


코멘트를 남겨주세요

귀하의 이메일 주소는 공개되지 않습니다. 필수 필드가 표시되어 있습니다 *

*

*

  1. 데이터 책임자: AB Internet Networks 2008 SL
  2. 데이터의 목적 : 스팸 제어, 댓글 관리.
  3. 합법성 : 귀하의 동의
  4. 데이터 전달 : 법적 의무에 의한 경우를 제외하고 데이터는 제 XNUMX 자에게 전달되지 않습니다.
  5. 데이터 저장소 : Occentus Networks (EU)에서 호스팅하는 데이터베이스
  6. 권리 : 귀하는 언제든지 귀하의 정보를 제한, 복구 및 삭제할 수 있습니다.