DBMS 새 버전 출시 발표 덕디비 0.6.0, 버전 데이터 압축이 개선되었습니다, 새로운 기능이 추가되었다는 사실 외에도 스토리지 개선 등이 있습니다.
덕DB SQLite 속성 결합 압축, 통합 라이브러리 형태로 연결하는 기능, 단일 파일에 데이터베이스 저장 및 편리한 CLI 인터페이스, 예를 들어 저장된 데이터의 상당 부분을 다루는 분석 쿼리를 수행하기 위한 도구 및 최적화, 모든 테이블 내용의 집계를 수행하거나 여러 대형 테이블을 병합합니다.
DuckDB 0.6.0의 주요 신기능
제시된 이 새로운 버전에서는 다음과 같이 강조됩니다. 저장 형식을 개선하기 위한 작업이 계속되었습니다. 그 외에 디스크 쓰기 모드가 구현되었습니다여기서 큰 데이터 세트가 하나의 트랜잭션에 로드되면 COMMIT 명령이 트랜잭션을 커밋할 때까지 기다리지 않고 데이터가 압축되어 데이터베이스에서 파일로 스트리밍됩니다.
새 버전에서 눈에 띄는 또 다른 변경 사항은 별도의 테이블에 데이터를 병렬로 로드하기 위한 지원 추가, 멀티코어 시스템에서 로딩 속도를 크게 높일 수 있습니다. 예를 들어 이전 버전에서는 150코어 CPU에서 10억 91천만 개의 행이 있는 데이터베이스를 로드하는 데 17초가 걸렸고 새 버전에서는 이 작업에 XNUMX초가 걸렸습니다. 병렬 로드에는 레코드 순서 보존이 있는 모드와 순서 보존이 없는 모드의 두 가지가 있습니다.
데이터 압축에는 FSST 알고리즘이 사용됩니다. (Static Symbols Quick Table) 유형 일치의 공통 사전을 사용하여 행 내에서 데이터를 압축할 수 있습니다. 새로운 알고리즘을 적용하여 테스트 데이터베이스의 크기를 761MB에서 251MB로 줄일 수 있었습니다.
숫자를 압축하기 위해(DOUBLE 및 FLOAT) Chimp 및 Patas 알고리즘이 제안됩니다. 이전 Gorillas 알고리즘과 비교하여 Chimp는 더 높은 수준의 압축과 더 빠른 압축 해제를 제공합니다. Patas 알고리즘은 압축 측면에서 Chimp보다 뒤쳐지지만 압축 해제 속도는 훨씬 빠르며 압축되지 않은 데이터를 읽는 것과 거의 같습니다.
가 추가되었다는 점도 주목된다. 여러 병렬 스트림의 CSV 파일에서 데이터를 로드하는 실험적 기능 (SET Experimental_parallel_csv=true), 대용량 CSV 파일의 로드 시간을 크게 줄입니다. 예를 들어 옵션이 활성화되면 720MB CSV 파일의 다운로드 시간이 3,5초에서 0,6초로 단축되었습니다.
다른 변경 사항 중 이 새 버전에서 눈에 띄는 :
- 인덱스 생성 및 관리 작업의 병렬 실행 가능성이 구현되었습니다.
- SQL은 "SELECT" 대신 "FROM"이라는 단어로 시작하는 쿼리를 구성하는 기능을 제공합니다. 이 경우 쿼리는 "SELECT *"로 시작하는 것으로 가정합니다.
- SQL에서 "COLUMNS" 표현식에 대한 지원이 추가되어 표현식을 복제하지 않고 여러 열에서 작업을 수행할 수 있습니다.
- 최적화된 메모리 소비. 기본적으로 Linux 플랫폼에서는 jemalloc 라이브러리가 메모리 관리에 사용됩니다. 메모리가 제한된 경우 해시 병합 작업의 성능이 크게 향상되었습니다.
- ".mode duckbox" 출력 모드를 CLI에 추가하여 터미널 창의 라인 너비에 따라 가운데 열을 버립니다. ".maxrows X" 매개변수를 사용하여 출력 행 수를 제한할 수도 있습니다.
- CLI는 컨텍스트 인식 입력 자동 완성(키워드, 테이블 이름, 함수, 열 이름 및 파일 이름 입력 완료)을 제공합니다.
- CLI는 기본적으로 쿼리 진행 표시기를 표시하도록 활성화되어 있습니다.
마침내 당신이 있다면 그것에 대해 더 알고 싶어, 당신은 세부 사항을 확인할 수 있습니다 다음 링크에서.