DuckDB 0.6.0 a fost lansat acum și include îmbunătățiri la scrierea pe disc, încărcarea datelor și multe altele.

DuckDB, SGBD utilizat de Google, Facebook și Airbnb

DuckDB este un sistem de gestionare a bazelor de date SQL OLAP în devenire

A fost anunțată lansarea noii versiuni a SGBD DuckDB 0.6.0, versiune în care compresia datelor a fost îmbunătățită, pe lângă faptul că au fost adăugate noi funcții, precum și îmbunătățiri de stocare, printre altele.

DuckDB combina proprietățile SQLite cum ar fi compactitatea, capacitatea de a se conecta sub forma unei biblioteci integrate, stocarea bazei de date într-un singur fișier și o interfață CLI convenabilă, cu instrumente și optimizări pentru efectuarea de interogări analitice care acoperă o parte semnificativă a datelor stocate, de exemplu , care efectuează agregarea tuturor conținutului tabelului sau îmbină mai multe tabele mari.

Principalele caracteristici noi ale DuckDB 0.6.0

În această nouă versiune care este prezentată, se evidențiază că au continuat lucrările de îmbunătățire a formatului de stocare, Pe lângă asta a fost implementat un mod de scriere pe disc, unde atunci când un set mare de date este încărcat într-o tranzacție, datele sunt comprimate și transmise în flux într-un fișier din baza de date fără a aștepta comanda COMMIT pentru a comite tranzacția.

O altă dintre modificările care iese în evidență în noua versiune este aceea a adăugat suport pentru încărcarea paralelă a datelor în tabele separate, care poate crește semnificativ viteza de încărcare pe sistemele multicore. De exemplu, în versiunea veche, încărcarea unei baze de date cu 150 de milioane de rânduri pe un procesor cu 10 nuclee a durat 91 de secunde, iar în versiunea nouă, această operație durează 17 secunde. Există două moduri de încărcare paralelă: cu păstrarea comenzii de înregistrare și fără păstrarea comenzii.

Pentru compresia datelor, se folosește algoritmul FSST (Static Symbols Quick Table), care vă permite să împachetați date în rânduri folosind un dicționar comun de potriviri de tip. Aplicarea noului algoritm a permis reducerea dimensiunii bazei de date de testare de la 761 MB la 251 MB.

Pentru comprimarea numerelor (DOUBLE și FLOAT) sunt propuși algoritmii Chimp și Patas. În comparație cu algoritmul anterior Gorilla, Chimp oferă un nivel mai ridicat de compresie și o decompresie mai rapidă. Algoritmul Patas rămâne în urma lui Chimp în ceea ce privește compresia, dar este semnificativ mai rapid în ceea ce privește viteza de decompresie, ceea ce este aproximativ la fel cu citirea datelor necomprimate.

De asemenea, se remarcă faptul că a fost adăugat o capacitate experimentală de a încărca date din fișiere CSV în mai multe fluxuri paralele (SET experimental_parallel_csv=true), ceea ce reduce semnificativ timpul de încărcare pentru fișierele CSV mari. De exemplu, când opțiunea a fost activată, timpul de descărcare pentru un fișier CSV de 720 MB a fost redus de la 3,5 secunde la 0,6 secunde.

Dintre celelalte schimbări care se deosebesc de această nouă versiune:

  • A fost implementată posibilitatea executării paralele a operațiunilor de creare și gestionare a indicilor.
  • SQL oferă posibilitatea de a forma interogări care încep cu cuvântul „FROM” în loc de „SELECT”. În acest caz, se presupune că interogarea începe cu „SELECT *”.
  • S-a adăugat suport pentru expresia „COLUMNS” în SQL, permițându-vă să efectuați o operație pe mai multe coloane fără a duplica expresia.
  • Consum optimizat de memorie. În mod implicit, pe platforma Linux, biblioteca jemalloc este utilizată pentru gestionarea memoriei. Performanța îmbunătățită semnificativ a operațiunilor de îmbinare hash atunci când memoria este limitată.
  • S-a adăugat modul de ieșire „.mode duckbox” la CLI, eliminând coloanele centrale pe baza lățimii liniilor ferestrei terminalului). Cu parametrul „.maxrows X”, puteți limita și numărul de rânduri de ieșire.
  • CLI oferă completare automată a intrărilor în funcție de context (se completează introducerea cuvintelor cheie, nume de tabel, funcții, nume de coloane și nume de fișiere).
  • CLI este activat în mod implicit pentru a afișa un indicator de progres al interogării.

in sfarsit daca esti interesat să afle mai multe despre asta, puteți verifica detaliile În următorul link.


Lasă comentariul tău

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *

*

*

  1. Responsabil pentru date: AB Internet Networks 2008 SL
  2. Scopul datelor: Control SPAM, gestionarea comentariilor.
  3. Legitimare: consimțământul dvs.
  4. Comunicarea datelor: datele nu vor fi comunicate terților decât prin obligație legală.
  5. Stocarea datelor: bază de date găzduită de Occentus Networks (UE)
  6. Drepturi: în orice moment vă puteți limita, recupera și șterge informațiile.