DuckDB 0.6.0 ja va ser alliberat i inclou millores d'escriptura al disc, càrrega de dades i més

DuckDB, el DBMS utilitzat per Google, Facebook i Airbnb

DuckDB és un sistema de gestió de base de dades SQL OLAP en procés

Es va donar a conèixer el llançament de la nova versió del DBMS DuckDB 0.6.0, Versió en la qual s'ha millorat la comprensió de dades, a més que s'han afegit noves funcions, així com també millores en l'emmagatzematge, entre altres coses més.

DuckDB combina propietats de SQLite com la compacitat, la capacitat de connectar-se en forma de biblioteca integrada, l'emmagatzematge de la base de dades en un sol arxiu i una interfície CLI convenient, amb eines i optimitzacions per realitzar consultes analítiques cobrint una part significativa de les dades emmagatzemades, per exemple , que realitzen l'agregació de tot el contingut de les taules o fusionen diverses taules grans.

Principals novetats de DuckDB 0.6.0

En aquesta nova versió que es presenta es destaca que es va continuar treballant en la millora del format d'emmagatzematge, a més de que s'ha implementat un mode d'escriptura de disc, on quan es carrega un gran conjunt de dades en una transacció, les dades es comprimeixen i es transmeten a un fitxer des de la base de dades sense esperar que l'ordre COMMIT confirmi la transacció.

Un altre dels canvis que es destaca de la nova versió, és que es va afegir suport per a la càrrega paral·lela de dades en taules separades, el que pot augmentar significativament la velocitat de càrrega en sistemes multinucli. Per exemple, a la versió anterior, carregar una base de dades amb 150 milions de files en una CPU de 10 nuclis va prendre 91 segons, i en la nova versió, aquesta operació pren 17 segons. Hi ha dues maneres de càrrega paral·lela: amb conservació de l'ordre dels registres i sense conservació de l'ordre.

Per a la compressió de dades, es fa servir l'algorisme FSST (taula ràpida de símbols estàtics), que us permet empaquetar dades dins de files utilitzant un diccionari comú de coincidències de tipus. L'aplicació del nou algorisme va permetre reduir la mida de la base de dades de prova de 761 MB a 251 MB.

Per comprimir números (DOUBLE i FLOAT) es proposen els algorismes Chimp i Patas. En comparació amb l'algorisme Gorillas anterior, Chimp proporciona un major nivell de compressió i una descompressió més ràpida. L'algorisme Patas va al darrere de Chimp en termes de compressió, però és significativament més ràpid en la velocitat de descompressió, que és gairebé el mateix que llegir dades sense comprimir.

També es destaca que es va agregar una capacitat experimental per carregar dades de fitxers CSV en diversos fluxos paral·lels (SET experimental_parallel_csv=true), cosa que redueix significativament el temps de càrrega per a fitxers CSV grans. Per exemple, quan l'opció estava habilitada, el temps de descàrrega d'un fitxer CSV de 720 MB es va reduir de 3,5 a 0,6 segons.

Dels altres canvis que es destaquen d'aquesta nova versió:

  • S‟ha implementat la possibilitat d‟execució paral·lela d‟operacions de creació i gestió d‟índexs.
  • SQL brinda la capacitat de formar consultes que comencen amb la paraula FROM en lloc de SELECT. En aquest cas, se suposa que la consulta comença amb SELECT *.
  • S'ha afegit suport per a l'expressió «COLUMNES» en SQL, cosa que us permet fer una operació en diverses columnes sense duplicar l'expressió.
  • Consum de memòria optimitzat. Per defecte a la plataforma Linux, la biblioteca jemalloc s'utilitza per gestionar la memòria. Rendiment significativament millorat de les operacions de fusió de hash quan la memòria és limitada.
  • S'ha afegit el mode de sortida ".mode duckbox" a la CLI, descartant les columnes centrals en funció de les línies d'amplada de la finestra del terminal). Amb el paràmetre .maxrows X, també podeu limitar el nombre de files de sortida.
  • La CLI proporciona autocompletat d'entrada tenint en compte el context (es completa l'entrada de paraules clau, noms de taules, funcions, noms de columnes i noms de fitxers).
  • La CLI està habilitada per defecte per mostrar un indicador de progrés de consulta.

Finalment si estàs interessat a poder conèixer més sobre això, Pots consultar els detalls en el següent enllaç.


Sigues el primer a comentar

Deixa el teu comentari

La seva adreça de correu electrònic no es publicarà. Els camps obligatoris estan marcats amb *

*

*

  1. Responsable de les dades: AB Internet Networks 2008 SL
  2. Finalitat de les dades: Controlar l'SPAM, gestió de comentaris.
  3. Legitimació: El teu consentiment
  4. Comunicació de les dades: No es comunicaran les dades a tercers excepte per obligació legal.
  5. Emmagatzematge de les dades: Base de dades allotjada en Occentus Networks (UE)
  6. Drets: En qualsevol moment pots limitar, recuperar i esborrar la teva informació.