DuckDB, una DB open source utilitzada per Google, Facebook i Airbnb

DuckDB, el DBMS utilitzat per Google, Facebook i Airbnb

DuckDB és un sistema de gestió de base de dades SQL OLAP en procés

fa poc es va donar a conèixer el llançament de la nova versió de DuckDB 0.5.0, el qual és un sistema de gestió de bases de dades analítiques (DBMS) en desenvolupament utilitzat per Google, Facebook i Airbnb.

DuckDB és un sistema de base de dades analític dalt rendiment. Està dissenyat per ser ràpid, fiable i fàcil dutilitzar. DuckDB proporciona un ric dialecte de SQL, amb suport molt més enllà de l'SQL bàsic. DuckDB admet subconsultes correlacionades arbitràries i imbricades, funcions de finestra, intercalacions, tipus complexos (matrius, estructures) i més.

Entre les seves característiques principals es destaquen les següents:

  • instal·lació simple
  • Integrat: sense gestió de servidor
  • Format d'emmagatzematge d'un fitxer
  • Processament analític ràpid
  • Transferència ràpida entre R/Python i RDBMS
  • No depèn de cap estat extern. Per exemple, fitxers de configuració separats, variable d'entorn.
  • Format d'emmagatzematge d'un fitxer
  • Interfície componible. API programàtica fluida de SQL
  • Totalment ACID a través de MVCC

Sobre DuckDB 0.5.0

Entre les novetats hi ha «out of core», que pretén solucionar els problemes que poden sorgir quan les dades que es processen són més grans que la memòria proposant resultats intermedis.

La nova versió utilitza índexs Adaptive Radix Tree (ART) per aplicar restriccions i accelerar els filtres de consulta. Fins ara, els índexs no eren persistents, cosa que generava problemes com la pèrdua d'informació d'indexació i temps de recàrrega elevats per a taules amb restriccions de dades.

ART és, en essència, un intent que apliquen compressió vertical i horitzontal per crear estructures compactes d'índex. Els intents són estructures de dades en forma d'arbre on cada nivell de l'arbre conté informació sobre alguna part del conjunt de dades. En general, s'il·lustren mitjançant cadenes de caràcters.

El projecte també va afegir l'optimització de l'ordre d'unió, un problema comú a les bases de dades analítiques. Hyoun Park, CEO i analista en cap d'Amalgam Insights, va dir que la diferenciació de DuckDB prové del fet que és una aplicació petita que funciona dins de fluxos de treball basats en codi per escanejar ràpidament grans magatzems de dades.

“DuckDB sovint pot executar consultes directament a les dades sense processament intermedi, cosa que millora el processament. Des d'un punt de vista purament tecnològic, és similar a Actian Vector, que també adopta un enfocament de consulta OLAP vectoritzat en columnes, encara que Actian està dissenyat per portar dades en lloc de treballar en un procés o carregar un treball específic. »

DuckDB Labs ofereix assessorament i suport. El cofundador i director executiu Hannes Mühleisen, que també va coescriure el codi i manté el projecte, va dir que es va inspirar en SQLite, el motor de base de dades OLTP sense servidor, on va veure l'oportunitat d'un enfocament semblant, però per anàlisi.

DuckDB també es fa servir sovint com a part d'una pila d'anàlisi o administració de dades més gran. Per exemple, si algú construeix una aplicació personalitzada que recopila dades i després vol crear una interfície SQL, primer va haver de copiar les dades i moure'ls a un altre sistema, cosa que podria causar problemes de sincronització, va explicar ell.

Descarregar i obtenir

És important esmentar que la pàgina inicial estableix clarament que no s'ha d'usar per a «grans instal·lacions de client/servidor per a emmagatzematge de dades empresarial centralitzat».

El projecte està treballant en el llançament de la versió 1.0, després de tot això ja no serà possible realitzar modificacions. Els treballs dels acadèmics del Centre de Matemàtiques i Ciències de la Computació Teòrica Centrum Wiskunde & Informatica d'Amsterdam, DuckDB està integrat en un procés de host, cal destacar que no hi ha programari de servidor DBMS per instal·lar, actualitzar o mantenir.

Per exemple, el paquet Python de DuckDB pot executar consultes directament a dades de la biblioteca de programari de Python, sense importar ni copiar dades. DuckDB està escrit a C++, és gratuït i de codi obert sota la llicència MIT.

Pots conèixer més sobre això així com consultar el manual d'instal·lació, en el següent enllaç.


Deixa el teu comentari

La seva adreça de correu electrònic no es publicarà. Els camps obligatoris estan marcats amb *

*

*

  1. Responsable de les dades: AB Internet Networks 2008 SL
  2. Finalitat de les dades: Controlar l'SPAM, gestió de comentaris.
  3. Legitimació: El teu consentiment
  4. Comunicació de les dades: No es comunicaran les dades a tercers excepte per obligació legal.
  5. Emmagatzematge de les dades: Base de dades allotjada en Occentus Networks (UE)
  6. Drets: En qualsevol moment pots limitar, recuperar i esborrar la teva informació.