DuckDB, een open source DB die wordt gebruikt door Google, Facebook en Airbnb

DuckDB, het DBMS dat wordt gebruikt door Google, Facebook en Airbnb

DuckDB is een SQL OLAP-databasebeheersysteem in wording

onlangs de release van de nieuwe versie van DuckDB 0.5.0 is aangekondigd, een in ontwikkeling zijnd analysedatabasebeheersysteem (DBMS) dat wordt gebruikt door Google, Facebook en Airbnb.

DuckDB is een krachtig analytisch databasesysteem. Het is ontworpen om snel, betrouwbaar en gebruiksvriendelijk te zijn. DuckDB biedt een rijk dialect van SQL, met ondersteuning die veel verder gaat dan standaard SQL. DuckDB ondersteunt willekeurige en geneste gecorreleerde subquery's, vensterfuncties, sorteringen, complexe typen (arrays, structs) en meer.

Onder de belangrijkste kenmerken vallen de volgende op:

  • Eenvoudige installatie
  • Geïntegreerd: geen serverbeheer
  • Opslagformaat voor één bestand
  • Snelle analytische verwerking
  • Snelle overdracht tussen R/Python en RDBMS
  • Het is niet afhankelijk van een externe staat. Bijvoorbeeld afzonderlijke configuratiebestanden, omgevingsvariabele.
  • Opslagformaat voor één bestand
  • Samenstelbare interface. Vloeiende SQL Programmatische API
  • Volledig ZUUR via MVCC

Over DuckDB 0.5.0

Een van de nieuwigheden is "out of core", die tot doel heeft de problemen op te lossen die zich kunnen voordoen wanneer de gegevens die worden verwerkt groter zijn dan het geheugen door tussenresultaten voor te stellen.

De nieuwe versie maakt gebruik van Adaptive Radix Tree (ART) indexen om beperkingen toe te passen en queryfilters te versnellen. Tot nu toe waren indexen niet persistent, wat leidde tot problemen zoals het verlies van indexinformatie en lange herlaadtijden voor tabellen met beperkte gegevens.

KUNST(ART) het is in wezen een poging om verticale en horizontale compressie toe te passen om compacte indexstructuren te creëren. Intents zijn boomachtige datastructuren, waarbij elk niveau van de boom informatie bevat over een bepaald deel van de dataset. Ze worden meestal geïllustreerd door tekenreeksen.

Het project heeft ook optimalisatie van join-orders toegevoegd, een veelvoorkomend probleem in analytische databases. Hyoun Park, CEO en Chief Analyst bij Amalgam Insights, zei dat DuckDB's differentiatie voortkomt uit het feit dat het een kleine applicatie is die werkt binnen op code gebaseerde workflows om snel grote hoeveelheden gegevens te scannen.

“DuckDB kan vaak rechtstreeks query's uitvoeren op de gegevens zonder tussentijdse verwerking, wat de verwerking verbetert. Vanuit een puur technologisch oogpunt is het enigszins vergelijkbaar met Actian Vector, dat ook een kolomvormige gevectoriseerde OLAP-querybenadering hanteert, hoewel Actian is ontworpen om gegevens op te halen in plaats van aan een proces te werken of een specifieke taak te laden. »

DuckDB Labs geeft advies en ondersteuning. Mede-oprichter en CEO Hannes Mühleisen, die ook de code schreef en het project onderhoudt, zei dat hij werd geïnspireerd door SQLite, de serverloze OLTP-database-engine, waar hij een kans zag voor een vergelijkbare aanpak, maar dan voor analyse.

DuckDB wordt ook vaak gebruikt als onderdeel van een analytics- of managementstack. grotere gegevens. Als iemand bijvoorbeeld een aangepaste applicatie bouwt die gegevens verzamelt en vervolgens een SQL-interface wil maken, moesten ze eerst de gegevens kopiëren en naar een ander systeem verplaatsen, wat synchronisatieproblemen zou kunnen veroorzaken, legde hij uit.

Download en ontvang

Het is belangrijk om te vermelden dat op de startpagina duidelijk staat dat deze niet mag worden gebruikt voor "grote client/server-installaties voor gecentraliseerde bedrijfsgegevensopslag".

Het project werkt aan de release van versie 1.0, waarna het niet meer mogelijk is om wijzigingen aan te brengen. Het werk van de academici van het Centrum voor Wiskunde en Theoretische Informatica Centrum Wiskunde & Informatica in Amsterdam, DuckDB, is geïntegreerd in een hostproces. Het is vermeldenswaard dat er geen DBMS-serversoftware hoeft te worden geïnstalleerd, bijgewerkt of onderhouden.

Het DuckDB Python-pakket kan bijvoorbeeld rechtstreeks query's uitvoeren op gegevens uit de Python-softwarebibliotheek, zonder gegevens te importeren of te kopiëren. DuckDB is geschreven in C++, is gratis en open source onder de MIT-licentie.

U kunt er meer over leren en de installatiehandleiding raadplegen, In de volgende link.


Laat je reactie achter

Uw e-mailadres wordt niet gepubliceerd. Verplichte velden zijn gemarkeerd met *

*

*

  1. Verantwoordelijk voor de gegevens: AB Internet Networks 2008 SL
  2. Doel van de gegevens: Controle SPAM, commentaarbeheer.
  3. Legitimatie: uw toestemming
  4. Mededeling van de gegevens: De gegevens worden niet aan derden meegedeeld, behalve op grond van wettelijke verplichting.
  5. Gegevensopslag: database gehost door Occentus Networks (EU)
  6. Rechten: u kunt uw gegevens op elk moment beperken, herstellen en verwijderen.