DuckDB, eine Open-Source-DB, die von Google, Facebook und Airbnb verwendet wird

DuckDB, das von Google, Facebook und Airbnb verwendete DBMS

DuckDB ist ein in der Entwicklung befindliches SQL OLAP-Datenbankverwaltungssystem

Vor kurzem die Veröffentlichung der neuen Version von DuckDB 0.5.0 wurde angekündigt, ein sich entwickelndes Analysedatenbank-Managementsystem (DBMS), das von Google, Facebook und Airbnb verwendet wird.

Duckdb ist ein leistungsstarkes analytisches Datenbanksystem. Es ist so konzipiert, dass es schnell, zuverlässig und einfach zu bedienen ist. DuckDB bietet einen reichhaltigen SQL-Dialekt mit Unterstützung, die weit über grundlegendes SQL hinausgeht. DuckDB unterstützt beliebige und verschachtelte korrelierte Unterabfragen, Fensterfunktionen, Sortierungen, komplexe Typen (Arrays, Strukturen) und mehr.

Unter seinen Hauptmerkmalen sind folgende hervorzuheben:

  • Instalación einfach
  • Integriert: keine Serververwaltung
  • Speicherformat für einzelne Dateien
  • Schnelle analytische Verarbeitung
  • Schnelle Übertragung zwischen R/Python und RDBMS
  • Sie ist von keinem äußeren Zustand abhängig. Beispielsweise separate Konfigurationsdateien, Umgebungsvariable.
  • Speicherformat für einzelne Dateien
  • Zusammensetzbare Schnittstelle. Programmatische Fluent SQL-API
  • Vollständig ACID über MVCC

Über DuckDB 0.5.0

Zu den Neuheiten gehört "Out of Core", das darauf abzielt, die Probleme zu lösen, die auftreten können, wenn die verarbeiteten Daten größer als der Speicher sind, indem Zwischenergebnisse vorgeschlagen werden.

Die neue Version verwendet Adaptive Radix Tree (ART)-Indizes um Einschränkungen anzuwenden und Abfragefilter zu beschleunigen. Bisher waren Indizes nicht persistent, was zu Problemen wie dem Verlust von Indexinformationen und langen Neuladezeiten für datenbeschränkte Tabellen führte.

ART - Kunst Es ist im Wesentlichen ein Versuch, vertikale und horizontale Komprimierung anzuwenden, um kompakte Indexstrukturen zu erstellen. Absichten sind baumartige Datenstrukturen, bei denen jede Ebene des Baums Informationen über einen Teil des Datensatzes enthält. Sie werden normalerweise durch Zeichenfolgen dargestellt.

Das Projekt fügte auch die Optimierung der Join-Reihenfolge hinzu, ein häufiges Problem in analytischen Datenbanken. Hyoun Park, CEO und Chief Analyst bei Amalgam Insights, sagte, dass sich DuckDB von der Tatsache abhebt, dass es sich um eine kleine Anwendung handelt, die in codebasierten Workflows arbeitet, um große Datenmengen schnell zu scannen.

„DuckDB kann häufig Abfragen direkt auf die Daten ohne Zwischenverarbeitung ausführen, was die Verarbeitung verbessert. Aus rein technologischer Sicht ähnelt es Actian Vector, das ebenfalls einen spaltenorientierten vektorisierten OLAP-Abfrageansatz verfolgt, obwohl Actian darauf ausgelegt ist, Daten abzurufen, anstatt an einem Prozess zu arbeiten oder einen bestimmten Job zu laden. »

DuckDB Labs bietet Beratung und Unterstützung. Mitbegründer und CEO Hannes Mühleisen, der auch den Code mitgeschrieben hat und das Projekt betreut, sagte, er sei von SQLite, der serverlosen OLTP-Datenbank-Engine, inspiriert worden, wo er eine Möglichkeit für einen ähnlichen Ansatz sah, jedoch für Analysen.

DuckDB wird auch oft als Teil eines Analyse- oder Management-Stacks verwendet. größere Daten. Wenn jemand beispielsweise eine benutzerdefinierte Anwendung erstellt, die Daten sammelt, und dann eine SQL-Schnittstelle erstellen möchte, muss er die Daten zuerst kopieren und auf ein anderes System verschieben, was zu Synchronisationsproblemen führen kann, erklärte er.

Herunterladen und erhalten

Es ist wichtig zu erwähnen, dass auf der Homepage klar steht, dass sie nicht für "große Client/Server-Installationen für die zentrale Speicherung von Unternehmensdaten" verwendet werden sollte.

Das Projekt arbeitet an der Freigabe der Version 1.0, Danach sind keine Änderungen mehr möglich. Die Arbeit der Wissenschaftler des Zentrums für Mathematik und Theoretische Informatik Centrum Wiskunde & Informatica in Amsterdam, DuckDB ist in einen Hostprozess integriert, es ist erwähnenswert, dass keine DBMS-Serversoftware installiert, aktualisiert oder gewartet werden muss.

Beispielsweise kann das DuckDB-Python-Paket Abfragen direkt auf Daten aus der Python-Softwarebibliothek ausführen, ohne Daten zu importieren oder zu kopieren. DuckDB ist in C++ geschrieben, ist kostenlos und Open Source unter der MIT-Lizenz.

Sie können mehr darüber erfahren und das Installationshandbuch konsultieren, im folgenden Link.


Hinterlasse einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert mit *

*

*

  1. Verantwortlich für die Daten: AB Internet Networks 2008 SL
  2. Zweck der Daten: Kontrolle von SPAM, Kommentarverwaltung.
  3. Legitimation: Ihre Zustimmung
  4. Übermittlung der Daten: Die Daten werden nur durch gesetzliche Verpflichtung an Dritte weitergegeben.
  5. Datenspeicherung: Von Occentus Networks (EU) gehostete Datenbank
  6. Rechte: Sie können Ihre Informationen jederzeit einschränken, wiederherstellen und löschen.