DuckDB, baza danych typu open source używana przez Google, Facebook i Airbnb

DuckDB, DBMS używany przez Google, Facebook i Airbnb

DuckDB to powstający system zarządzania bazami danych SQL OLAP

Ostatnio ogłoszono wydanie nowej wersji DuckDB 0.5.0, który jest rozwijającym się systemem zarządzania bazami danych analitycznych (DBMS) używanym przez Google, Facebook i Airbnb.

KaczkaDB to wysokowydajny analityczny system bazodanowy. Został zaprojektowany tak, aby był szybki, niezawodny i łatwy w użyciu. DuckDB zapewnia bogaty dialekt SQL, z obsługą znacznie wykraczającą poza podstawowy SQL. DuckDB obsługuje dowolne i zagnieżdżone skorelowane podzapytania, funkcje okien, sortowanie, typy złożone (tablice, struktury) i inne.

Wśród jego głównych cech wyróżniają się:

  • Prosta instalacja
  • Zintegrowany: brak zarządzania serwerem
  • Format przechowywania jednego pliku
  • Szybkie przetwarzanie analityczne
  • Szybki transfer między R/Pythonem a RDBMS
  • Nie zależy od żadnego stanu zewnętrznego. Na przykład oddzielne pliki konfiguracyjne, zmienna środowiskowa.
  • Format przechowywania jednego pliku
  • Komponowalny interfejs. Programistyczny interfejs API języka SQL
  • W pełni kwasowy przez MVCC

O DuckDB 0.5.0

Wśród nowości jest "out of core", który ma na celu rozwiązanie problemów, które mogą się pojawić, gdy przetwarzane dane są większe niż pamięć, proponując wyniki pośrednie.

Nowa wersja wykorzystuje indeksy Adaptive Radix Tree (ART) aby zastosować ograniczenia i przyspieszyć filtry zapytań. Do tej pory indeksy nie były trwałe, co prowadziło do problemów, takich jak utrata informacji o indeksach i długie czasy ponownego ładowania tabel z ograniczonymi danymi.

ART jest to w istocie próba zastosowania kompresji pionowej i poziomej w celu stworzenia zwartych struktur indeksowych. Intencje to podobne do drzewa struktury danych, w których każdy poziom drzewa zawiera informacje o pewnej części zbioru danych. Zazwyczaj są one ilustrowane ciągami znaków.

W projekcie dodano również optymalizację kolejności łączenia, powszechny problem w analitycznych bazach danych. Hyoun Park, dyrektor generalny i główny analityk w Amalgam Insights, powiedział, że wyróżnienie DuckDB wynika z faktu, że jest to mała aplikacja, która działa w ramach przepływów pracy opartych na kodzie, aby szybko skanować duże zasoby danych.

„DuckDB często może uruchamiać zapytania bezpośrednio na danych bez pośredniego przetwarzania, co usprawnia przetwarzanie. Z czysto technologicznego punktu widzenia jest nieco podobny do Actian Vector, który również przyjmuje kolumnowe, wektoryzowane podejście do zapytań OLAP, chociaż Actian jest przeznaczony do pobierania danych, a nie do pracy nad procesem lub ładowania określonego zadania. »

DuckDB Labs zapewnia porady i wsparcie. Współzałożyciel i dyrektor generalny Hannes Mühleisen, który również współtworzył kod i utrzymuje projekt, powiedział, że zainspirował go SQLite, bezserwerowy silnik bazy danych OLTP, w którym widział możliwość podobnego podejścia, ale do analizy.

DuckDB jest również często używany jako część stosu analitycznego lub zarządzania. większe dane. Na przykład, jeśli ktoś zbuduje niestandardową aplikację, która zbiera dane, a następnie chce stworzyć interfejs SQL, musi najpierw skopiować dane i przenieść je do innego systemu, co może powodować problemy z synchronizacją – wyjaśnił.

Pobierz i pobierz

Należy wspomnieć, że strona główna wyraźnie stwierdza, że ​​nie należy jej używać do „dużych instalacji klient/serwer do scentralizowanego przechowywania danych przedsiębiorstwa”.

Projekt pracuje nad wydaniem wersji 1.0, po czym nie będzie już można dokonywać zmian. Prace naukowców Centrum Matematyki i Informatyki Teoretycznej Centrum Wiskunde & Informatica w Amsterdamie, DuckDB są zintegrowane z procesem hosta, warto zauważyć, że nie ma oprogramowania serwerowego DBMS do zainstalowania, aktualizacji lub utrzymania.

Na przykład pakiet DuckDB Python może uruchamiać zapytania bezpośrednio na danych z biblioteki oprogramowania Python, bez importowania lub kopiowania danych. DuckDB jest napisany w C++, jest darmowy i open source na licencji MIT.

Możesz dowiedzieć się więcej na ten temat, a także zapoznać się z instrukcją instalacji, W poniższym linku.


Zostaw swój komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

*

*

  1. Odpowiedzialny za dane: AB Internet Networks 2008 SL
  2. Cel danych: kontrola spamu, zarządzanie komentarzami.
  3. Legitymacja: Twoja zgoda
  4. Przekazywanie danych: Dane nie będą przekazywane stronom trzecim, z wyjątkiem obowiązku prawnego.
  5. Przechowywanie danych: baza danych hostowana przez Occentus Networks (UE)
  6. Prawa: w dowolnym momencie możesz ograniczyć, odzyskać i usunąć swoje dane.