DuckDB, open source DB používaná spoločnosťami Google, Facebook a Airbnb

DuckDB, DBMS používaný spoločnosťami Google, Facebook a Airbnb

DuckDB je pripravovaný systém správy databáz SQL OLAP

Nedávno bolo oznámené vydanie novej verzie DuckDB 0.5.0, čo je vyvíjajúci sa systém správy analytických databáz (DBMS), ktorý používajú Google, Facebook a Airbnb.

DuckDB je vysokovýkonný analytický databázový systém. Je navrhnutý tak, aby bol rýchly, spoľahlivý a ľahko použiteľný. DuckDB poskytuje bohatý dialekt SQL s podporou ďaleko presahujúcou rámec základného SQL. DuckDB podporuje ľubovoľné a vnorené korelované poddotazy, funkcie okien, porovnávanie, komplexné typy (polia, štruktúry) a ďalšie.

Medzi jeho hlavné charakteristiky patria:

  • Jednoduchá inštalácia
  • Integrované: žiadna správa servera
  • Formát ukladania jedného súboru
  • Rýchle analytické spracovanie
  • Rýchly prenos medzi R/Pythonom a RDBMS
  • Nezávisí od žiadneho vonkajšieho stavu. Napríklad samostatné konfiguračné súbory, premenná prostredia.
  • Formát ukladania jedného súboru
  • Skladateľné rozhranie. Plynulé SQL programové API
  • Plne ACID cez MVCC

O DuckDB 0.5.0

Medzi novinky patrí „out of core“, ktorého cieľom je vyriešiť problémy, ktoré môžu nastať, keď sú spracovávané dáta väčšie ako pamäť, a to návrhom medzivýsledkov..

Nová verzia používa indexy Adaptive Radix Tree (ART). použiť obmedzenia a urýchliť filtre dotazov. Doteraz indexy neboli trvalé, čo viedlo k problémom, ako je strata informácií o indexe a dlhé časy opätovného načítania pre tabuľky s obmedzenými údajmi.

ART je to v podstate pokus aplikovať vertikálnu a horizontálnu kompresiu na vytvorenie kompaktných indexových štruktúr. Zámery sú stromové dátové štruktúry, kde každá úroveň stromu obsahuje informácie o nejakej časti množiny údajov. Zvyčajne sú znázornené reťazcami znakov.

V rámci projektu bola pridaná aj optimalizácia objednávky pripojenia, bežný problém v analytických databázach. Hyoun Park, generálny riaditeľ a hlavný analytik spoločnosti Amalgam Insights, uviedol, že odlíšenie DuckDB vychádza zo skutočnosti, že ide o malú aplikáciu, ktorá funguje v rámci pracovných postupov založených na kóde a rýchlo skenuje veľké úložiská údajov.

„DuckDB môže často spúšťať dotazy priamo na údaje bez medzispracovania, čo zlepšuje spracovanie. Z čisto technologického hľadiska je trochu podobný Actian Vector, ktorý tiež využíva stĺpcový vektorizovaný prístup OLAP dotazov, hoci Actian je navrhnutý tak, aby skôr získaval údaje, než aby pracoval na procese alebo načítal špecifickú úlohu. »

DuckDB Labs poskytuje poradenstvo a podporu. Spoluzakladateľ a generálny riaditeľ Hannes Mühleisen, ktorý je tiež spoluautorom kódu a udržiava projekt, povedal, že ho inšpiroval SQLite, bezserverový databázový nástroj OLTP, kde videl príležitosť na podobný prístup, ale na analýzu.

DuckDB sa tiež často používa ako súčasť analytického alebo manažérskeho zásobníka. väčšie údaje. Napríklad, ak niekto vytvorí vlastnú aplikáciu, ktorá zbiera dáta a potom chce vytvoriť SQL rozhranie, najprv musel skopírovať dáta a presunúť ich do iného systému, čo by mohlo spôsobiť problémy so synchronizáciou, vysvetlil.

Stiahnite si a získajte

Je dôležité spomenúť, že domovská stránka jasne uvádza, že by sa nemala používať na „veľké inštalácie klient/server pre centralizované ukladanie podnikových dát“.

Projekt pracuje na vydaní verzie 1.0, po ktorej už nebude možné vykonávať zmeny. Práce akademikov Centra pre matematiku a teoretickú informatiku Centrum Wiskunde & Informatica v Amsterdame, DuckDB sú integrované do hostiteľského procesu, stojí za zmienku, že neexistuje žiadny serverový softvér DBMS na inštaláciu, aktualizáciu alebo údržbu.

Napríklad balík DuckDB Python môže spúšťať dotazy priamo na údaje zo softvérovej knižnice Python bez importu alebo kopírovania údajov. DuckDB je napísaný v C++, je bezplatný a open source pod licenciou MIT.

Môžete sa o ňom dozvedieť viac, ako aj prečítať si návod na inštaláciu, Na nasledujúcom odkaze.


Zanechajte svoj komentár

Vaša e-mailová adresa nebude zverejnená. Povinné položky sú označené *

*

*

  1. Za údaje zodpovedá: AB Internet Networks 2008 SL
  2. Účel údajov: Kontrolný SPAM, správa komentárov.
  3. Legitimácia: Váš súhlas
  4. Oznamovanie údajov: Údaje nebudú poskytnuté tretím stranám, iba ak to vyplýva zo zákona.
  5. Ukladanie dát: Databáza hostená spoločnosťou Occentus Networks (EU)
  6. Práva: Svoje údaje môžete kedykoľvek obmedziť, obnoviť a vymazať.