DuckDB, open source DB používaná společnostmi Google, Facebook a Airbnb

DuckDB, DBMS používané společnostmi Google, Facebook a Airbnb

DuckDB je připravovaný systém správy databází SQL OLAP

Nedávno bylo oznámeno vydání nové verze DuckDB 0.5.0, což je vyvíjející se systém pro správu analytických databází (DBMS) používaný společnostmi Google, Facebook a Airbnb.

DuckDB je vysoce výkonný analytický databázový systém. Je navržen tak, aby byl rychlý, spolehlivý a snadno použitelný. DuckDB poskytuje bohatý dialekt SQL s podporou daleko přesahující základní SQL. DuckDB podporuje libovolné a vnořené korelované poddotazy, funkce oken, kolace, komplexní typy (pole, struktury) a další.

Mezi jeho hlavní vlastnosti vynikají následující:

  • Instalación jednoduchý
  • Integrovaný: žádná správa serveru
  • Formát ukládání jednoho souboru
  • Rychlé analytické zpracování
  • Rychlý přenos mezi R/Pythonem a RDBMS
  • Nezávisí na žádném vnějším stavu. Například samostatné konfigurační soubory, proměnná prostředí.
  • Formát ukládání jednoho souboru
  • Složitelné rozhraní. Plynulé programové SQL API
  • Plně ACID přes MVCC

O DuckDB 0.5.0

Mezi novinky patří „out of core“, jehož cílem je vyřešit problémy, které mohou nastat, když jsou zpracovávaná data větší než paměť, a to navržením mezivýsledků..

Nová verze používá indexy Adaptive Radix Tree (ART). použít omezení a urychlit filtry dotazů. Až dosud nebyly indexy trvalé, což vedlo k problémům, jako je ztráta informací o indexu a dlouhé doby opětovného načítání u tabulek s omezenými daty.

ART je to v podstatě pokus aplikovat vertikální a horizontální kompresi k vytvoření kompaktních indexových struktur. Záměry jsou stromové datové struktury, kde každá úroveň stromu obsahuje informace o nějaké části datové sady. Obvykle jsou znázorněny řetězci znaků.

Projekt také přidal optimalizaci objednávky spojení, častý problém v analytických databázích. Hyoun Park, generální ředitel a hlavní analytik společnosti Amalgam Insights, uvedl, že odlišnost DuckDB vychází ze skutečnosti, že jde o malou aplikaci, která funguje v rámci pracovních postupů založených na kódu a rychle skenuje velká úložiště dat.

„DuckDB může často spouštět dotazy přímo na data bez dalšího zpracování, což zlepšuje zpracování. Z čistě technologického hlediska je do jisté míry podobný Actian Vector, který rovněž využívá sloupcový vektorizovaný přístup OLAP dotazů, ačkoliv Actian je navržen tak, aby načítal data spíše než aby pracoval na procesu nebo načítal konkrétní úlohu. »

DuckDB Labs poskytuje rady a podporu. Spoluzakladatel a generální ředitel Hannes Mühleisen, který je také spoluautorem kódu a spravuje projekt, řekl, že se inspiroval SQLite, bezserverovým databázovým strojem OLTP, kde viděl příležitost pro podobný přístup, ale pro analýzu.

DuckDB se také často používá jako součást analytického nebo management stacku. větší data. Pokud například někdo vytvoří vlastní aplikaci, která shromažďuje data, a pak chce vytvořit rozhraní SQL, musel nejprve zkopírovat data a přesunout je do jiného systému, což by mohlo způsobit problémy se synchronizací, vysvětlil.

Stáhněte si a získejte

Je důležité zmínit, že na domovské stránce je jasně uvedeno, že by se neměla používat pro „velké instalace klient/server pro centralizované ukládání podnikových dat“.

Projekt pracuje na vydání verze 1.0, poté již nebude možné provádět změny. Práce akademiků z Centra pro matematiku a teoretickou informatiku Centrum Wiskunde & Informatica v Amsterdamu, DuckDB je integrována do hostitelského procesu, stojí za zmínku, že neexistuje žádný serverový software DBMS, který by bylo možné instalovat, aktualizovat nebo udržovat.

Například balíček DuckDB Python může spouštět dotazy přímo na data ze softwarové knihovny Python bez importu nebo kopírování dat. DuckDB je napsán v C++, je bezplatný a open source pod licencí MIT.

Můžete se o něm dozvědět více a také nahlédnout do instalační příručky, Na následujícím odkazu.


Zanechte svůj komentář

Vaše e-mailová adresa nebude zveřejněna. Povinné položky jsou označeny *

*

*

  1. Za data odpovídá: AB Internet Networks 2008 SL
  2. Účel údajů: Ovládací SPAM, správa komentářů.
  3. Legitimace: Váš souhlas
  4. Sdělování údajů: Údaje nebudou sděleny třetím osobám, s výjimkou zákonných povinností.
  5. Úložiště dat: Databáze hostovaná společností Occentus Networks (EU)
  6. Práva: Vaše údaje můžete kdykoli omezit, obnovit a odstranit.