TileDB 2.0, databáza na ukladanie matíc a vedeckých údajov

Nedávno bolo oznámené vydanie novej verzie TileDB 2.0, v ktorej pre prácu s rôznymi cloudovými službami sa pridáva integrácia, schopnosť používať rôzne algoritmy, vylepšenia s rôznymi úložnými modulmi a ďalšie veci.

Pre tých, ktorí TileDB nepoznajú, by to mali vedieť je databáza navrhnutá na pomoc tímom pre dátovú vedu aby robili objavy rýchlejšie tým, že im poskytnú výkonnejší spôsob ukladania, aktualizácie, analýzy a zdieľania veľkých súborov rozmanitých údajov.

O spoločnosti TileDB

TileDB sa skladá z nového multidimenzionálneho formátu údajov poľa, rýchly zabudovateľný otvorený úložný modul C ++ s integráciou nástrojov pre vedecké práce s dátami a cloudovou službou pre ľahký výpočet bez servera a správu údajov.

TileDB je optimalizovaný na ukladanie matíc a údajov použitých vo viacrozmerných vedeckých výpočtoch, ako sú rôzne systémy na spracovanie genetických informácií, priestorových a finančných údajov, to znamená systémy, ktoré fungujú s rozptýlenými alebo nepretržite naplnenými multidimenzionálnymi maticami.

TileDB ponúka samostatnú a zabudovanú knižnicu C ++ ktorý sa dodáva s API v jazykoch C, C ++, Python, R, Java a Go a máte priamy prístup k poliam TileDB.

Knižnica je integrovaná s programami Spark, Dask, PrestoDB, MariaDB, Arrow a geopriestorovými knižnicami, ako sú PDAL, GDAL a Rasterio. TileDB tlačí na úložisko čo najviac výpočtovako sú podmienky filtra stroja SQL a výpočty dátových rámcov Dask a Spark.

Vedľa databázy je TileDB Cloud, služba pay-as-you-go, ktorú môžete použiť na zdieľanie polí TileDB v cloude s ostatnými používateľmi a vykonávať na nich výpočty bez servera.

Z hlavných funkcií TileDB vyniknú tieto:

  • Efektívne metódy na ukladanie riedkych polí, ktorých údaje nesledujú nepretržite, je pole plné fragmentov a väčšina prvkov zostáva prázdna alebo má rovnakú hodnotu.
  • Schopnosť prístupu k údajom vo formáte kľúčovej hodnoty alebo množinám stĺpcov (DataFrame);
  • Podpora integrácie s AWS S3, Google Cloud Storage a Azure Blob Storage.
  • TileDB efektívne podporuje verzovanie dát natívne vložené do jeho formátu a úložného modulu.
  • Má celý rad optimalizácií okolo paralelných I / O v úložiskách cloudových objektov a výpočtov s viacerými vláknami (napríklad klasifikácia, kompresia atď.).
  • Schopnosť používať rôzne kompresné a šifrovacie algoritmy dát.
  • Podpora integrity kontrolného súčtu.
  • Funguje vo viacvláknovom režime s paralelizáciou vstupu / výstupu.
  • Podpora pre správu verzií uložených údajov, dokonca aj pre načítanie stavu v určitom bode v minulosti alebo pre atómové aktualizácie veľkých celých čísel.
  • Schopnosť prepojiť metadáta.
  • Podpora zoskupovania údajov.
  • Integračné moduly, ktoré sa majú použiť ako nízkoúrovňový ukladací modul v programoch Spark, Dask, MariaDB, GDAL, PDAL, Rasterio, gVCF a PrestoDB.
  • Väzobné knižnice API C ++ pre jazyky Python, R, Java a Go.

Kód projektu je napísaný v jazyku C ++ a distribuovaný pod licenciou MIT a je kompatibilný s systémami Linux, macOS a Windows.

O verzii 2.0

Verzia 2.0 vyniká svojou kompatibilitou s konceptom «DataFrame», že umožňuje ukladať údaje ako stĺpce s hodnotami ľubovoľná dĺžka, viazaná na konkrétne atribúty a že prepracované API pre R.

Úložisko je tiež optimalizované na spracovanie riedkych matíc heterogénna veľkosť (do buniek je možné ukladať rôzne typy údajov a je možné zlúčiť rôzne typy stĺpcov, napríklad v ktorých sú uložené názov, čas a cena).

Pridaná podpora pre stĺpce s údajmi reťazca a tiež boli pridané moduly pre integráciu s Google Cloud Storage a Azure Blob Storage. 

Nakoniec, ak sa chcete dozvedieť viac informácií o tejto novej verzii, sPoznámku k vydaniu si môžete pozrieť na adrese nasledujúci odkaz.

Y dozvedieť sa viac o jeho inštalácii, implementácia a dokumentácia, môžete to urobiť v nasledujúci odkaz.


Zanechajte svoj komentár

Vaša e-mailová adresa nebude zverejnená. Povinné položky sú označené *

*

*

  1. Za údaje zodpovedá: AB Internet Networks 2008 SL
  2. Účel údajov: Kontrolný SPAM, správa komentárov.
  3. Legitimácia: Váš súhlas
  4. Oznamovanie údajov: Údaje nebudú poskytnuté tretím stranám, iba ak to vyplýva zo zákona.
  5. Ukladanie dát: Databáza hostená spoločnosťou Occentus Networks (EU)
  6. Práva: Svoje údaje môžete kedykoľvek obmedziť, obnoviť a vymazať.