Nedávno bylo oznámeno vydání nové verze TileDB 2.0 přidává se integrace pro práci s různými cloudovými službami, schopnost používat různé algoritmy, vylepšení různých úložných modulů a další věci.
Pro ty, kteří TileDB neznají, by to měli vědět je databáze navržená na pomoc týmům vědy o datech aby objevy zrychlily tím, že jim poskytnou účinnější způsob ukládání, aktualizace, analýzy a sdílení velkých souborů různorodých dat.
O společnosti TileDB
TileDB se skládá z nového multidimenzionálního formátu dat pole, rychlý, integrovatelný otevřený úložný modul C ++ s integrací nástrojů pro datové vědy a cloudovou službou pro snadný výpočet bez serveru a správu dat.
TileDB je optimalizován pro ukládání matic a dat použitých ve vícerozměrných vědeckých výpočtech, jako jsou různé systémy pro zpracování genetických informací, prostorových a finančních dat, to znamená systémy, které pracují s rozptýlenými nebo průběžně vyplněnými vícerozměrnými maticemi.
TileDB nabízí samostatnou a vloženou knihovnu C ++ který je dodáván s API v C, C ++, Python, R, Java a Go a máte přímý přístup k polím TileDB.
Knihovna je integrována do knihoven Spark, Dask, PrestoDB, MariaDB, Arrow a geoprostorových knihoven, jako jsou PDAL, GDAL a Rasterio. TileDB tlačí do úložiště co nejvíce výpočtůjako jsou podmínky filtru motoru SQL a výpočty datových rámců Dask a Spark.
Vedle databáze je TileDB Cloud, služba pay-as-you-go, kterou můžete použít ke sdílení polí TileDB v cloudu s ostatními uživateli a provádět na nich výpočty bez serveru.
Z klíčových funkcí TileDB vynikají následující:
- Efektivní metody pro ukládání řídkých polí, jejichž data nesledují nepřetržitě, pole je naplněno bloky a většina prvků zůstává prázdná nebo má stejnou hodnotu.
- Možnost přístupu k datům ve formátu klíčové hodnoty nebo sadách sloupců (DataFrame);
- Podpora integrace s AWS S3, Google Cloud Storage a Azure Blob Storage.
- TileDB efektivně podporuje verzování dat nativně vložené do jeho formátu a úložiště.
- Má celou řadu optimalizací kolem paralelních I / O v úložištích cloudových objektů a vícevláknových výpočtů (jako je klasifikace, komprese atd.).
- Schopnost používat různé kompresní a šifrovací algoritmy dat.
- Podpora integrity kontrolního součtu.
- Funguje ve vícevláknovém režimu s paralelizací vstupů a výstupů.
- Podpora pro správu verzí uložených dat, a to i pro načítání stavu v určitém bodě v minulosti nebo pro atomové aktualizace velkých celočíselných sad.
- Možnost propojení metadat.
- Podpora seskupování dat.
- Integrační moduly, které mají být použity jako nízkoúrovňový úložný modul ve Spark, Dask, MariaDB, GDAL, PDAL, Rasterio, gVCF a PrestoDB.
- Vazebné knihovny API C ++ pro jazyky Python, R, Java a Go.
Kód projektu je napsán v C ++ a distribuován pod licencí MIT a je kompatibilní s Linuxem, macOS a Windows.
O verzi 2.0
Verze 2.0 vyniká svou kompatibilitou s konceptem «DataFrame», že umožňuje ukládat data ve formě sloupců hodnot libovolná délka, vázaná na konkrétní atributy a že přepracované API pro R.
Úložiště je také optimalizováno pro zpracování řídkých matic heterogenní velikost (do buněk lze ukládat různé typy dat a je možné sloučit různé typy sloupců, například ve kterých jsou uloženy název, čas a cena).
Přidána podpora pro sloupce s daty řetězce a také byly přidány moduly pro integraci s Cloudové úložiště Google a úložiště Azure Blob Storage.
Nakonec, pokud se chcete o této nové verzi dozvědět více, strPoznámku k vydání můžete zkontrolovat na následující odkaz.
Y dozvědět se více o jeho instalaci, implementace a dokumentace, můžete to udělat v následující odkaz.