TileDB 2.0, databáze pro ukládání matic a vědeckých dat

Nedávno bylo oznámeno vydání nové verze TileDB 2.0 přidává se integrace pro práci s různými cloudovými službami, schopnost používat různé algoritmy, vylepšení různých úložných modulů a další věci.

Pro ty, kteří TileDB neznají, by to měli vědět je databáze navržená na pomoc týmům vědy o datech aby objevy zrychlily tím, že jim poskytnou účinnější způsob ukládání, aktualizace, analýzy a sdílení velkých souborů různorodých dat.

O společnosti TileDB

TileDB se skládá z nového multidimenzionálního formátu dat pole, rychlý, integrovatelný otevřený úložný modul C ++ s integrací nástrojů pro datové vědy a cloudovou službou pro snadný výpočet bez serveru a správu dat.

TileDB je optimalizován pro ukládání matic a dat použitých ve vícerozměrných vědeckých výpočtech, jako jsou různé systémy pro zpracování genetických informací, prostorových a finančních dat, to znamená systémy, které pracují s rozptýlenými nebo průběžně vyplněnými vícerozměrnými maticemi.

TileDB nabízí samostatnou a vloženou knihovnu C ++ který je dodáván s API v C, C ++, Python, R, Java a Go a máte přímý přístup k polím TileDB.

Knihovna je integrována do knihoven Spark, Dask, PrestoDB, MariaDB, Arrow a geoprostorových knihoven, jako jsou PDAL, GDAL a Rasterio. TileDB tlačí do úložiště co nejvíce výpočtůjako jsou podmínky filtru motoru SQL a výpočty datových rámců Dask a Spark.

Vedle databáze je TileDB Cloud, služba pay-as-you-go, kterou můžete použít ke sdílení polí TileDB v cloudu s ostatními uživateli a provádět na nich výpočty bez serveru.

Z klíčových funkcí TileDB vynikají následující:

Efektivní metody pro ukládání řídkých polí, jejichž data nesledují nepřetržitě, pole je naplněno bloky a většina prvků zůstává prázdná nebo má stejnou hodnotu.
Možnost přístupu k datům ve formátu klíčové hodnoty nebo sadách sloupců (DataFrame);
Podpora integrace s AWS S3, Google Cloud Storage a Azure Blob Storage.
TileDB efektivně podporuje verzování dat nativně vložené do jeho formátu a úložiště.
Má celou řadu optimalizací kolem paralelních I / O v úložištích cloudových objektů a vícevláknových výpočtů (jako je klasifikace, komprese atd.).
Schopnost používat různé kompresní a šifrovací algoritmy dat.
Podpora integrity kontrolního součtu.
Funguje ve vícevláknovém režimu s paralelizací vstupů a výstupů.
Podpora pro správu verzí uložených dat, a to i pro načítání stavu v určitém bodě v minulosti nebo pro atomové aktualizace velkých celočíselných sad.
Možnost propojení metadat.
Podpora seskupování dat.
Integrační moduly, které mají být použity jako nízkoúrovňový úložný modul ve Spark, Dask, MariaDB, GDAL, PDAL, Rasterio, gVCF a PrestoDB.
Vazebné knihovny API C ++ pro jazyky Python, R, Java a Go.

Kód projektu je napsán v C ++ a distribuován pod licencí MIT a je kompatibilní s Linuxem, macOS a Windows.

O verzi 2.0

Verze 2.0 vyniká svou kompatibilitou s konceptem «DataFrame», že umožňuje ukládat data ve formě sloupců hodnot libovolná délka, vázaná na konkrétní atributy a že přepracované API pro R.

Úložiště je také optimalizováno pro zpracování řídkých matic heterogenní velikost (do buněk lze ukládat různé typy dat a je možné sloučit různé typy sloupců, například ve kterých jsou uloženy název, čas a cena).

Přidána podpora pro sloupce s daty řetězce a také byly přidány moduly pro integraci s Cloudové úložiště Google a úložiště Azure Blob Storage.

Nakonec, pokud se chcete o této nové verzi dozvědět více, strPoznámku k vydání můžete zkontrolovat na následující odkaz.

Y dozvědět se více o jeho instalaci, implementace a dokumentace, můžete to udělat v následující odkaz.

LinuxAdictos

TileDB 2.0, databáze pro ukládání matic a vědeckých dat

O společnosti TileDB

O verzi 2.0

Zanechte svůj komentář Zrušit odpověď