TileDB 2.0, databáze pro ukládání matic a vědeckých dat

Nedávno bylo oznámeno vydání nové verze TileDB 2.0 přidává se integrace pro práci s různými cloudovými službami, schopnost používat různé algoritmy, vylepšení různých úložných modulů a další věci.

Pro ty, kteří TileDB neznají, by to měli vědět je databáze navržená na pomoc týmům vědy o datech aby objevy zrychlily tím, že jim poskytnou účinnější způsob ukládání, aktualizace, analýzy a sdílení velkých souborů různorodých dat.

O společnosti TileDB

TileDB se skládá z nového multidimenzionálního formátu dat pole, rychlý, integrovatelný otevřený úložný modul C ++ s integrací nástrojů pro datové vědy a cloudovou službou pro snadný výpočet bez serveru a správu dat.

TileDB je optimalizován pro ukládání matic a dat použitých ve vícerozměrných vědeckých výpočtech, jako jsou různé systémy pro zpracování genetických informací, prostorových a finančních dat, to znamená systémy, které pracují s rozptýlenými nebo průběžně vyplněnými vícerozměrnými maticemi.

TileDB nabízí samostatnou a vloženou knihovnu C ++ který je dodáván s API v C, C ++, Python, R, Java a Go a máte přímý přístup k polím TileDB.

Knihovna je integrována do knihoven Spark, Dask, PrestoDB, MariaDB, Arrow a geoprostorových knihoven, jako jsou PDAL, GDAL a Rasterio. TileDB tlačí do úložiště co nejvíce výpočtůjako jsou podmínky filtru motoru SQL a výpočty datových rámců Dask a Spark.

Vedle databáze je TileDB Cloud, služba pay-as-you-go, kterou můžete použít ke sdílení polí TileDB v cloudu s ostatními uživateli a provádět na nich výpočty bez serveru.

Z klíčových funkcí TileDB vynikají následující:

  • Efektivní metody pro ukládání řídkých polí, jejichž data nesledují nepřetržitě, pole je naplněno bloky a většina prvků zůstává prázdná nebo má stejnou hodnotu.
  • Možnost přístupu k datům ve formátu klíčové hodnoty nebo sadách sloupců (DataFrame);
  • Podpora integrace s AWS S3, Google Cloud Storage a Azure Blob Storage.
  • TileDB efektivně podporuje verzování dat nativně vložené do jeho formátu a úložiště.
  • Má celou řadu optimalizací kolem paralelních I / O v úložištích cloudových objektů a vícevláknových výpočtů (jako je klasifikace, komprese atd.).
  • Schopnost používat různé kompresní a šifrovací algoritmy dat.
  • Podpora integrity kontrolního součtu.
  • Funguje ve vícevláknovém režimu s paralelizací vstupů a výstupů.
  • Podpora pro správu verzí uložených dat, a to i pro načítání stavu v určitém bodě v minulosti nebo pro atomové aktualizace velkých celočíselných sad.
  • Možnost propojení metadat.
  • Podpora seskupování dat.
  • Integrační moduly, které mají být použity jako nízkoúrovňový úložný modul ve Spark, Dask, MariaDB, GDAL, PDAL, Rasterio, gVCF a PrestoDB.
  • Vazebné knihovny API C ++ pro jazyky Python, R, Java a Go.

Kód projektu je napsán v C ++ a distribuován pod licencí MIT a je kompatibilní s Linuxem, macOS a Windows.

O verzi 2.0

Verze 2.0 vyniká svou kompatibilitou s konceptem «DataFrame», že umožňuje ukládat data ve formě sloupců hodnot libovolná délka, vázaná na konkrétní atributy a že přepracované API pro R.

Úložiště je také optimalizováno pro zpracování řídkých matic heterogenní velikost (do buněk lze ukládat různé typy dat a je možné sloučit různé typy sloupců, například ve kterých jsou uloženy název, čas a cena).

Přidána podpora pro sloupce s daty řetězce a také byly přidány moduly pro integraci s Cloudové úložiště Google a úložiště Azure Blob Storage. 

Nakonec, pokud se chcete o této nové verzi dozvědět více, strPoznámku k vydání můžete zkontrolovat na následující odkaz.

Y dozvědět se více o jeho instalaci, implementace a dokumentace, můžete to udělat v následující odkaz.


Zanechte svůj komentář

Vaše e-mailová adresa nebude zveřejněna. Povinné položky jsou označeny *

*

*

  1. Za data odpovídá: AB Internet Networks 2008 SL
  2. Účel údajů: Ovládací SPAM, správa komentářů.
  3. Legitimace: Váš souhlas
  4. Sdělování údajů: Údaje nebudou sděleny třetím osobám, s výjimkou zákonných povinností.
  5. Úložiště dat: Databáze hostovaná společností Occentus Networks (EU)
  6. Práva: Vaše údaje můžete kdykoli omezit, obnovit a odstranit.