„TileDB 2.0“ - duomenų bazė, kurioje saugomos matricos ir moksliniai duomenys

Neseniai paskelbta apie naujos „TileDB 2.0“ versijos išleidimą, kurioje integracija pridedama prie darbo su skirtingomis debesų paslaugomis, galimybė naudoti skirtingus algoritmus, patobulinimai naudojant skirtingus saugojimo variklius ir kiti dalykai.

Tiems, kurie nėra susipažinę su „TileDB“, jie turėtų žinoti, kad tai yra duomenų bazė, sukurta padėti duomenų mokslo komandoms padaryti atradimus greičiau suteikiant jiems galingesnį būdą saugoti, atnaujinti, analizuoti ir dalytis dideliais įvairiausių duomenų rinkiniais.

Apie „TileDB“

„TileDB“ sudaro naujas daugiamačių masyvo duomenų formatas, greitas, įterpiamas, atvirojo kodo „C ++“ saugojimo variklis su duomenų mokslo įrankių integracijomis ir debesų paslauga, kad būtų lengva apskaičiuoti ir valdyti duomenis be serverio.

„TileDB“ yra optimizuotas matricoms ir duomenims, naudojamiems daugiamatiuose moksliniuose skaičiavimuose, saugoti, pavyzdžiui, įvairios genetinės informacijos, erdvinių ir finansinių duomenų apdorojimo sistemos, tai yra sistemos, veikiančios su išsklaidytomis arba nuolat pildomomis daugiamatėmis matricomis.

„TileDB“ siūlo atskirą ir įterptą „C ++“ biblioteką kuri tiekiama su API C, C ++, Python, R, Java ir Go ir jūs turite tiesioginę prieigą prie „TileDB“ masyvų.

Biblioteka yra integruota su „Spark“, „Dask“, „PrestoDB“, „MariaDB“, „Arrow“ ir geografinės erdvės bibliotekomis, tokiomis kaip „PDAL“, „GDAL“ ir „Rasterio“. „TileDB“ kiek įmanoma daugiau skaičiuoja į saugykląpvz., SQL variklio filtro sąlygos ir „Dask and Spark“ duomenų rėmelių skaičiavimai.

Greta duomenų bazės yra „TileDB Cloud“, „pay-as-you-go“ paslauga, kurią galite naudoti norėdami dalytis „TileDB“ masyvais debesyje su kitais vartotojais ir atlikti jų be serverio skaičiavimus.

Iš pagrindinių „TileDB“ savybių išsiskiria:

  • Veiksmingi retų masyvų, kurių duomenys nesekiojami nuolat, masyvas užpildomas gabalėliais, saugojimo metodai, o dauguma elementų lieka tušti arba įgauna tą pačią reikšmę.
  • Galimybė pasiekti duomenis pagrindinės vertės formatu arba stulpelių rinkiniais („DataFrame“);
  • Parama integracijai su AWS S3, „Google Cloud Storage“ ir „Azure Blob Storage“.
  • „TileDB“ efektyviai palaiko duomenų versijas, natūraliai įterptas į savo formatą ir saugojimo variklį.
  • Jame yra daugybė optimizavimo būdų lygiagrečiai įvesties / išvesties debesies objektų parduotuvėse ir skaičiavimai su daugeliu sričių (pvz., Klasifikacija, glaudinimas ir kt.).
  • Gebėjimas naudoti skirtingus duomenų glaudinimo ir šifravimo algoritmus.
  • Kontrolinės sumos vientisumo palaikymas.
  • Jis veikia daugiasriegiu režimu su įvesties / išvesties lygiagretumu.
  • Palaikymas saugomų duomenų versijoms, net būsenai nuskaityti tam tikru praeities momentu arba didelių sveikųjų skaičių rinkinių atomų atnaujinimui.
  • Gebėjimas susieti metaduomenis.
  • Duomenų grupavimo palaikymas.
  • Integravimo moduliai, naudojami kaip žemo lygio saugojimo variklis „Spark“, „Dask“, „MariaDB“, „GDAL“, „PDAL“, „Rasterio“, „gVCF“ ir „PrestoDB“.
  • C ++ API susiejimo bibliotekos Python, R, Java ir Go kalboms.

Projekto kodas parašytas C ++ ir platinamas pagal MIT licenciją ir yra suderinamas su „Linux“, „MacOS“ ir „Windows“.

Apie 2.0 versiją

2.0 versija išsiskiria suderinamumu su „DataFrame“ koncepcija, kad leidžia duomenis saugoti reikšmių stulpelių pavidalu savavališkas ilgis, susietas su konkrečiais atributais ir kad pertvarkyta R API

Sandėliavimas taip pat optimizuotas retoms matricoms apdoroti nevienalytis dydis (ląstelėse gali būti saugomi skirtingų tipų duomenys ir galima sujungti skirtingų tipų stulpelius, pavyzdžiui, kuriuose saugomas pavadinimas, laikas ir kaina).

Pridėta stulpelių su eilutės duomenimis palaikymas, taip pat moduliai buvo įtraukti į integraciją su „Google Cloud Storage“ ir „Azure Blob Storage“. 

Galiausiai, jei norite sužinoti daugiau apie šią naują versiją, pIšleidimo pastabą galite patikrinti adresu šią nuorodą.

Y sužinoti daugiau apie jo diegimą, diegimą ir dokumentus, galite tai padaryti sekanti nuoroda.


Palikite komentarą

Jūsų elektroninio pašto adresas nebus skelbiamas. Privalomi laukai yra pažymėti *

*

*

  1. Už duomenis atsakingas: AB Internet Networks 2008 SL
  2. Duomenų paskirtis: kontroliuoti šlamštą, komentarų valdymą.
  3. Įteisinimas: jūsų sutikimas
  4. Duomenų perdavimas: Duomenys nebus perduoti trečiosioms šalims, išskyrus teisinius įsipareigojimus.
  5. Duomenų saugojimas: „Occentus Networks“ (ES) talpinama duomenų bazė
  6. Teisės: bet kuriuo metu galite apriboti, atkurti ir ištrinti savo informaciją.