TileDB 2.0, baza podatkov za shranjevanje matric in znanstvenih podatkov

Pred kratkim je bila objavljena izdaja nove različice TileDB 2.0, v kateri integracija je dodana za delo z različnimi storitvami v oblaku, sposobnost uporabe različnih algoritmov, izboljšave z različnimi mehanizmi za shranjevanje in druge stvari.

Tisti, ki ne poznajo TileDB, bi morali to vedeti je baza podatkov, zasnovana za pomoč skupinam za podatkovne vede hitreje odkrivajte tako, da jim omogočite zmogljivejši način za shranjevanje, posodabljanje, analizo in skupno rabo velikih naborov raznolikih podatkov.

O TileDB

TileDB je sestavljen iz novega formata podatkov večdimenzionalnega polja, hiter vdelani odprtokodni pomnilniški mehanizem C ++ z integracijo orodij za podatkovne znanosti in storitvijo v oblaku za enostavno izračunavanje in upravljanje podatkov brez strežnika

TileDB je optimiziran za shranjevanje matric in podatkov, ki se uporabljajo pri večdimenzionalnih znanstvenih izračunih, kot so različni sistemi za obdelavo genetskih informacij, prostorskih in finančnih podatkov, to je sistemov, ki delujejo z razpršenimi ali neprekinjeno polnjenimi večdimenzionalnimi matricami.

TileDB ponuja samostojno in vgrajeno knjižnico C ++ ki je dobavljen z API-ji v C, C ++, Python, R, Java in Go in imate neposreden dostop do nizov TileDB.

Knjižnica je integrirana s knjižnicami Spark, Dask, PrestoDB, MariaDB, Arrow in geoprostorskimi knjižnicami, kot so PDAL, GDAL in Rasterio. TileDB potisne čim več računalnikov v pomnilnikkot so pogoji filtra motorja SQL ter izračuni podatkovnega okvira Dask in Spark.

Poleg baze podatkov je tudi TileDB Cloud, storitev, ki jo plačate, ko jo lahko uporabljate za skupno rabo nizov TileDB v oblaku z drugimi uporabniki in zanje izvajate izračune brez strežnika.

Od ključnih lastnosti TileDB izstopajo:

  • Učinkovite metode za shranjevanje redkih nizov, katerih podatki ne sledijo neprekinjeno, polje je napolnjeno z drobci, večina elementov pa ostane prazna ali ima enako vrednost.
  • Sposobnost dostopa do podatkov v obliki ključa ali nabora stolpcev (DataFrame);
  • Podpora za integracijo z AWS S3, Google Cloud Storage in Azure Blob Storage.
  • TileDB učinkovito podpira različice podatkov, ki so vdelane v njegovo obliko in pomnilnik.
  • Ima različne optimizacije okoli vzporednih V / I v shrambah predmetov v oblaku in večnitnih izračunih (kot so klasifikacija, stiskanje itd.).
  • Sposobnost uporabe različnih algoritmov za stiskanje in šifriranje podatkov.
  • Podpora za integriteto kontrolne vsote.
  • Deluje v večnitnem načinu z vhodno / izhodno paralelizacijo.
  • Podpora za različico shranjenih podatkov, tudi za pridobivanje stanja na določeni točki v preteklosti ali za atomske posodobitve velikih celoštevilskih naborov.
  • Sposobnost povezovanja metapodatkov.
  • Podpora za združevanje podatkov.
  • Integracijski moduli za uporabo kot nizko nivojski pomnilniški mehanizem v Spark, Dask, MariaDB, GDAL, PDAL, Rasterio, gVCF in PrestoDB.
  • Knjižnice vezav API C ++ za jezike Python, R, Java in Go.

Koda projekta je napisana v jeziku C ++ in se distribuira pod licenco MIT ter je združljiva z Linuxom, macOS in Windows.

O različici 2.0

Različica 2.0 izstopa po svoji združljivosti s konceptom «DataFrame», da omogoča shranjevanje podatkov v obliki stolpcev vrednosti poljubna dolžina, vezana na določene atribute in da je preoblikovan API za R.

Shramba je optimizirana tudi za obdelavo redkih matric heterogeno po velikosti (različne vrste podatkov je mogoče shraniti v celice in je mogoče združiti različne vrste stolpcev, na primer v katerih so shranjeni ime, čas in cena).

Dodana podpora za stolpce z nizovnimi podatki, pa tudi moduli so bili dodani za integracijo z Google Cloud Storage in Azure Blob Storage. 

Na koncu, če želite izvedeti več o tej novi različici, strOpombo k izdaji lahko preverite na naslednjo povezavo.

Y če želite izvedeti več o njegovi namestitvi, izvedbo in dokumentacijo, lahko to storite v naslednja povezava.


Pustite svoj komentar

Vaš e-naslov ne bo objavljen. Obvezna polja so označena z *

*

*

  1. Odgovoren za podatke: AB Internet Networks 2008 SL
  2. Namen podatkov: Nadzor neželene pošte, upravljanje komentarjev.
  3. Legitimacija: Vaše soglasje
  4. Sporočanje podatkov: Podatki se ne bodo posredovali tretjim osebam, razen po zakonski obveznosti.
  5. Shranjevanje podatkov: Zbirka podatkov, ki jo gosti Occentus Networks (EU)
  6. Pravice: Kadar koli lahko omejite, obnovite in izbrišete svoje podatke.