Izdanje nove verzije TileDB 2.0 nedavno je najavljeno u kojem integracija je dodana radu s različitim cloud uslugama, sposobnost korištenja različitih algoritama, poboljšanja s različitim mehanizmima za pohranu i druge stvari.
Oni koji nisu upoznati s TileDB-om, trebali bi to znati je baza podataka dizajnirana da pomogne timovima za nauku podataka kako bi otkrića bila brža pružajući im snažniji način za pohranu, ažuriranje, analizu i dijeljenje velikih skupova različitih podataka.
O TileDB-u
TileDB se sastoji od novog formata podataka o višedimenzionalnom nizu, brzi, ugradivi, otvoreni izvor C ++ mehanizam za pohranu podataka sa integracijom alata za nauku podataka i uslugom u oblaku za lako izračunavanje i upravljanje podacima bez servera.
TileDB je optimiziran za pohranu matrica i podataka koji se koriste u višedimenzionalnim znanstvenim proračunima, poput različitih sistema za obradu genetičkih informacija, prostornih i finansijskih podataka, odnosno sistema koji rade sa raspršenim ili kontinuirano ispunjenim višedimenzionalnim matricama.
TileDB nudi samostalnu i ugrađenu C ++ biblioteku koji se isporučuje s API-jem na C, C ++, Python, R, Java i Go i imate direktan pristup TileDB nizovima.
Biblioteka je integrirana sa bibliotekama Spark, Dask, PrestoDB, MariaDB, Arrow i geoprostornim bibliotekama kao što su PDAL, GDAL i Rasterio. TileDB gura što više računanja u skladištekao što su uvjeti filtra SQL motora i izračuni Dask i Spark okvira podataka.
Uz bazu podataka nalazi se i TileDB Cloud, usluga uz naplatu koju možete koristiti za dijeljenje TileDB nizova u oblaku s drugim korisnicima i izvršavanje proračuna bez servera na njima.
Od ključnih karakteristika TileDB-a izdvajaju se:
- Učinkovite metode za pohranu rijetkih nizova, čiji podaci ne slijede kontinuirano, niz je ispunjen komadima, a većina elemenata ostaje prazna ili poprima istu vrijednost.
- Mogućnost pristupa podacima u formatu vrijednosti ključa ili skupovima stupaca (DataFrame);
- Podrška za integraciju sa AWS S3, Google Cloud Storage i Azure Blob Storage.
- TileDB efikasno podržava verziranje podataka ugrađeno u njegov format i mehanizam za pohranu.
- Ima razne optimizacije oko paralelnog U / I-a u spremištima objekata u oblaku i višenitnih izračuna (poput klasifikacije, kompresije itd.).
- Sposobnost upotrebe različitih algoritama kompresije i šifriranja podataka.
- Podrška za integritet kontrolne sume.
- Radi u višenitnom načinu rada s paralelizacijom ulaza / izlaza.
- Podrška za verziranje uskladištenih podataka, čak i za preuzimanje stanja u određenom trenutku u prošlosti ili za atomska ažuriranja velikih cjelovitih skupova.
- Sposobnost povezivanja metapodataka.
- Podrška za grupiranje podataka.
- Integracijski moduli koji se koriste kao mehanizam za pohranu na niskom nivou u Spark, Dask, MariaDB, GDAL, PDAL, Rasterio, gVCF i PrestoDB.
- C ++ API knjižnice vezivanja za jezike Python, R, Java i Go.
Kôd projekta napisan je na jeziku C ++ i distribuira se pod MIT licencom i kompatibilan je s Linuxom, macOS-om i Windowsom.
O verziji 2.0
Verzija 2.0 ističe se kompatibilnošću s konceptom «DataFrame», Que omogućava vam pohranjivanje podataka u obliku stupaca vrijednosti proizvoljne dužine, vezane uz određene atribute i da je redizajnirani API za R.
Pohrana je takođe optimizirana za obradu rijetkih matrica heterogene veličine (različite vrste podataka mogu se pohraniti u ćelije i moguće je spojiti različite vrste stupaca, na primjer, u kojima se čuvaju ime, vrijeme i cijena).
Dodana je podrška za stupce s nizovnim podacima, kao i dodani su moduli za integraciju sa Google Cloud Storage i Azure Blob Storage.
Konačno, ako želite znati više o ovoj novoj verziji, strNapomena o izdanju možete provjeriti na sljedeći link.
Y da biste saznali više o njegovoj instalaciji, implementaciju i dokumentaciju, to možete učiniti u sljedeći link.