TileDB 2.0, baza podataka za pohranu matrica i naučnih podataka

Izdanje nove verzije TileDB 2.0 nedavno je najavljeno u kojem integracija je dodana radu s različitim cloud uslugama, sposobnost korištenja različitih algoritama, poboljšanja s različitim mehanizmima za pohranu i druge stvari.

Oni koji nisu upoznati s TileDB-om, trebali bi to znati je baza podataka dizajnirana da pomogne timovima za nauku podataka kako bi otkrića bila brža pružajući im snažniji način za pohranu, ažuriranje, analizu i dijeljenje velikih skupova različitih podataka.

O TileDB-u

TileDB se sastoji od novog formata podataka o višedimenzionalnom nizu, brzi, ugradivi, otvoreni izvor C ++ mehanizam za pohranu podataka sa integracijom alata za nauku podataka i uslugom u oblaku za lako izračunavanje i upravljanje podacima bez servera.

TileDB je optimiziran za pohranu matrica i podataka koji se koriste u višedimenzionalnim znanstvenim proračunima, poput različitih sistema za obradu genetičkih informacija, prostornih i finansijskih podataka, odnosno sistema koji rade sa raspršenim ili kontinuirano ispunjenim višedimenzionalnim matricama.

TileDB nudi samostalnu i ugrađenu C ++ biblioteku koji se isporučuje s API-jem na C, C ++, Python, R, Java i Go i imate direktan pristup TileDB nizovima.

Biblioteka je integrirana sa bibliotekama Spark, Dask, PrestoDB, MariaDB, Arrow i geoprostornim bibliotekama kao što su PDAL, GDAL i Rasterio. TileDB gura što više računanja u skladištekao što su uvjeti filtra SQL motora i izračuni Dask i Spark okvira podataka.

Uz bazu podataka nalazi se i TileDB Cloud, usluga uz naplatu koju možete koristiti za dijeljenje TileDB nizova u oblaku s drugim korisnicima i izvršavanje proračuna bez servera na njima.

Od ključnih karakteristika TileDB-a izdvajaju se:

  • Učinkovite metode za pohranu rijetkih nizova, čiji podaci ne slijede kontinuirano, niz je ispunjen komadima, a većina elemenata ostaje prazna ili poprima istu vrijednost.
  • Mogućnost pristupa podacima u formatu vrijednosti ključa ili skupovima stupaca (DataFrame);
  • Podrška za integraciju sa AWS S3, Google Cloud Storage i Azure Blob Storage.
  • TileDB efikasno podržava verziranje podataka ugrađeno u njegov format i mehanizam za pohranu.
  • Ima razne optimizacije oko paralelnog U / I-a u spremištima objekata u oblaku i višenitnih izračuna (poput klasifikacije, kompresije itd.).
  • Sposobnost upotrebe različitih algoritama kompresije i šifriranja podataka.
  • Podrška za integritet kontrolne sume.
  • Radi u višenitnom načinu rada s paralelizacijom ulaza / izlaza.
  • Podrška za verziranje uskladištenih podataka, čak i za preuzimanje stanja u određenom trenutku u prošlosti ili za atomska ažuriranja velikih cjelovitih skupova.
  • Sposobnost povezivanja metapodataka.
  • Podrška za grupiranje podataka.
  • Integracijski moduli koji se koriste kao mehanizam za pohranu na niskom nivou u Spark, Dask, MariaDB, GDAL, PDAL, Rasterio, gVCF i PrestoDB.
  • C ++ API knjižnice vezivanja za jezike Python, R, Java i Go.

Kôd projekta napisan je na jeziku C ++ i distribuira se pod MIT licencom i kompatibilan je s Linuxom, macOS-om i Windowsom.

O verziji 2.0

Verzija 2.0 ističe se kompatibilnošću s konceptom «DataFrame», Que omogućava vam pohranjivanje podataka u obliku stupaca vrijednosti proizvoljne dužine, vezane uz određene atribute i da je redizajnirani API za R.

Pohrana je takođe optimizirana za obradu rijetkih matrica heterogene veličine (različite vrste podataka mogu se pohraniti u ćelije i moguće je spojiti različite vrste stupaca, na primjer, u kojima se čuvaju ime, vrijeme i cijena).

Dodana je podrška za stupce s nizovnim podacima, kao i dodani su moduli za integraciju sa Google Cloud Storage i Azure Blob Storage. 

Konačno, ako želite znati više o ovoj novoj verziji, strNapomena o izdanju možete provjeriti na sljedeći link.

Y da biste saznali više o njegovoj instalaciji, implementaciju i dokumentaciju, to možete učiniti u sljedeći link.


Ostavite komentar

Vaša e-mail adresa neće biti objavljena. Obavezna polja su označena sa *

*

*

  1. Odgovoran za podatke: AB Internet Networks 2008 SL
  2. Svrha podataka: Kontrola neželjene pošte, upravljanje komentarima.
  3. Legitimacija: Vaš pristanak
  4. Komunikacija podataka: Podaci se neće dostavljati trećim stranama, osim po zakonskoj obavezi.
  5. Pohrana podataka: Baza podataka koju hostuje Occentus Networks (EU)
  6. Prava: U bilo kojem trenutku možete ograničiti, oporaviti i izbrisati svoje podatke.