TileDB 2.0, una base de dades per emmagatzemar les matrius i dades científiques

Fa poc va ser anunciada l'alliberament de la nova versió de TileDB 2.0 en la qual s'afegeix integració per treballar amb diferents serveis en el núvol, Capacitat d'utilitzar diferents algoritmes, millores amb els diferents motors d'emmagatzematge i altres coses més.

Per als qui desconeixen de TileDB han de saber que aquesta és base de dades dissenyada per ajudar els equips de ciència de dades a realitzar descobriments més ràpids a l'brindar-los una forma més poderosa d'emmagatzemar, actualitzar, analitzar i compartir grans conjunts de dades diverses.

sobre TileDB

TileDB consta d'un nou format de dades de matriu multidimensional, un motor d'emmagatzematge C ++ ràpid, integrable i de codi obert amb integracions d'eines de ciència de dades i un servei en el núvol per a una fàcil gestió de dades i càlculs sense servidor.

TileDB està optimitzat per emmagatzemar les matrius i les dades utilitzades en els càlculs científics multidimensionals, Com ara diversos sistemes per processar informació genètica, dades espacials i financers, és a dir sistemes que operen amb matrius multidimensionals disperses o contínuament plenes.

TileDB ofereix una biblioteca de C ++ independent i incrustada que es lliura amb API en C, C ++, Python, R, Java i Go i té accés directe a les matrius de TileDB.

La biblioteca està integrada amb Spark, Dask, PrestoDB, MariaDB, Arrow i biblioteques geoespacials com PDAL, GDAL i Rasterio. TileDB empeny la major quantitat de còmput possible a l'emmagatzematge, Com les condicions de filtre dels motors SQL i els càlculs de el marc de dades de Dask i Spark.

Al costat de la base de dades està TileDB Cloud, un servei de pagament per ús que pot fer servir per compartir matrius de TileDB en el núvol amb altres usuaris i realitzar càlculs sense servidor en ells.

De les característiques clau de TileDB es destaquen les següents:

  • Mètodes efectius per emmagatzemar matrius disperses, les dades no segueixen contínuament, la matriu s'omple amb fragments i la majoria dels elements romanen buits o prenen el mateix valor.
  • Capacitat per a accedir a dades en format de valor clau o conjunts de columnes (DataFrame);
  • Suport per a la integració amb AWS S3, Google Cloud Storage i Azure Blob Storage.
  • TileDB admet eficientment el control de versions de dades integrat de forma nativa en el seu format i motor d'emmagatzematge.
  • Compta amb una varietat d'optimitzacions al voltant de I / O paral·leles en magatzems d'objectes en el núvol i càlculs de subprocessos múltiples (com classificació, compressió, etc.).
  • Capacitat per utilitzar diferents algoritmes de compressió i xifrat de dades.
  • Suport per a la integritat de la suma de verificació.
  • Treballa en mode multifil amb paral·lelització d'entrada / sortida.
  • Compatibilitat amb el control de versions de les dades emmagatzemades, fins i tot per recuperar l'estat en un cert punt en el passat o per actualitzacions atòmiques de conjunts sencers grans.
  • Capacitat per enllaçar metadades.
  • Suport d'agrupació de dades.
  • Mòduls d'integració per a usar com a motor d'emmagatzematge de baix nivell en Spark, Dask, MariaDB, GDAL, PDAL, Rasterio, gVCF i PrestoDB.
  • Biblioteques d'enllaç API C ++ per als llenguatges Python, R, Java i Go.

El codi de el projecte està escrit en C ++ i distribuït sota la llicència MIT i és compatible amb Linux, macOS i Windows.

Sobre la versió 2.0

La versió 2.0 es destaca per la seva compatibilitat amb el concepte «DataFrame», que permet emmagatzemar dades en forma de columnes de valors de longitud arbitrària, vinculats a atributs específics i que l'API redissenyada per a R.

L'emmagatzematge també està optimitzat per a processar matrius disperses de mida heterogeni (es poden emmagatzemar diferents tipus de dades en cel i és possible realitzar la fusió de diferents tipus de columnes, per exemple, en les que s'emmagatzemen el nom, el temps i el preu).

Es va agregar suport per columnes amb dades de cadena, així com també es van afegir mòduls per a la integració amb Google Cloud Storage i Azure Blob Storage. 

Finalment si vols conèixer més a l'respecte sobre aquesta nova versió, pàgots consultar la nota de llançament a el següent enllaç.

Y per conèixer més a l'respecte sobre la seva instal·lació, implementació i documentació, ho pots fer al següent enllaç.


Deixa el teu comentari

La seva adreça de correu electrònic no es publicarà. Els camps obligatoris estan marcats amb *

*

*

  1. Responsable de les dades: AB Internet Networks 2008 SL
  2. Finalitat de les dades: Controlar l'SPAM, gestió de comentaris.
  3. Legitimació: El teu consentiment
  4. Comunicació de les dades: No es comunicaran les dades a tercers excepte per obligació legal.
  5. Emmagatzematge de les dades: Base de dades allotjada en Occentus Networks (UE)
  6. Drets: En qualsevol moment pots limitar, recuperar i esborrar la teva informació.