TileDB 2.0, une base de données pour stocker des matrices et des données scientifiques

La sortie de la nouvelle version de TileDB 2.0 a été récemment annoncée dans laquelle l'intégration est ajoutée pour fonctionner avec différents services cloud, capacité à utiliser différents algorithmes, améliorations avec les différents moteurs de stockage et autres choses.

Pour ceux qui ne connaissent pas TileDB, ils doivent savoir que ce est une base de données conçue pour aider les équipes de science des données pour accélérer les découvertes en leur offrant un moyen plus puissant de stocker, mettre à jour, analyser et partager de grands ensembles de données diverses.

À propos de TileDB

TileDB se compose d'un nouveau format de données de tableau multidimensionnel, un moteur de stockage C ++ rapide, intégrable et open source avec des intégrations d'outils de science des données et un service cloud pour un calcul et une gestion des données sans serveur faciles

TileDB est optimisé pour stocker les matrices et les données utilisées dans les calculs scientifiques multidimensionnels, tels que divers systèmes de traitement de l'information génétique, des données spatiales et financières, c'est-à-dire des systèmes qui fonctionnent avec des matrices multidimensionnelles dispersées ou remplies en continu.

TileDB propose une bibliothèque C ++ autonome et intégrée qui est livré avec l'API en C, C ++, Python, R, Java et Go et vous avez un accès direct aux tableaux TileDB.

La bibliothèque est intégrée à Spark, Dask, PrestoDB, MariaDB, Arrow et des bibliothèques géospatiales telles que PDAL, GDAL et Rasterio. TileDB pousse autant de calcul que possible vers le stockagetelles que les conditions de filtre du moteur SQL et les calculs de trames de données Dask et Spark.

Parallèlement à la base de données, vous trouverez TileDB Cloud, un service de paiement à l'utilisation que vous pouvez utiliser pour partager des baies TileDB dans le cloud avec d'autres utilisateurs et effectuer des calculs sans serveur sur eux.

Des fonctionnalités clés de TileDB les suivants se démarquent:

  • Méthodes efficaces pour stocker des tableaux épars, dont les données ne suivent pas en continu, le tableau est rempli de blocs et la plupart des éléments restent vides ou prennent la même valeur.
  • Possibilité d'accéder aux données au format clé / valeur ou à des ensembles de colonnes (DataFrame);
  • Prise en charge de l'intégration avec AWS S3, Google Cloud Storage et Azure Blob Storage.
  • TileDB prend en charge efficacement le versionnage des données intégré de manière native dans son format et son moteur de stockage.
  • Il dispose d'une variété d'optimisations autour des E / S parallèles dans les magasins d'objets cloud et des calculs multithreads (tels que la classification, la compression, etc.).
  • Capacité à utiliser différents algorithmes de compression et de cryptage des données.
  • Prise en charge de l'intégrité de la somme de contrôle.
  • Il fonctionne en mode multithread avec parallélisation entrée / sortie.
  • Prise en charge de la gestion des versions des données stockées, même pour la récupération de l'état à un certain moment dans le passé ou pour les mises à jour atomiques de grands ensembles d'entiers.
  • Possibilité de lier des métadonnées.
  • Prise en charge du regroupement de données.
  • Modules d'intégration à utiliser comme moteur de stockage de bas niveau dans Spark, Dask, MariaDB, GDAL, PDAL, Rasterio, gVCF et PrestoDB.
  • Bibliothèques de liaison d'API C ++ pour les langages Python, R, Java et Go.

Le code du projet est écrit en C ++ et distribué sous la licence MIT et est compatible avec Linux, macOS et Windows.

À propos de la version 2.0

Version 2.0 se distingue par sa compatibilité avec le concept «DataFrame», Quoi vous permet de stocker des données sous forme de colonnes de valeurs longueur arbitraire, liée à des attributs spécifiques et que l'API repensée pour R.

Le stockage est également optimisé pour le traitement des matrices clairsemées de taille hétérogène (différents types de données peuvent être stockés dans des cellules et il est possible de fusionner différents types de colonnes, par exemple, dans lesquelles le nom, l'heure et le prix sont stockés).

Ajout de la prise en charge des colonnes avec des données de chaîne, ainsi que des modules ont été ajoutés pour l'intégration avec Google Cloud Storage et Azure Blob Storage. 

Enfin si vous souhaitez en savoir plus sur cette nouvelle version, pVous pouvez consulter la note de publication sur le lien suivant.

Y pour en savoir plus sur son installation, mise en œuvre et documentation, vous pouvez le faire dans le lien suivant


Le contenu de l'article adhère à nos principes de éthique éditoriale. Pour signaler une erreur, cliquez sur c'est par ici !.

Soyez le premier à commenter

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.

*

*

  1. Responsable des données : AB Internet Networks 2008 SL
  2. Finalité des données: Contrôle du SPAM, gestion des commentaires.
  3. Légitimation: votre consentement
  4. Communication des données: Les données ne seront pas communiquées à des tiers sauf obligation légale.
  5. Stockage des données: base de données hébergée par Occentus Networks (EU)
  6. Droits: à tout moment, vous pouvez limiter, récupérer et supprimer vos informations.