Databricks présente Delta Sharing, un protocole open source pour partager des données en toute sécurité

Databricks l'inventeur et le mainteneur d'Apache Spark, introduit plusieurs innovations pour sa plateforme d'analyse unifiée lors de sa conférence des utilisateurs Data + AI Summit 2021, y compris met en avant le lancement d'un nouveau projet open source appelé "Delta Sharing" qui fournit un protocole ouvert pour le partage de données sécurisé entre les organisations en temps réel, quelle que soit la plate-forme sur laquelle les données résident.

Partage Delta est inclus dans le projet Delta Lake, une couche de stockage de table que la société a publiée en open source fin 2019. La plate-forme a déjà obtenu le soutien d'un large éventail de fournisseurs de données, notamment Nasdaq, Amazon Web Services, Microsoft, Google et Tableau Software.

Le partage de données est devenu essentiel dans l'économie moderne, car les entreprises cherchent à échanger des données en toute sécurité avec leurs clients, fournisseurs et partenaires. Par exemple, un détaillant peut souhaiter publier les données de vente de ses fournisseurs en temps réel, ou un fournisseur peut souhaiter partager l'inventaire en temps réel. Mais jusqu'à présent, l'échange de données était très limité car les solutions d'échange sont liées à un seul fournisseur. Cela crée des frictions à la fois pour les fournisseurs de données et les consommateurs, qui exploitent naturellement différentes plates-formes.

Aujourd'hui, nous avons lancé un nouveau projet open source qui simplifie le partage entre les organisations : Delta Sharing, un protocole ouvert pour l'échange sécurisé en temps réel de grands ensembles de données, permettant pour la première fois l'échange sécurisé de données entre produits. Nous développons Delta Sharing avec des partenaires des principaux fournisseurs mondiaux de logiciels et de données.

Databricks a déclaré qu'il espérait remédier à l'inefficacité des processus manuels souvent nécessaires pour les organisations d'échanger des données avec les clients, les partenaires et les fournisseurs. Historiquement, les produits de partage de données étaient liés à un seul fournisseur ou produit commercial, limitant la collaboration entre les organisations utilisant différentes plates-formes.

"La principale façon dont les entreprises ont partagé avec d'autres est de suivre un processus lourd ou d'utiliser un système existant rigide que tout le monde doit utiliser", a déclaré Arsalan Tavakoli (photo), co-fondateur et vice-président senior de l'ingénierie de terrain chez Databricks.

Rassembler plusieurs sources de données est aussi une corvée. "Vous ne pouvez pas simplement donner accès à tout le monde", a-t-il déclaré. « Vous voulez des contrôles d'accès, des audits et un contrôle de version. Il n'y a aucun moyen de le faire aujourd'hui.

Delta Sharing limite la dépendance vis-à-vis des fournisseurs et il permet un ensemble de cas d'utilisation plus large et plus diversifié que ce qui était auparavant possible, a déclaré la société. Unity Catalog qui peut être utilisé dans SQL, les outils d'analyse visuelle et les langages de programmation tels que Python et R. Delta Sharing permet également aux organisations de partager des ensembles de données existants à grande échelle dans les formats Apache Parquet et Delta Lake en temps réel sans le besoin de copies.

Delta Sharing est le cinquième grand projet open source lancé par Databricks, après Apache Spark, Delta Lake, MLflow pour l'apprentissage automatique et Koalas, qui implémente l'interface du programme d'application pandas DataFrame sur Spark. Le projet est donné à la Linux Foundation.

Également Les databricks ont également souligné «Catalogue Unity« un catalogue de données standardisé et ce qui est compatible avec le "Partage Delta". Unity Catalog dispose d'une nouvelle interface qui va faciliter la découverte et la gestion de toutes les bases de données d'une entreprise, avec une vue complète des données dans les clouds et des catalogues existants, bien sûr dans la plateforme Lakehouse de Databricks.

Catalogue Unity propose un modèle de sécurité unique, basé sur ANSI SQL, pour rationaliser le déploiement et standardiser la gouvernance dans les clouds. L'outil aussi peut être intégré dans des catalogues de données existants d'Alation, Collibra, Privacera et Immuta, afin que le client respectif puisse s'appuyer sur celui existant et établir un modèle de gouvernance centralisé et pérenne sans coûts de migration élevés.

Enfin si vous souhaitez en savoir plus, vous pouvez vérifier le détails dans le lien suivant.


Soyez le premier à commenter

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont marqués avec *

*

*

  1. Responsable des données : AB Internet Networks 2008 SL
  2. Finalité des données: Contrôle du SPAM, gestion des commentaires.
  3. Légitimation: votre consentement
  4. Communication des données: Les données ne seront pas communiquées à des tiers sauf obligation légale.
  5. Stockage des données: base de données hébergée par Occentus Networks (EU)
  6. Droits: à tout moment, vous pouvez limiter, récupérer et supprimer vos informations.