Databricks 推出 Delta Sharing,一种安全共享数据的开源协议

Databricks Apache Spark 的发明者和维护者, 为其统一分析平台引入了多项创新 在其 Data + AI Summit 2021 用户大会上,包括 重点介绍了一个名为“Delta Sharing”的新开源项目的启动 提供了 用于安全数据共享的开放协议 无论数据驻留在哪个平台上,都可以实时在组织之间进行。

达美共享 包含在 Delta Lake 项目中,该公司于 2019 年底发布开源的表存储层。 该平台已经获得了广泛的数据提供商的支持,包括纳斯达克、亚马逊网络服务、微软、谷歌和 Tableau Software。

随着公司寻求与客户、供应商和合作伙伴安全地交换数据,数据共享在现代经济中变得至关重要。 例如,零售商可能希望实时发布其供应商的销售数据,或者供应商可能希望实时共享库存。 但直到现在,数据交换仍然非常有限,因为交换解决方案与单一供应商绑定。 这给自然运行不同平台的数据提供者和消费者造成了摩擦。

今天,我们推出了一个新的开源项目,简化了组织之间的共享:Delta Sharing,一种用于大型数据集安全实时交换的开放协议,首次实现了产品之间数据的安全交换。 我们正在与来自世界领先的软件和数据提供商的合作伙伴一起开发 Delta Sharing。

Databricks 表示希望解决流程效率低下的问题 经常需要的手册 用于组织与客户、合作伙伴和供应商交换数据. 从历史上看,数据共享产品一直绑定到单个供应商或商业产品,限制了使用不同平台的组织之间的协作。

Databricks 联合创始人兼现场工程高级副总裁 Arsalan Tavakoli(如图)说:“公司与他人共享的主要方式是经历繁琐的过程或使用每个人都必须使用的僵化的现有系统。”

汇集多个数据源也是一件苦差事. “你不能只让每个人都可以访问,”他说。 “您需要访问控制、审计和版本控制。 今天没有办法做到这一点。

Delta 共享限制供应商依赖 该公司表示,它支持比以前更广泛、更多样化的用例集。 Unity Catalog 可用于 SQL、可视化分析工具以及 Python 和 R 等编程语言。Delta 共享还使组织能够以 Apache Parquet 和 Delta Lake 格式实时大规模共享现有数据集,而无需需要副本。

Delta Sharing 是 Databricks 推出的第五个主要开源项目,继Apache Spark、Delta Lake、用于机器学习的MLflow,以及在Spark上实现pandas DataFrame应用程序接口的Koalas之后。 该项目正在捐赠给 Linux 基金会。

Databricks 还突出显示了«统一目录« 标准化的数据目录以及什么是 与“Delta共享”兼容。 Unity Catalog 有一个新的界面,可以方便地发现和管理公司的所有数据库,可以完整查看云端数据和现有目录,当然还有 Databricks 的 Lakehouse 平台。

统一目录 提供基于 ANSI SQL 的单一安全模型, 简化部署和标准化云治理。 该工具还 可以集成到现有的数据目录中 Alation、Collibra、Privacera 和 Immuta,以便各自的客户可以在现有的基础上建立一个集中的、面向未来的治理模型,而无需高昂的迁移成本。

最后 如果您有兴趣了解更多有关它的信息,您可以检查 以下链接中提供了详细信息。


发表您的评论

您的电子邮件地址将不会被发表。 必填字段标有 *

*

*

  1. 负责资料:AB Internet Networks 2008 SL
  2. 数据用途:控制垃圾邮件,注释管理。
  3. 合法性:您的同意
  4. 数据通讯:除非有法律义务,否则不会将数据传达给第三方。
  5. 数据存储:Occentus Networks(EU)托管的数据库
  6. 权利:您可以随时限制,恢复和删除您的信息。