DuckDB 0.9.0“Undulata”在存储、支持等方面进行了改进

DuckDB,谷歌、Facebook 和 Airbnb 使用的 DBMS

DuckDB 是一个正在开发的 SQL OLAP 数据库管理系统

宣布推出 新版本 DuckDB 0.9.0,代号“Undulata” 以纪念原产于非洲的黄嘴鸭。 新版本的突出之处在于包括外核哈希、哈希聚合性能改进、性能改进等等。

鸭子数据库 结合 SQLite 属性 例如紧凑性、以集成库的形式连接的能力、将数据库存储在单个文件中以及方便的 CLI 界面,以及用于执行涵盖大部分存储数据的分析查询的工具和优化,例如,它执行所有表内容的聚合或合并多个大表。

DuckDB 0.9.0“Undulata”主要新特性

新版本 DuckDB 0.9.0 的主要新功能之一可能是 通过核外哈希提高性能, 从现在开始,在处理查询时添加大型数据集。 提到,通过使用流式执行引擎和缓冲区管理器,DuckDB支持对超出内存的数据集的许多操作。

在此版本中, 进一步扩大了磁盘溢出支持 通过支持核外哈希聚合。 解决了当添加哈希表的数据装不下 RAM 的情况下,由于内存不足而导致操作终止的问题。

另一个引人注目的新颖之处是 支持字符串和数字类型的压缩 在数据进入分组排序和聚合运算符之前输入整数,这显着减少了内存消耗。

除此之外,我们还可以找到 自动加载受信任的扩展 并且在查询中使用时可以选择安装。 需要提到的是,自动加载扩展集仅限于 DuckDB Labs 发布的官方扩展。

说到扩展,也在 DuckDB 0.9.0 “Undulata” 中 AWS 插件 它提供使用 AWS 开发工具包的功能。 此扩展包含一个“LOAD_AWS_CREDENTIALS”函数,AWS 使用该函数自动获取和配置凭证。

在此版本中还添加了 支持 DuckDB-WASM 的可加载扩展。 以前,您想要与 WASM 客户端一起使用的任何扩展都必须集成。 在此版本中,可以动态加载扩展。 加载扩展时,会下载 WASM 包并启用扩展的功能。

其他变化 从这个新版本中脱颖而出:

  • 执行 DELETE 操作时启用自动清理整个行组。 如果删除的行组位于文件末尾,则还可以实现删除数据后截断数据库文件(减小其大小)的选项。
  • 提高了用于验证唯一性或主键和外键的 ART 索引的存储效率。 例如,与之前的版本相比,测试索引大小从 278 MB 减少到 78 MB。
  • 修复回归并修复橡皮擦机制
  • 修复添加列表数据时的分段错误
  • ART 测试和基准重构
  • 增加测试中的内存限制以避免不确定的 IC 故障
  • 添加了一个实验性插件,用于从 Azure 存储中读取数据。此扩展允许 DuckDB 原生读取存储在 Azure 中的数据,类似于读取存储在 S3 中的数据。
  • 配置 Jemalloc,加上缓冲区分配器并删除 parquet 字典中的冗余字符串副本
  • 客户端添加了对 PySpark API 的实验性支持。
  • 添加了一个实验性插件来读取 Apache Iceberg 格式的表。
  • 朱莉娅更新到0.8.1
  • 将 conn.interrupt() 添加到 DuckDB Python API
  • 修复交换的 x/y 回归参数

最后,如果你是 有兴趣了解更多,您可以查看详细信息 在下面的链接中。


发表您的评论

您的电子邮件地址将不会被发表。 必填字段标有 *

*

*

  1. 负责资料:AB Internet Networks 2008 SL
  2. 数据用途:控制垃圾邮件,注释管理。
  3. 合法性:您的同意
  4. 数据通讯:除非有法律义务,否则不会将数据传达给第三方。
  5. 数据存储:Occentus Networks(EU)托管的数据库
  6. 权利:您可以随时限制,恢复和删除您的信息。