DuckDB 0.6.0 現已發布,包括對磁盤寫入、數據加載等方面的改進。

DuckDB,谷歌、Facebook 和 Airbnb 使用的 DBMS

DuckDB 是一個正在開發的 SQL OLAP 數據庫管理系統

發布新版DBMS 鴨子數據庫 0.6.0,其中的版本 數據壓縮得到改進,除了添加了新功能之外,還有存儲改進等。

鴨子數據庫 結合 SQLite 屬性 例如緊湊性、以集成庫的形式連接的能力、將數據庫存儲在單個文件中以及方便的 CLI 界面,以及用於執行涵蓋大部分存儲數據的分析查詢的工具和優化,例如,它執行所有表內容的聚合或合併多個大表。

DuckDB 0.6.0主要新特性

在展示的這個新版本中,強調了 繼續改進存儲格式, 除此之外 已實施磁盤寫入模式,當在一個事務中加載大型數據集時,數據被壓縮並從數據庫流式傳輸到文件,而無需等待 COMMIT 命令提交事務。

新版本中另一個突出的變化是 添加了對將數據並行加載到單獨表中的支持,這可以顯著提高多核系統的加載速度。 例如,在舊版本中,在 150 核 CPU 上加載一個 10 億行的數據庫需要 91 秒,而在新版本中,這個操作需要 17 秒。 並行加載有兩種方式:記錄保序和不保序。

對於數據壓縮,使用FSST算法 (靜態符號快速表),它允許您使用類型匹配的通用字典在行內打包數據。 新算法的應用允許將測試數據庫的大小從 761 MB 減少到 251 MB。

為了壓縮數字(DOUBLE 和 FLOAT),提出了 Chimp 和 Patas 算法。 與之前的 Gorillas 算法相比,Chimp 提供了更高級別的壓縮和更快的解壓縮。 Patas 算法在壓縮方面落後於 Chimp,但在解壓速度上​​明顯更快,這與讀取未壓縮的數據差不多。

還注意到它被添加 在多個並行流中從 CSV 文件加載數據的實驗能力 (SET experimental_parallel_csv=true),這顯著減少了大型 CSV 文件的加載時間。 例如,啟用該選項後,720MB CSV 文件的下載時間從 3,5 秒減少到 0,6 秒。

其他變化 從這個新版本中脫穎而出:

  • 並行執行索引創建和管理操作的可能性已經實現。
  • SQL 提供了形成以單詞“FROM”而不是“SELECT”開頭的查詢的能力。 在這種情況下,假定查詢以“SELECT *”開頭。
  • 在 SQL 中添加了對“COLUMNS”表達式的支持,允許您在不復製表達式的情況下對多個列執行操作。
  • 優化內存消耗。 默認情況下,在 Linux 平台上,jemalloc 庫用於內存管理。 當內存有限時,顯著提高哈希合併操作的性能。
  • 向 CLI 添加了“.mode duckbox”輸出模式,根據終端窗口的行寬丟棄中心列)。 使用“.maxrows X”參數,您還可以限制輸出行數。
  • CLI 提供上下文感知輸入自動完成(關鍵字、表名、函數、列名和文件名輸入完成)。
  • 默認情況下啟用 CLI 以顯示查詢進度指示器。

最後,如果你是 有興趣了解更多,您可以查看詳細信息 在下面的鏈接中。


發表您的評論

您的電子郵件地址將不會被發表。 必填字段標有 *

*

*

  1. 負責資料:AB Internet Networks 2008 SL
  2. 數據用途:控制垃圾郵件,註釋管理。
  3. 合法性:您的同意
  4. 數據通訊:除非有法律義務,否則不會將數據傳達給第三方。
  5. 數據存儲:Occentus Networks(EU)託管的數據庫
  6. 權利:您可以隨時限制,恢復和刪除您的信息。