Ang DuckDB 0.6.0 ay inilabas na ngayon at may kasamang mga pagpapahusay sa pagsulat ng disk, paglo-load ng data at higit pa.

DuckDB, ang DBMS na ginagamit ng Google, Facebook at Airbnb

Ang DuckDB ay isang SQL OLAP database management system sa paggawa

Ang paglabas ng bagong bersyon ng DBMS ay inihayag DuckDB 0.6.0, bersyon kung saan ang data compression ay napabuti, bilang karagdagan sa katotohanan na ang mga bagong function ay idinagdag, pati na rin ang mga pagpapabuti ng storage, bukod sa iba pang mga bagay.

DuckDB pagsamahin ang mga katangian ng SQLite tulad ng pagiging compactness, ang kakayahang kumonekta sa anyo ng isang pinagsamang library, imbakan ng database sa isang solong file at isang maginhawang interface ng CLI, na may mga tool at pag-optimize para sa pagsasagawa ng mga analytical na query na sumasaklaw sa isang makabuluhang bahagi ng nakaimbak na data, halimbawa , na nagsasagawa ng pagsasama-sama ng lahat ng nilalaman ng talahanayan o pinagsama ang maramihang malalaking talahanayan.

Pangunahing bagong tampok ng DuckDB 0.6.0

Sa bagong bersyon na ito na ipinakita, ito ay naka-highlight na nagpatuloy ang trabaho sa pagpapabuti ng format ng imbakan, Bukod doon isang disk write mode ay ipinatupad, kung saan kapag ang isang malaking set ng data ay na-load sa isang transaksyon, ang data ay na-compress at ini-stream sa isang file mula sa database nang hindi naghihintay para sa COMMIT command na gawin ang transaksyon.

Isa pa sa mga pagbabagong namumukod-tangi sa bagong bersyon ay iyon nagdagdag ng suporta para sa parallel na paglo-load ng data sa magkakahiwalay na mga talahanayan, na maaaring makabuluhang tumaas ang bilis ng paglo-load sa mga multicore system. Halimbawa, sa lumang bersyon, ang pag-load ng database na may 150 milyong mga hilera sa isang 10-core na CPU ay tumagal ng 91 segundo, at sa bagong bersyon, ang operasyong ito ay tumatagal ng 17 segundo. Mayroong dalawang mga mode ng parallel loading: may record order preservation at walang order preservation.

Para sa compression ng data, ginagamit ang FSST algorithm (Mga Static Symbols Quick Table), na nagbibigay-daan sa iyong mag-pack ng data sa loob ng mga row gamit ang isang karaniwang diksyunaryo ng mga tugma ng uri. Ang aplikasyon ng bagong algorithm ay pinapayagan na bawasan ang laki ng database ng pagsubok mula 761 MB hanggang 251 MB.

Upang i-compress ang mga numero (DOUBLE at FLOAT) ang mga algorithm ng Chimp at Patas ay iminungkahi. Kung ikukumpara sa nakaraang algorithm ng Gorillas, nagbibigay ang Chimp ng mas mataas na antas ng compression at mas mabilis na decompression. Ang algorithm ng Patas ay nahuhuli sa Chimp sa mga tuntunin ng compression, ngunit mas mabilis sa bilis ng decompression, na halos kapareho ng pagbabasa ng hindi naka-compress na data.

Nabanggit din na idinagdag ito isang pang-eksperimentong kakayahang mag-load ng data mula sa mga CSV file sa maraming magkatulad na stream (SET experimental_parallel_csv=true), na makabuluhang binabawasan ang oras ng pagkarga para sa malalaking CSV file. Halimbawa, kapag pinagana ang opsyon, ang oras ng pag-download para sa 720MB CSV file ay nabawasan mula 3,5 segundo hanggang 0,6 segundo.

Sa iba pang mga pagbabago tumayo mula sa bagong bersyon na ito:

  • Ang posibilidad ng parallel execution ng index creation at management operations ay ipinatupad.
  • Nagbibigay ang SQL ng kakayahang bumuo ng mga query na nagsisimula sa salitang "FROM" sa halip na "SELECT". Sa kasong ito, ang query ay ipinapalagay na magsisimula sa "SELECT *".
  • Nagdagdag ng suporta para sa expression na "COLUMNS" sa SQL, na nagbibigay-daan sa iyong magsagawa ng operasyon sa maraming column nang hindi dinu-duplicate ang expression.
  • Na-optimize na pagkonsumo ng memorya. Bilang default sa platform ng Linux, ang jemalloc library ay ginagamit para sa pamamahala ng memorya. Makabuluhang pinabuting pagganap ng mga pagpapatakbo ng hash merge kapag limitado ang memorya.
  • Idinagdag ang ".mode duckbox" na output mode sa CLI, itinatapon ang mga column sa gitna batay sa lapad ng mga linya ng terminal window). Gamit ang parameter na ".maxrows X", maaari mo ring limitahan ang bilang ng mga row ng output.
  • Ang CLI ay nagbibigay ng context-aware input autocompletion (mga keyword, pangalan ng talahanayan, function, pangalan ng column, at file names input ay nakumpleto na).
  • Ang CLI ay pinagana bilang default upang magpakita ng tagapagpahiwatig ng pag-unlad ng query.

sa wakas kung ikaw nga interesadong malaman ang higit pa tungkol dito, maaari mong suriin ang mga detalye Sa sumusunod na link.


Iwanan ang iyong puna

Ang iyong email address ay hindi nai-publish. Mga kinakailangang patlang ay minarkahan ng *

*

*

  1. Responsable para sa data: AB Internet Networks 2008 SL
  2. Layunin ng data: Kontrolin ang SPAM, pamamahala ng komento.
  3. Legitimation: Ang iyong pahintulot
  4. Komunikasyon ng data: Ang data ay hindi maiparating sa mga third party maliban sa ligal na obligasyon.
  5. Imbakan ng data: Ang database na naka-host ng Occentus Networks (EU)
  6. Mga Karapatan: Sa anumang oras maaari mong limitahan, mabawi at tanggalin ang iyong impormasyon.