DuckDB 0.6.0 вече е пуснат и включва подобрения при запис на диск, зареждане на данни и други.

DuckDB, СУБД, използвана от Google, Facebook и Airbnb

DuckDB е SQL OLAP система за управление на база данни в процес на създаване

Беше обявено пускането на новата версия на СУБД DuckDB 0.6.0, версия, в която компресирането на данни е подобрено, в допълнение към факта, че са добавени нови функции, както и подобрения в съхранението, наред с други неща.

DuckDB комбинирайте свойствата на SQLite като компактност, възможност за свързване под формата на интегрирана библиотека, съхранение на базата данни в един файл и удобен CLI интерфейс, с инструменти и оптимизации за извършване на аналитични заявки, покриващи значителна част от съхранените данни, напр. които извършват агрегиране на цялото съдържание на таблица или обединяват множество големи таблици.

Основни нови характеристики на DuckDB 0.6.0

В тази нова версия, която е представена, е подчертано, че продължи работата по подобряване на формата за съхранение, Освен, че въведен е режим на запис на диск, където, когато голям набор от данни се зарежда в една транзакция, данните се компресират и предават поточно към файл от базата данни, без да се чака командата COMMIT за извършване на транзакцията.

Друга от промените, които се открояват в новата версия, е тази добавена поддръжка за паралелно зареждане на данни в отделни таблици, което може значително да увеличи скоростта на зареждане на многоядрени системи. Например в старата версия зареждането на база данни със 150 милиона реда на 10-ядрен процесор отнемаше 91 секунди, а в новата версия тази операция отнема 17 секунди. Има два режима на паралелно зареждане: със запазване на реда на запис и без запазване на реда.

За компресиране на данни се използва алгоритъмът FSST (Бърза таблица със статични символи), която ви позволява да пакетирате данни в редове, като използвате общ речник на съвпадения на типове. Прилагането на новия алгоритъм позволи да се намали размерът на тестовата база данни от 761 MB на 251 MB.

За компресиране на числа (DOUBLE и FLOAT) се предлагат алгоритмите Chimp и Patas. В сравнение с предишния алгоритъм на Gorillas, Chimp осигурява по-високо ниво на компресия и по-бърза декомпресия. Алгоритъмът Patas изостава от Chimp по отношение на компресията, но е значително по-бърз по отношение на скоростта на декомпресия, която е приблизително същата като при четене на некомпресирани данни.

Отбелязва се също, че е добавен експериментална възможност за зареждане на данни от CSV файлове в множество паралелни потоци (SET experimental_parallel_csv=true), което значително намалява времето за зареждане на големи CSV файлове. Например, когато опцията беше активирана, времето за изтегляне на 720MB CSV файл беше намалено от 3,5 секунди на 0,6 секунди.

От останалите промени които се открояват от тази нова версия:

  • Реализирана е възможността за паралелно изпълнение на операциите по създаване и управление на индекси.
  • SQL предоставя възможност за формиране на заявки, които започват с думата "FROM" вместо "SELECT". В този случай се приема, че заявката започва с "SELECT *".
  • Добавена е поддръжка за израза „COLUMNS“ в SQL, което ви позволява да извършвате операция върху множество колони, без да дублирате израза.
  • Оптимизирана консумация на памет. По подразбиране на платформата Linux библиотеката jemalloc се използва за управление на паметта. Значително подобрена производителност на операциите за сливане на хеш, когато паметта е ограничена.
  • Добавен е изходен режим ".mode duckbox" към CLI, отхвърляйки централните колони въз основа на ширината на линиите на прозореца на терминала). С параметъра ".maxrows X" можете също да ограничите броя на изходните редове.
  • CLI осигурява автоматично довършване на въвеждане в зависимост от контекста (въвеждането на ключови думи, имена на таблици, функции, имена на колони и имена на файлове е завършено).
  • CLI е активиран по подразбиране, за да показва индикатор за напредъка на заявката.

най-накрая, ако сте заинтересовани да научите повече за това, можете да проверите подробностите В следващия линк.


Оставете вашия коментар

Вашият имейл адрес няма да бъде публикуван. Задължителните полета са отбелязани с *

*

*

  1. Отговорник за данните: AB Internet Networks 2008 SL
  2. Предназначение на данните: Контрол на СПАМ, управление на коментари.
  3. Легитимация: Вашето съгласие
  4. Съобщаване на данните: Данните няма да бъдат съобщени на трети страни, освен по законово задължение.
  5. Съхранение на данни: База данни, хоствана от Occentus Networks (ЕС)
  6. Права: По всяко време можете да ограничите, възстановите и изтриете информацията си.