Выпущена версия DuckDB 0.6.0, которая включает улучшения записи на диск, загрузки данных и многое другое.

DuckDB — СУБД, используемая Google, Facebook и Airbnb.

DuckDB — это система управления базами данных SQL OLAP, которая находится в стадии разработки.

Анонсирован выход новой версии СУБД УткаДБ 0.6.0, версия, в которой сжатие данных было улучшено, в дополнение к тому, что были добавлены новые функции, а также улучшения хранения, среди прочего.

УткаДБ объединить свойства SQLite такие как компактность, возможность подключения в виде интегрированной библиотеки, хранение БД в одном файле и удобный CLI-интерфейс, с инструментами и оптимизациями для выполнения аналитических запросов, покрывающих значительную часть хранимых данных, например, которые выполняют агрегацию всего содержимого таблицы или объединяют несколько больших таблиц.

Основные новые функции DuckDB 0.6.0

В представленной новой версии подчеркивается, что продолжалась работа по совершенствованию формата хранения, Кроме того реализован режим записи на диск, где при загрузке большого набора данных в одной транзакции данные сжимаются и передаются в файл из базы данных, не дожидаясь выполнения команды COMMIT для фиксации транзакции.

Еще одно изменение, которое выделяется в новой версии, заключается в том, что добавлена ​​поддержка параллельной загрузки данных в отдельные таблицы, что может значительно увеличить скорость загрузки на многоядерных системах. Например, в старой версии загрузка базы данных со 150 млн строк на 10-ядерном процессоре занимала 91 секунду, а в новой версии эта операция занимает 17 секунд. Есть два режима параллельной загрузки: с сохранением порядка записи и без сохранения порядка.

Для сжатия данных используется алгоритм FSST. (Быстрая таблица статических символов), которая позволяет упаковывать данные в строки, используя общий словарь совпадений типов. Применение нового алгоритма позволило уменьшить размер тестовой базы данных с 761 МБ до 251 МБ.

Для сжатия чисел (DOUBLE и FLOAT) предложены алгоритмы Chimp и Patas. По сравнению с предыдущим алгоритмом Gorillas, Chimp обеспечивает более высокий уровень сжатия и более быструю распаковку. Алгоритм Patas отстает от Chimp по степени сжатия, но значительно быстрее по скорости распаковки, что примерно равно чтению несжатых данных.

Также отмечается, что было добавлено экспериментальная возможность загрузки данных из файлов CSV в несколько параллельных потоков (SET Experiment_parallel_csv=true), что значительно сокращает время загрузки больших CSV-файлов. Например, когда опция была включена, время загрузки CSV-файла размером 720 МБ сократилось с 3,5 до 0,6 секунды.

Из других изменений которые выделяются из этой новой версии:

  • Реализована возможность параллельного выполнения операций создания индекса и управления им.
  • SQL предоставляет возможность формировать запросы, начинающиеся со слова «FROM» вместо «SELECT». В этом случае предполагается, что запрос начинается с "SELECT *".
  • Добавлена ​​поддержка выражения COLUMNS в SQL, что позволяет выполнять операцию над несколькими столбцами без дублирования выражения.
  • Оптимизировано потребление памяти. По умолчанию на платформе Linux для управления памятью используется библиотека jemalloc. Значительно улучшена производительность операций слияния хэшей при ограничении памяти.
  • В интерфейс командной строки добавлен режим вывода «.mode duckbox», в котором центральные столбцы отбрасываются в зависимости от ширины строк окна терминала). С помощью параметра «.maxrows X» вы также можете ограничить количество выходных строк.
  • Интерфейс командной строки обеспечивает контекстно-зависимое автозаполнение ввода (ввод ключевых слов, имен таблиц, функций, имен столбцов и имен файлов завершен).
  • Интерфейс командной строки включен по умолчанию для отображения индикатора выполнения запроса.

наконец, если вы интересно узнать об этом больше, вы можете проверить подробности По следующей ссылке.


Оставьте свой комментарий

Ваш электронный адрес не будет опубликован. Обязательные для заполнения поля помечены *

*

*

  1. Ответственный за данные: AB Internet Networks 2008 SL
  2. Назначение данных: контроль спама, управление комментариями.
  3. Легитимация: ваше согласие
  4. Передача данных: данные не будут переданы третьим лицам, кроме как по закону.
  5. Хранение данных: база данных, размещенная в Occentus Networks (ЕС)
  6. Права: в любое время вы можете ограничить, восстановить и удалить свою информацию.