DuckDB 0.9.0 "Undulata" arrive avec des améliorations en termes de stockage, de support et plus encore

DuckDB, le SGBD utilisé par Google, Facebook et Airbnb

DuckDB est un système de gestion de base de données SQL OLAP en devenir

annoncé le lancement de la nouvelle version de DuckDB 0.9.0 avec le nom de code « Undulata » en l'honneur du canard à bec jaune originaire d'Afrique. La nouvelle édition se distingue par l'inclusion du hachage hors cœur, de l'amélioration des performances de l'agrégat de hachage, de l'amélioration des performances, etc.

CanardDB combiner les propriétés SQLite tels que la compacité, la possibilité de se connecter sous la forme d'une bibliothèque intégrée, le stockage de la base de données dans un seul fichier et une interface CLI pratique, avec des outils et des optimisations pour effectuer des requêtes analytiques couvrant une partie importante des données stockées, par exemple , qui effectuent l'agrégation de tous les contenus de table ou fusionnent plusieurs grandes tables.

Principales nouveautés de DuckDB 0.9.0 « Undulata »

L'une des principales nouveautés de la nouvelle version de DuckDB 0.9.0 est peut-être la amélioration des performances avec le hachage Out-Of-Core, depuis maintenant lors de l'ajout de grands ensembles de données lors du traitement des requêtes. Il est mentionné qu'en utilisant un moteur d'exécution de streaming et un gestionnaire de tampon, DuckDB prend en charge de nombreuses opérations sur des ensembles de données dépassant la mémoire.

Dans cette version, le la prise en charge du débordement de disque est encore étendue en prenant en charge les agrégats de hachage hors cœur. Ce qui résout le problème de l'arrêt de l'opération en raison d'un manque de mémoire dans les situations où les données utilisées pour ajouter la table de hachage ne rentrent pas dans la RAM.

Une autre nouveauté qui ressort est que le prise en charge de la compression des chaînes et des types de nombres des entiers juste avant que les données n'entrent dans les opérateurs de tri et d'agrégation groupés, ce qui a considérablement réduit la consommation de mémoire.

En plus de cela, nous pouvons également trouver le chargement automatique des extensions de confiance et sera éventuellement installé lorsqu'il est utilisé dans une requête. Il est mentionné que l'ensemble des extensions à chargement automatique est limité aux extensions officielles distribuées par DuckDB Labs.

En parlant d'extensions, également dans DuckDB 0.9.0 « Undulata » et plug-in pour AWS qui fournit des fonctionnalités qui utilisent le kit AWS SDK. Cette extension contient une fonction « LOAD_AWS_CREDENTIALS » qui est utilisée par AWS pour obtenir et configurer automatiquement les informations d'identification.

Également dans cette version, il est ajouté prise en charge des extensions chargeables pour DuckDB-WASM. Auparavant, toute extension que vous souhaitiez utiliser avec le client WASM devait être intégrée. Avec cette version, les extensions peuvent être chargées dynamiquement. Lorsqu'une extension est chargée, le package WASM est téléchargé et la fonctionnalité de l'extension est activée.

Des autres changements qui se démarquent de cette nouvelle version:

  • Activation du nettoyage automatique de groupes de lignes entiers lors de l'exécution d'une opération DELETE. L'option permettant de tronquer le fichier de base de données (en réduisant sa taille) après la suppression des données est également implémentée si les groupes de lignes supprimés se trouvaient à la fin du fichier.
  • Amélioration de l'efficacité du stockage des index ART utilisés pour vérifier l'unicité ou les clés primaires et étrangères. Par exemple, par rapport à la version précédente, la taille de l'index de test est passée de 278 Mo à 78 Mo.
  • Correction de la régression et du mécanisme de gomme
  • Correction d'une erreur de segmentation lors de l'ajout de données de liste
  • Tests ART et refactoring de référence
  • Augmentation de la limite de mémoire lors des tests pour éviter les défaillances non déterministes des circuits intégrés
  • Ajout d'un plugin expérimental pour lire les données du stockage Azure. Cette extension permet à DuckDB de lire nativement les données stockées dans Azure, de la même manière qu'il peut lire les données stockées dans S3.
  • Configuration de Jemalloc, ainsi que de l'allocateur de tampon et suppression de la copie de chaîne redondante dans le dictionnaire Parquet
  • Le client a ajouté un support expérimental pour l'API PySpark.
  • Ajout d'un plugin expérimental pour lire les tableaux au format Apache Iceberg.
  • Mise à jour de Julia vers 0.8.1
  • Ajout de conn.interrupt() à l'API Python de DuckDB
  • Correction des paramètres de régression x/y échangés

enfin si tu es intéressé à en savoir plus, vous pouvez vérifier les détails dans le lien suivant.


Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont marqués avec *

*

*

  1. Responsable des données : AB Internet Networks 2008 SL
  2. Finalité des données: Contrôle du SPAM, gestion des commentaires.
  3. Légitimation: votre consentement
  4. Communication des données: Les données ne seront pas communiquées à des tiers sauf obligation légale.
  5. Stockage des données: base de données hébergée par Occentus Networks (EU)
  6. Droits: à tout moment, vous pouvez limiter, récupérer et supprimer vos informations.