Το DuckDB 0.6.0 έχει πλέον κυκλοφορήσει και περιλαμβάνει βελτιώσεις στην εγγραφή δίσκου, τη φόρτωση δεδομένων και άλλα.

DuckDB, το DBMS που χρησιμοποιείται από την Google, το Facebook και την Airbnb

Το DuckDB είναι ένα σύστημα διαχείρισης βάσεων δεδομένων SQL OLAP υπό κατασκευή

Ανακοινώθηκε η κυκλοφορία της νέας έκδοσης του DBMS DuckDB 0.6.0, έκδοση στην οποία η συμπίεση δεδομένων έχει βελτιωθεί, πέραν του ότι έχουν προστεθεί νέες λειτουργίες, αλλά και βελτιώσεις αποθήκευσης μεταξύ άλλων.

DuckDB συνδυάζουν ιδιότητες SQLite όπως συμπαγής, δυνατότητα σύνδεσης με τη μορφή ολοκληρωμένης βιβλιοθήκης, αποθήκευση της βάσης δεδομένων σε ένα μόνο αρχείο και βολική διεπαφή CLI, με εργαλεία και βελτιστοποιήσεις για την εκτέλεση αναλυτικών ερωτημάτων που καλύπτουν σημαντικό μέρος των αποθηκευμένων δεδομένων, για παράδειγμα, που πραγματοποιούν συνάθροιση όλων των περιεχομένων του πίνακα ή συγχωνεύουν πολλούς μεγάλους πίνακες.

Κύρια νέα χαρακτηριστικά του DuckDB 0.6.0

Σε αυτή τη νέα έκδοση που παρουσιάζεται, επισημαίνεται ότι συνεχίστηκαν οι εργασίες για τη βελτίωση της μορφής αποθήκευσης, εκτός αυτού έχει εφαρμοστεί μια λειτουργία εγγραφής δίσκου, όπου όταν ένα μεγάλο σύνολο δεδομένων φορτώνεται σε μία συναλλαγή, τα δεδομένα συμπιέζονται και μεταφέρονται σε ένα αρχείο από τη βάση δεδομένων χωρίς να περιμένουμε την εντολή COMMIT για να πραγματοποιήσει τη συναλλαγή.

Μια άλλη από τις αλλαγές που ξεχωρίζει στη νέα έκδοση είναι ότι προστέθηκε υποστήριξη για παράλληλη φόρτωση δεδομένων σε ξεχωριστούς πίνακες, το οποίο μπορεί να αυξήσει σημαντικά την ταχύτητα φόρτωσης σε πολυπύρηνα συστήματα. Για παράδειγμα, στην παλιά έκδοση, η φόρτωση μιας βάσης δεδομένων με 150 εκατομμύρια σειρές σε μια CPU 10 πυρήνων χρειάστηκε 91 δευτερόλεπτα και στη νέα έκδοση, αυτή η λειτουργία διαρκεί 17 δευτερόλεπτα. Υπάρχουν δύο τρόποι παράλληλης φόρτωσης: με διατήρηση παραγγελιών και χωρίς διατήρηση παραγγελιών.

Για τη συμπίεση δεδομένων, χρησιμοποιείται ο αλγόριθμος FSST (Γρήγορος πίνακας στατικών συμβόλων), ο οποίος σας επιτρέπει να συσκευάζετε δεδομένα εντός σειρών χρησιμοποιώντας ένα κοινό λεξικό αντιστοιχίσεων τύπων. Η εφαρμογή του νέου αλγορίθμου επέτρεψε τη μείωση του μεγέθους της δοκιμαστικής βάσης δεδομένων από 761 MB σε 251 MB.

Για τη συμπίεση αριθμών (DOUBLE και FLOAT) προτείνονται οι αλγόριθμοι Chimp και Patas. Σε σύγκριση με τον προηγούμενο αλγόριθμο Gorillas, το Chimp παρέχει υψηλότερο επίπεδο συμπίεσης και ταχύτερη αποσυμπίεση. Ο αλγόριθμος Patas υστερεί σε σχέση με το Chimp όσον αφορά τη συμπίεση, αλλά είναι σημαντικά ταχύτερος στην ταχύτητα αποσυμπίεσης, η οποία είναι περίπου ίδια με την ανάγνωση ασυμπίεστων δεδομένων.

Σημειώνεται επίσης ότι προστέθηκε μια πειραματική ικανότητα φόρτωσης δεδομένων από αρχεία CSV σε πολλαπλές παράλληλες ροές (SET experimental_parallel_csv=true), το οποίο μειώνει σημαντικά τον χρόνο φόρτωσης για μεγάλα αρχεία CSV. Για παράδειγμα, όταν ενεργοποιήθηκε η επιλογή, ο χρόνος λήψης για ένα αρχείο CSV 720 MB μειώθηκε από 3,5 δευτερόλεπτα σε 0,6 δευτερόλεπτα.

Από τις άλλες αλλαγές που ξεχωρίζουν από αυτήν τη νέα έκδοση:

  • Έχει υλοποιηθεί η δυνατότητα παράλληλης εκτέλεσης πράξεων δημιουργίας και διαχείρισης ευρετηρίου.
  • Η SQL παρέχει τη δυνατότητα σχηματισμού ερωτημάτων που ξεκινούν με τη λέξη "FROM" αντί για "SELECT". Σε αυτήν την περίπτωση, το ερώτημα θεωρείται ότι ξεκινά με "SELECT *".
  • Προστέθηκε υποστήριξη για την έκφραση "COLUMNS" στην SQL, επιτρέποντάς σας να εκτελέσετε μια λειτουργία σε πολλές στήλες χωρίς να αντιγράψετε την έκφραση.
  • Βελτιστοποιημένη κατανάλωση μνήμης. Από προεπιλογή στην πλατφόρμα Linux, η βιβλιοθήκη jemalloc χρησιμοποιείται για διαχείριση μνήμης. Σημαντικά βελτιωμένη απόδοση των λειτουργιών συγχώνευσης κατακερματισμού όταν η μνήμη είναι περιορισμένη.
  • Προστέθηκε η λειτουργία εξόδου ".mode duckbox" στο CLI, απορρίπτοντας τις κεντρικές στήλες με βάση το πλάτος των γραμμών του παραθύρου του τερματικού). Με την παράμετρο ".maxrows X", μπορείτε επίσης να περιορίσετε τον αριθμό των σειρών εξόδου.
  • Το CLI παρέχει αυτόματη συμπλήρωση εισόδου με επίγνωση του περιβάλλοντος (η εισαγωγή λέξεων-κλειδιών, ονομάτων πινάκων, συναρτήσεων, ονομάτων στηλών και ονομάτων αρχείων έχει ολοκληρωθεί).
  • Το CLI είναι ενεργοποιημένο από προεπιλογή για να εμφανίζει μια ένδειξη προόδου ερωτήματος.

τελικά αν είσαι ενδιαφέρεται να μάθει περισσότερα για αυτό, μπορείτε να ελέγξετε τις λεπτομέρειες Στον ακόλουθο σύνδεσμο.


Αφήστε το σχόλιό σας

Η διεύθυνση email σας δεν θα δημοσιευθεί. Τα υποχρεωτικά πεδία σημειώνονται με *

*

*

  1. Υπεύθυνος για τα δεδομένα: AB Internet Networks 2008 SL
  2. Σκοπός των δεδομένων: Έλεγχος SPAM, διαχείριση σχολίων.
  3. Νομιμοποίηση: Η συγκατάθεσή σας
  4. Κοινοποίηση των δεδομένων: Τα δεδομένα δεν θα κοινοποιούνται σε τρίτους, εκτός από νομική υποχρέωση.
  5. Αποθήκευση δεδομένων: Βάση δεδομένων που φιλοξενείται από τα δίκτυα Occentus (ΕΕ)
  6. Δικαιώματα: Ανά πάσα στιγμή μπορείτε να περιορίσετε, να ανακτήσετε και να διαγράψετε τις πληροφορίες σας.