DuckDB 0.6.0 שוחרר כעת וכולל שיפורים בכתיבת דיסקים, טעינת נתונים ועוד.

DuckDB, ה-DBMS המשמש את גוגל, פייסבוק ו-Airbnb

DuckDB היא מערכת ניהול מסד נתונים של SQL OLAP בהתהוות

הוכרזה שחרור הגרסה החדשה של DBMS DuckDB 0.6.0, גרסה בה דחיסת הנתונים שופרה, בנוסף לעובדה שנוספו פונקציות חדשות, כמו גם שיפורי אחסון, בין היתר.

DuckDB לשלב מאפייני SQLite כמו קומפקטיות, יכולת חיבור בצורת ספרייה משולבת, אחסון מסד הנתונים בקובץ בודד וממשק CLI נוח, עם כלים ואופטימיזציות לביצוע שאילתות אנליטיות המכסות חלק ניכר מהנתונים המאוחסנים, למשל, אשר מבצעים צבירה של כל תוכן הטבלה או מיזוג טבלאות גדולות מרובות.

תכונות חדשות עיקריות של DuckDB 0.6.0

בגרסה החדשה הזו שמוצגת, מודגש כי העבודה נמשכה על שיפור פורמט האחסון, חוץ מזה יושם מצב כתיבה בדיסק, כאשר כאשר מערך נתונים גדול נטען בטרנזקציה אחת, הנתונים נדחסים ומוזרמים לקובץ ממסד הנתונים מבלי להמתין לפקודת COMMIT שתבצע את העסקה.

עוד מהשינויים הבולטים בגרסה החדשה הוא זה נוספה תמיכה בטעינה מקבילה של נתונים לטבלאות נפרדות, מה שיכול להגביר משמעותית את מהירות הטעינה במערכות מרובות ליבות. לדוגמה, בגרסה הישנה, ​​טעינת מסד נתונים עם 150 מיליון שורות על מעבד 10 ליבות ארכה 91 שניות, ובגרסה החדשה הפעולה הזו אורכת 17 שניות. ישנם שני מצבים של טעינה מקבילה: עם שימור סדר שיא וללא שימור סדר.

עבור דחיסת נתונים, נעשה שימוש באלגוריתם FSST (Static Symbols Quick Table), המאפשרת לארוז נתונים בתוך שורות באמצעות מילון נפוץ של התאמות סוגים. היישום של האלגוריתם החדש אפשר להקטין את גודל מסד הנתונים של הבדיקה מ-761 מגה-בייט ל-251 מגה-בייט.

כדי לדחוס מספרים (DOUBLE ו-FLOAT) מוצעים האלגוריתמים של Chimp ו-Patas. בהשוואה לאלגוריתם Gorillas הקודם, Chimp מספק רמה גבוהה יותר של דחיסה ופירוק מהיר יותר. אלגוריתם ה-Patas מפגר אחרי Chimp מבחינת דחיסה, אבל הוא מהיר יותר משמעותית במהירות הדקומפרסיה, שזה בערך כמו קריאת נתונים לא דחוסים.

יצוין גם שהוא נוסף יכולת ניסיונית לטעון נתונים מקובצי CSV במספר זרמים מקבילים (SET experimental_parallel_csv=true), מה שמפחית משמעותית את זמן הטעינה עבור קבצי CSV גדולים. לדוגמה, כאשר האפשרות הופעלה, זמן ההורדה של קובץ CSV בנפח 720MB הצטמצם מ-3,5 שניות ל-0,6 שניות.

משאר השינויים הבולטים מהגרסה החדשה הזו:

  • יושמה אפשרות לביצוע מקביל של פעולות יצירת וניהול אינדקס.
  • SQL מספק את היכולת ליצור שאילתות שמתחילות במילה "FROM" במקום "SELECT". במקרה זה, ההנחה היא שהשאילתה מתחילה ב-"SELECT *".
  • נוספה תמיכה בביטוי "COLUMNS" ב-SQL, המאפשרת לבצע פעולה במספר עמודות מבלי לשכפל את הביטוי.
  • צריכת זיכרון מיטבית. כברירת מחדל בפלטפורמת לינוקס, ספריית jemalloc משמשת לניהול זיכרון. ביצועים משופרים משמעותית של פעולות מיזוג Hash כאשר הזיכרון מוגבל.
  • נוסף מצב פלט ".mode duckbox" ל-CLI, תוך השלכת עמודות מרכזיות על סמך רוחב הקווים של חלון הטרמינל). עם הפרמטר ".maxrows X", אתה יכול גם להגביל את מספר שורות הפלט.
  • ה-CLI מספק השלמה אוטומטית של קלט מודע להקשר (מילות מפתח, שמות טבלאות, פונקציות, שמות עמודות ושמות קבצים הושלמה).
  • ה-CLI מופעל כברירת מחדל כדי להציג מחוון התקדמות שאילתה.

סוף סוף אם אתה מעוניין לדעת יותר על זה, אתה יכול לבדוק את הפרטים בקישור הבא.


השאירו את התגובה שלכם

כתובת הדוא"ל שלך לא תפורסם. שדות חובה מסומנים *

*

*

  1. אחראי על הנתונים: AB Internet Networks 2008 SL
  2. מטרת הנתונים: בקרת ספאם, ניהול תגובות.
  3. לגיטימציה: הסכמתך
  4. מסירת הנתונים: הנתונים לא יועברו לצדדים שלישיים אלא בהתחייבות חוקית.
  5. אחסון נתונים: מסד נתונים המתארח על ידי Occentus Networks (EU)
  6. זכויות: בכל עת תוכל להגביל, לשחזר ולמחוק את המידע שלך.