تم الآن إصدار DuckDB 0.6.0 ويتضمن تحسينات على كتابة القرص وتحميل البيانات والمزيد.

DuckDB ، نظام إدارة قواعد البيانات الذي تستخدمه Google و Facebook و Airbnb

DuckDB هو نظام إدارة قواعد بيانات SQL OLAP قيد الإعداد

تم الإعلان عن إصدار الإصدار الجديد من نظام إدارة قواعد البيانات (DBMS) DuckDB 0.6.0 تحديث، الإصدار الذي تم تحسين ضغط البيانات، بالإضافة إلى إضافة وظائف جديدة ، بالإضافة إلى تحسينات التخزين ، من بين أشياء أخرى.

دك دي بي الجمع بين خصائص سكليتي مثل الاكتناز ، والقدرة على الاتصال في شكل مكتبة متكاملة ، وتخزين قاعدة البيانات في ملف واحد وواجهة CLI مريحة ، مع أدوات وتحسينات لإجراء استعلامات تحليلية تغطي جزءًا كبيرًا من البيانات المخزنة ، على سبيل المثال ، التي تقوم بتجميع كافة محتويات الجدول أو تدمج عدة جداول كبيرة.

الميزات الرئيسية الجديدة لـ DuckDB 0.6.0

في هذا الإصدار الجديد الذي تم تقديمه ، تم تسليط الضوء على أن استمر العمل على تحسين تنسيق التخزين ، إلى جانب ذلك تم تنفيذ وضع الكتابة على القرص، حيث عندما يتم تحميل مجموعة بيانات كبيرة في معاملة واحدة ، يتم ضغط البيانات وتدفقها إلى ملف من قاعدة البيانات دون انتظار الأمر COMMIT لتنفيذ المعاملة.

آخر التغييرات التي تبرز في الإصدار الجديد هو ذلك إضافة دعم للتحميل المتوازي للبيانات في جداول منفصلة، والتي يمكن أن تزيد بشكل كبير من سرعة التحميل على الأنظمة متعددة النواة. على سبيل المثال ، في الإصدار القديم ، استغرق تحميل قاعدة بيانات بها 150 مليون صف على وحدة معالجة مركزية ذات 10 نوى 91 ثانية ، وفي الإصدار الجديد ، تستغرق هذه العملية 17 ثانية. هناك طريقتان للتحميل المتوازي: مع الاحتفاظ بأمر التسجيل وبدون حفظ الأمر.

لضغط البيانات ، يتم استخدام خوارزمية FSST (Static Symbols Quick Table) ، والذي يسمح لك بحزم البيانات داخل الصفوف باستخدام قاموس شائع لمطابقات النوع. سمح تطبيق الخوارزمية الجديدة بتقليل حجم قاعدة بيانات الاختبار من 761 ميجابايت إلى 251 ميجابايت.

لضغط الأرقام (DOUBLE and FLOAT) يتم اقتراح خوارزميات Chimp و Patas. بالمقارنة مع خوارزمية Gorillas السابقة ، يوفر Chimp مستوى أعلى من الضغط وإلغاء الضغط بشكل أسرع. تتخلف خوارزمية Patas عن Chimp من حيث الضغط ، ولكنها أسرع بشكل ملحوظ في سرعة فك الضغط ، وهو ما يعادل تقريبًا قراءة البيانات غير المضغوطة.

يبرز أيضًا أنه تمت إضافته قدرة تجريبية لتحميل البيانات من ملفات CSV في تدفقات متوازية متعددة (SET trial_parallel_csv = true) ، مما يقلل بشكل كبير من وقت التحميل لملفات CSV الكبيرة. على سبيل المثال ، عند تمكين الخيار ، تم تقليل وقت التنزيل لملف CSV بحجم 720 ميجابايت من 3,5 ثانية إلى 0,6 ثانية.

من التغييرات الأخرى التي تتميز عن هذا الإصدار الجديد:

  • تم تنفيذ إمكانية التنفيذ المتوازي لعمليات إنشاء وإدارة الفهرس.
  • يوفر SQL القدرة على تكوين استعلامات تبدأ بالكلمة "FROM" بدلاً من "SELECT". في هذه الحالة ، يفترض أن يبدأ الاستعلام بـ "SELECT *".
  • تمت إضافة دعم لتعبير "الأعمدة" في SQL ، مما يسمح لك بإجراء عملية على أعمدة متعددة دون تكرار التعبير.
  • استهلاك الذاكرة الأمثل. بشكل افتراضي على منصة Linux ، تُستخدم مكتبة jemalloc لإدارة الذاكرة. تحسين أداء عمليات دمج التجزئة بشكل ملحوظ عندما تكون الذاكرة محدودة.
  • تمت إضافة وضع الإخراج ".mode duckbox" إلى CLI ، مع تجاهل أعمدة المركز بناءً على عرض خطوط نافذة المحطة الطرفية). باستخدام المعلمة ".maxrows X" ، يمكنك أيضًا تحديد عدد صفوف الإخراج.
  • يوفر CLI الإكمال التلقائي للإدخال المدرك للسياق (اكتمل إدخال الكلمات الأساسية وأسماء الجداول والوظائف وأسماء الأعمدة وأسماء الملفات).
  • يتم تمكين CLI افتراضيًا لعرض مؤشر تقدم الاستعلام.

أخيرًا إذا كنت كذلك مهتم بمعرفة المزيد عنها، يمكنك التحقق من التفاصيل في الرابط التالي.


اترك تعليقك

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها ب *

*

*

  1. المسؤول عن البيانات: AB Internet Networks 2008 SL
  2. الغرض من البيانات: التحكم في الرسائل الاقتحامية ، وإدارة التعليقات.
  3. الشرعية: موافقتك
  4. توصيل البيانات: لن يتم إرسال البيانات إلى أطراف ثالثة إلا بموجب التزام قانوني.
  5. تخزين البيانات: قاعدة البيانات التي تستضيفها شركة Occentus Networks (الاتحاد الأوروبي)
  6. الحقوق: يمكنك في أي وقت تقييد معلوماتك واستعادتها وحذفها.