TileDB 2.0 ، قاعدة بيانات لتخزين المصفوفات والبيانات العلمية

تم الإعلان مؤخرًا عن إصدار الإصدار الجديد من TileDB 2.0 حيث تم تمت إضافة التكامل للعمل مع الخدمات السحابية المختلفة، والقدرة على استخدام خوارزميات مختلفة ، وتحسينات مع محركات التخزين المختلفة وأشياء أخرى.

بالنسبة لأولئك الذين ليسوا على دراية بـ TileDB ، يجب أن يعرفوا ذلك هي قاعدة بيانات مصممة لمساعدة فرق علوم البيانات لتسريع الاكتشافات من خلال منحهم طريقة أكثر فاعلية لتخزين وتحديث وتحليل ومشاركة مجموعات كبيرة من البيانات المتنوعة.

حول TileDB

يتكون TileDB من تنسيق بيانات صفيف متعدد الأبعاد جديد ، محرك تخزين C ++ سريع وقابل للتضمين ومفتوح المصدر مع تكامل لأدوات علوم البيانات وخدمة سحابية لسهولة الحساب وإدارة البيانات بدون خادم.

TileDB تم تحسينه لتخزين المصفوفات والبيانات المستخدمة في الحسابات العلمية متعددة الأبعاد، مثل الأنظمة المختلفة لمعالجة المعلومات الجينية والبيانات المكانية والمالية ، أي الأنظمة التي تعمل بمصفوفات متعددة الأبعاد مشتتة أو مملوءة باستمرار.

يقدم TileDB مكتبة C ++ قائمة بذاتها ومدمجة الذي يأتي مع API في C و C ++ و Python و R و Java و Go ولديك وصول مباشر إلى صفائف TileDB.

تم دمج المكتبة مع Spark و Dask و PrestoDB و MariaDB و Arrow والمكتبات الجغرافية المكانية مثل PDAL و GDAL و Rasterio. يدفع TileDB أكبر قدر ممكن من الحوسبة للتخزينمثل شروط مرشح محرك SQL وحسابات إطار بيانات Dask و Spark.

إلى جانب قاعدة البيانات ، توجد TileDB Cloud ، وهي خدمة الدفع عند الاستخدام والتي يمكنك استخدامها لمشاركة صفيفات TileDB في السحابة مع مستخدمين آخرين وإجراء حسابات بدون خادم عليهم.

من السمات الرئيسية لبرنامج TileDB تبرز ما يلي:

  • طرق فعالة لتخزين المصفوفات المتناثرة ، التي لا تتبع بياناتها باستمرار ، وتملأ المصفوفة بأجزاء ، وتبقى معظم العناصر فارغة أو تأخذ نفس القيمة.
  • القدرة على الوصول إلى البيانات بتنسيق القيمة الرئيسية أو مجموعات من الأعمدة (DataFrame) ؛
  • دعم التكامل مع AWS S3 و Google Cloud Storage و Azure Blob Storage.
  • يدعم TileDB بكفاءة إصدار البيانات المضمنة أصلاً في تنسيقها ومحرك التخزين.
  • يحتوي على مجموعة متنوعة من التحسينات حول الإدخال / الإخراج المتوازي في مخازن الكائنات السحابية والحسابات متعددة الخيوط (مثل التصنيف والضغط وما إلى ذلك).
  • القدرة على استخدام خوارزميات ضغط وتشفير البيانات المختلفة.
  • دعم سلامة المجموع الاختباري.
  • إنه يعمل في الوضع متعدد مؤشرات الترابط مع موازاة الإدخال / الإخراج.
  • دعم إصدار البيانات المخزنة ، حتى لاسترداد الحالة في نقطة معينة في الماضي أو للتحديثات الذرية لمجموعات أعداد صحيحة كبيرة.
  • القدرة على ربط البيانات الوصفية.
  • دعم تجميع البيانات.
  • وحدات تكامل لاستخدامها كمحرك تخزين منخفض المستوى في Spark و Dask و MariaDB و GDAL و PDAL و Rasterio و gVCF و PrestoDB.
  • مكتبات ربط API C ++ للغات Python و R و Java و Go.

تمت كتابة كود المشروع بلغة C ++ وتوزيعه بموجب ترخيص MIT وهو متوافق مع Linux و macOS و Windows.

حول الإصدار 2.0

الإصدار 2.0 تبرز لتوافقها مع مفهوم «DataFrame» ، أن يسمح لك بتخزين البيانات في شكل أعمدة من القيم طول تعسفي مرتبط بسمات محددة وأن واجهة برمجة التطبيقات المعاد تصميمها لـ R.

تم تحسين التخزين أيضًا لمعالجة المصفوفات المتفرقة حجم غير متجانس (يمكن تخزين أنواع مختلفة من البيانات في خلايا ومن الممكن دمج أنواع مختلفة من الأعمدة ، على سبيل المثال ، حيث يتم تخزين الاسم والوقت والسعر).

دعم إضافي للأعمدة مع بيانات السلسلة ، وكذلك تمت إضافة وحدات للتكامل مع Google Cloud Storage و Azure Blob Storage. 

أخيرًا ، إذا كنت تريد معرفة المزيد عن هذا الإصدار الجديد ، صيمكنك التحقق من مذكرة الإصدار في الرابط التالي.

Y لمعرفة المزيد عن التثبيت ، التنفيذ والتوثيق ، يمكنك القيام بذلك في الرابط التالي.


اترك تعليقك

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها ب *

*

*

  1. المسؤول عن البيانات: AB Internet Networks 2008 SL
  2. الغرض من البيانات: التحكم في الرسائل الاقتحامية ، وإدارة التعليقات.
  3. الشرعية: موافقتك
  4. توصيل البيانات: لن يتم إرسال البيانات إلى أطراف ثالثة إلا بموجب التزام قانوني.
  5. تخزين البيانات: قاعدة البيانات التي تستضيفها شركة Occentus Networks (الاتحاد الأوروبي)
  6. الحقوق: يمكنك في أي وقت تقييد معلوماتك واستعادتها وحذفها.