TileDB 2.0, בסיס נתונים לאחסון מטריצות ונתונים מדעיים

לאחרונה הוכרז על שחרור הגרסה החדשה של TileDB 2.0 בה שילוב נוסף לעבודה עם שירותי ענן שונים, יכולת להשתמש באלגוריתמים שונים, שיפורים במנועי האחסון השונים ודברים אחרים.

למי שלא מכיר את TileDB, עליו לדעת שזה הוא בסיס נתונים שנועד לעזור לצוותי מדעי הנתונים לבצע תגליות מהירות יותר על ידי מתן דרך חזקה יותר לאחסון, עדכון, ניתוח ושיתוף קבוצות גדולות של נתונים מגוונים.

אודות TileDB

TileDB מורכב מפורמט נתונים רב-ממדי חדש למערך, מנוע אחסון C ++ מהיר, ניתן להטבעה, עם אינטגרציות של כלי מדע נתונים ושירות ענן לחישוב וניהול נתונים קל ללא שרת.

TileDB מותאם במיוחד לאחסון מטריצות ונתונים המשמשים לחישובים מדעיים רב ממדיים, כגון מערכות שונות לעיבוד מידע גנטי, נתונים מרחביים ופיננסיים, כלומר מערכות הפועלות עם מטריצות רב מימדיות מפוזרות או מלאות ברציפות.

TileDB מציעה ספריית C ++ עצמאית ומוטמעת שנשלח עם API ב- C, C ++, Python, R, Java ו- Go ויש לך גישה ישירה למערכי TileDB.

הספרייה משולבת בספריות Spark, Dask, PrestoDB, MariaDB, Arrow וסביבה גיאו-מרחבית כמו PDAL, GDAL ו- Rasterio. TileDB דוחף כמה שיותר מחשבים לאחסוןכגון תנאי סינון מנוע SQL וחישובי מסגרת נתונים של Dask ו- Spark.

לצד מסד הנתונים נמצא TileDB Cloud, שירות תשלום לפי דרכים בו תוכלו להשתמש כדי לשתף מערכי TileDB בענן עם משתמשים אחרים ולבצע עליהם חישובים ללא שרת.

מהתכונות העיקריות של TileDB הדברים הבאים בולטים:

  • שיטות יעילות לאחסון מערכים דלילים, שנתוניהם אינם עוקבים ברציפות, המערך מלא בגושים, ורוב האלמנטים נותרים ריקים או לוקחים את אותו הערך.
  • יכולת גישה לנתונים בפורמט ערך מפתח או בקבוצות של עמודות (DataFrame);
  • תמיכה באינטגרציה עם AWS S3, אחסון בענן של גוגל ואחסון Blob של Azure.
  • TileDB תומך ביעילות בגרסאות נתונים המוטמעות באופן מקורי בתבנית ובמנוע האחסון שלה.
  • יש לו מגוון אופטימיזציות סביב קלט / פלט מקביל בחנויות אובייקטים בענן וחישובים מרובי-הברגה (כגון סיווג, דחיסה וכו ').
  • יכולת להשתמש באלגוריתמים שונים של דחיסת נתונים והצפנה.
  • תמיכה בשלמות סכום הבדיקה.
  • זה עובד במצב רב הליכי עם מקבילית קלט / פלט.
  • תמיכה בגירסאות של נתונים מאוחסנים, אפילו לאחזור מצב בנקודה מסוימת בעבר או לעדכונים אטומיים של קבוצות שלמות גדולות.
  • יכולת לקשר בין מטא נתונים.
  • תמיכה בקיבוץ נתונים.
  • מודולי אינטגרציה שישמשו כמנוע אחסון ברמה נמוכה ב- Spark, Dask, MariaDB, GDAL, PDAL, Rasterio, gVCF ו- PrestoDB.
  • ספריות מחייב C ++ API לשפות Python, R, Java ו- Go.

קוד הפרויקט כתוב ב- C ++ ומופץ ברישיון MIT והוא תואם לינוקס, MacOS ו- Windows.

אודות גרסה 2.0

גרסה 2.0 בולט בתאימותו למושג «DataFrame», כי מאפשר לך לאחסן נתונים בצורה של עמודות ערכים אורך שרירותי, מחויב לתכונות ספציפיות וכי ה- API המחודש עבור R.

האחסון מותאם גם לעיבוד מטריצות דלילות בגודל הטרוגני (ניתן לאחסן בתאים סוגים שונים של נתונים ואפשר למזג סוגים שונים של עמודות, למשל, שם שמורים שם, זמן ומחיר).

נוסף תמיכה בעמודות עם נתוני מחרוזות, כמו גם נוספו מודולים לשילוב עם אחסון בענן של גוגל ואחסון בלוב בתכלת הרקיע. 

לבסוף אם אתה רוצה לדעת יותר על גרסה חדשה זו, עמ 'אתה יכול לבדוק את הערת השחרור בכתובת הקישור הבא.

Y למידע נוסף על התקנתו, יישום ותיעוד, אתה יכול לעשות זאת ב הקישור הבא.


השאירו את התגובה שלכם

כתובת הדוא"ל שלך לא תפורסם. שדות חובה מסומנים *

*

*

  1. אחראי על הנתונים: AB Internet Networks 2008 SL
  2. מטרת הנתונים: בקרת ספאם, ניהול תגובות.
  3. לגיטימציה: הסכמתך
  4. מסירת הנתונים: הנתונים לא יועברו לצדדים שלישיים אלא בהתחייבות חוקית.
  5. אחסון נתונים: מסד נתונים המתארח על ידי Occentus Networks (EU)
  6. זכויות: בכל עת תוכל להגביל, לשחזר ולמחוק את המידע שלך.