TileDB 2.0, μια βάση δεδομένων για την αποθήκευση πινάκων και επιστημονικών δεδομένων

Η κυκλοφορία της νέας έκδοσης του TileDB 2.0 ανακοινώθηκε πρόσφατα στην οποία Η ενσωμάτωση προστίθεται για να λειτουργεί με διαφορετικές υπηρεσίες cloud, ικανότητα χρήσης διαφορετικών αλγορίθμων, βελτιώσεις με τους διαφορετικούς κινητήρες αποθήκευσης και άλλα πράγματα.

Για όσους δεν είναι εξοικειωμένοι με το TileDB, πρέπει να το γνωρίζουν αυτό είναι μια βάση δεδομένων που έχει σχεδιαστεί για να βοηθήσει τις ομάδες επιστήμης δεδομένων Κάντε τις ανακαλύψεις πιο γρήγορα, δίνοντάς τους έναν πιο ισχυρό τρόπο αποθήκευσης, ενημέρωσης, ανάλυσης και κοινοποίησης μεγάλων συνόλων διαφορετικών δεδομένων.

Σχετικά με το TileDB

Το TileDB αποτελείται από μια νέα μορφή πολυδιάστατου πίνακα δεδομένων, μια γρήγορη, ενσωματωμένη, ανοιχτού κώδικα μηχανή αποθήκευσης C ++ με ενσωματώσεις εργαλείων επιστήμης δεδομένων και μια υπηρεσία cloud για εύκολο υπολογισμό χωρίς διαχείριση και διαχείριση δεδομένων.

TileDB έχει βελτιστοποιηθεί για την αποθήκευση πινάκων και δεδομένων που χρησιμοποιούνται σε πολυδιάστατους επιστημονικούς υπολογισμούς, όπως διάφορα συστήματα επεξεργασίας γενετικών πληροφοριών, χωρικών και οικονομικών δεδομένων, δηλαδή συστήματα που λειτουργούν με πολυδιάστατους πίνακες διασκορπισμένους ή συνεχώς γεμάτους.

Το TileDB προσφέρει μια αυτόνομη και ενσωματωμένη βιβλιοθήκη C ++ που αποστέλλεται με API σε C, C ++, Python, R, Java και Go και έχετε άμεση πρόσβαση στις συστοιχίες TileDB.

Η βιβλιοθήκη είναι ενσωματωμένη με Spark, Dask, PrestoDB, MariaDB, Arrow και γεωχωρικές βιβλιοθήκες όπως PDAL, GDAL και Rasterio. Το TileDB ωθεί όσο το δυνατόν περισσότερους υπολογισμούς στην αποθήκευσηόπως οι συνθήκες φίλτρου κινητήρα SQL και υπολογισμοί πλαισίου δεδομένων Dask και Spark.

Δίπλα στη βάση δεδομένων βρίσκεται το TileDB Cloud, μια υπηρεσία pay-as-you-go που μπορείτε να χρησιμοποιήσετε για να μοιραστείτε συστοιχίες TileDB στο cloud με άλλους χρήστες και να εκτελέσετε υπολογισμούς χωρίς διακομιστές.

Από τα βασικά χαρακτηριστικά του TileDB ξεχωρίζουν τα ακόλουθα:

  • Αποτελεσματικές μέθοδοι για την αποθήκευση αραιών συστοιχιών, τα δεδομένα των οποίων δεν ακολουθούν συνεχώς, ο πίνακας είναι γεμάτος με κομμάτια και τα περισσότερα από τα στοιχεία παραμένουν κενά ή έχουν την ίδια τιμή.
  • Δυνατότητα πρόσβασης σε δεδομένα σε μορφή βασικής τιμής ή σετ στηλών (DataFrame).
  • Υποστήριξη για ενοποίηση με AWS S3, Google Cloud Storage και Azure Blob Storage.
  • Το TileDB υποστηρίζει αποτελεσματικά την έκδοση δεδομένων εγγενώς ενσωματωμένη στη μορφή και τη μηχανή αποθήκευσης.
  • Έχει μια ποικιλία βελτιστοποιήσεων γύρω από παράλληλο I / O σε καταστήματα αντικειμένων cloud και υπολογισμούς πολλαπλών νημάτων (όπως ταξινόμηση, συμπίεση κ.λπ.).
  • Ικανότητα χρήσης διαφορετικών αλγορίθμων συμπίεσης δεδομένων και κρυπτογράφησης.
  • Υποστήριξη για ακεραιότητα αθροίσματος ελέγχου.
  • Λειτουργεί σε λειτουργία πολλαπλών νημάτων με παράλληλη εισαγωγή / έξοδο.
  • Υποστήριξη για εκδόσεις αποθηκευμένων δεδομένων, ακόμη και για ανάκτηση κατάστασης σε ένα συγκεκριμένο σημείο στο παρελθόν ή για ατομικές ενημερώσεις μεγάλων ακέραιων συνόλων.
  • Δυνατότητα σύνδεσης μεταδεδομένων.
  • Υποστήριξη ομαδοποίησης δεδομένων.
  • Ενότητες ενοποίησης για χρήση ως μηχανή αποθήκευσης χαμηλού επιπέδου σε Spark, Dask, MariaDB, GDAL, PDAL, Rasterio, gVCF και PrestoDB.
  • Βιβλιοθήκες δέσμευσης API C ++ για γλώσσες Python, R, Java και Go.

Ο κωδικός έργου είναι γραμμένος σε C ++ και διανέμεται με άδεια MIT και είναι συμβατός με Linux, macOS και Windows.

Σχετικά με την έκδοση 2.0

Έκδοση 2.0 ξεχωρίζει για τη συμβατότητά του με την έννοια «DataFrame», ότι σας επιτρέπει να αποθηκεύετε δεδομένα ως στήλες τιμών αυθαίρετο μήκος, δεσμευμένο σε συγκεκριμένα χαρακτηριστικά και ότι το επανασχεδιασμένο API για R.

Η αποθήκευση είναι επίσης βελτιστοποιημένη για την επεξεργασία αραιών πινάκων ετερογενές μέγεθος (διαφορετικοί τύποι δεδομένων μπορούν να αποθηκευτούν σε κελιά και είναι δυνατή η συγχώνευση διαφορετικών τύπων στηλών, για παράδειγμα, στις οποίες αποθηκεύονται το όνομα, η ώρα και η τιμή).

Προστέθηκε υποστήριξη για στήλες με δεδομένα συμβολοσειράς, καθώς και προστέθηκαν ενότητες για ενσωμάτωση με Google Cloud Storage και Azure Blob Storage. 

Τέλος, εάν θέλετε να μάθετε περισσότερα για αυτήν τη νέα έκδοση, σΜπορείτε να ελέγξετε τη σημείωση έκδοσης στη διεύθυνση τον ακόλουθο σύνδεσμο.

Y για να μάθετε περισσότερα για την εγκατάστασή του, εφαρμογή και τεκμηρίωση, μπορείτε να το κάνετε στο παρακάτω σύνδεσμο.


Αφήστε το σχόλιό σας

Η διεύθυνση email σας δεν θα δημοσιευθεί. Τα υποχρεωτικά πεδία σημειώνονται με *

*

*

  1. Υπεύθυνος για τα δεδομένα: AB Internet Networks 2008 SL
  2. Σκοπός των δεδομένων: Έλεγχος SPAM, διαχείριση σχολίων.
  3. Νομιμοποίηση: Η συγκατάθεσή σας
  4. Κοινοποίηση των δεδομένων: Τα δεδομένα δεν θα κοινοποιούνται σε τρίτους, εκτός από νομική υποχρέωση.
  5. Αποθήκευση δεδομένων: Βάση δεδομένων που φιλοξενείται από τα δίκτυα Occentus (ΕΕ)
  6. Δικαιώματα: Ανά πάσα στιγμή μπορείτε να περιορίσετε, να ανακτήσετε και να διαγράψετε τις πληροφορίες σας.