TileDB 2.0, eine Datenbank zum Speichern von Matrizen und wissenschaftlichen Daten

Die Veröffentlichung der neuen Version von TileDB 2.0 wurde kürzlich angekündigt, in der Integration wird hinzugefügt, um mit verschiedenen Cloud-Diensten zu arbeiten, Fähigkeit, verschiedene Algorithmen zu verwenden, Verbesserungen mit den verschiedenen Speicher-Engines und andere Dinge.

Für diejenigen, die mit TileDB nicht vertraut sind, sollten sie wissen, dass dies ist eine Datenbank, die Data Science-Teams unterstützen soll Machen Sie Entdeckungen schneller, indem Sie ihnen eine leistungsfähigere Möglichkeit bieten, große Mengen unterschiedlicher Daten zu speichern, zu aktualisieren, zu analysieren und gemeinsam zu nutzen.

Über TileDB

TileDB besteht aus einem neuen mehrdimensionalen Array-Datenformat. Eine schnelle, einbettbare Open-Source-C ++ - Speicher-Engine mit Data Science-Tool-Integrationen und einem Cloud-Service für einfache serverlose Berechnung und Datenverwaltung.

TileDB ist optimiert, um Matrizen und Daten zu speichern, die in mehrdimensionalen wissenschaftlichen Berechnungen verwendet werdenB. verschiedene Systeme zur Verarbeitung genetischer Informationen, räumlicher und finanzieller Daten, dh Systeme, die mit verteilten oder kontinuierlich gefüllten mehrdimensionalen Matrizen arbeiten.

TileDB bietet eine eigenständige und eingebettete C ++ - Bibliothek welches mit API in C, C ++, Python, R, Java und Go geliefert wird und Sie haben direkten Zugriff auf die TileDB-Arrays.

Die Bibliothek ist in Spark-, Dask-, PrestoDB-, MariaDB-, Arrow- und Geodatenbibliotheken wie PDAL, GDAL und Rasterio integriert. TileDB überträgt so viel Rechenleistung wie möglich in den SpeicherB. SQL Engine-Filterbedingungen und Dask- und Spark-Datenrahmenberechnungen.

Neben der Datenbank befindet sich TileDB Cloud, ein Pay-as-you-go-Dienst, mit dem Sie TileDB-Arrays in der Cloud für andere Benutzer freigeben und serverlose Berechnungen durchführen können.

Von den wichtigsten Funktionen von TileDB Folgendes fällt auf:

Effektive Methoden zum Speichern von Arrays mit geringer Dichte, deren Daten nicht kontinuierlich folgen, das Array ist mit Blöcken gefüllt, und die meisten Elemente bleiben leer oder nehmen denselben Wert an.
Zugriff auf Daten im Schlüsselwertformat oder auf Spaltengruppen (DataFrame);
Unterstützung für die Integration in AWS S3, Google Cloud Storage und Azure Blob Storage.
TileDB unterstützt effizient die Datenversionierung, die nativ in das Format und die Speicher-Engine eingebettet ist.
Es gibt eine Vielzahl von Optimierungen für parallele E / A in Cloud-Objektspeichern und Multithread-Berechnungen (wie Klassifizierung, Komprimierung usw.).
Möglichkeit zur Verwendung verschiedener Datenkomprimierungs- und Verschlüsselungsalgorithmen.
Unterstützung für die Integrität der Prüfsumme.
Es arbeitet im Multithread-Modus mit Eingangs- / Ausgangsparallelisierung.
Unterstützung für die Versionierung gespeicherter Daten, auch für das Abrufen des Status zu einem bestimmten Zeitpunkt in der Vergangenheit oder für atomare Aktualisierungen großer ganzzahliger Mengen.
Möglichkeit, Metadaten zu verknüpfen.
Unterstützung für Datengruppierung.
Integrationsmodule, die als Low-Level-Speicher-Engine in Spark, Dask, MariaDB, GDAL, PDAL, Rasterio, gVCF und PrestoDB verwendet werden sollen.
C ++ API-Bindungsbibliotheken für Python-, R-, Java- und Go-Sprachen.

Der Projektcode ist in C ++ geschrieben und wird unter der MIT-Lizenz vertrieben. Er ist mit Linux, MacOS und Windows kompatibel.

Über Version 2.0

Version 2.0 zeichnet sich durch Kompatibilität mit dem Konzept «DataFrame» aus, dass Mit dieser Option können Sie Daten als Wertespalten speichern beliebige Länge, an bestimmte Attribute gebunden und dass die neu gestaltete API für R.

Der Speicher ist auch für die Verarbeitung von Matrizen mit geringer Dichte optimiert heterogene Größe (verschiedene Datentypen können in Zellen gespeichert werden, und es ist möglich, verschiedene Spaltentypen zusammenzuführen, in denen beispielsweise Name, Zeit und Preis gespeichert sind).

Unterstützung für Spalten mit Zeichenfolgendaten sowie hinzugefügt Module wurden zur Integration mit hinzugefügt Google Cloud Storage und Azure Blob Storage.

Wenn Sie mehr über diese neue Version erfahren möchten, pSie können den Versionshinweis unter überprüfen den folgenden Link.

Y um mehr über die Installation zu erfahren, Implementierung und Dokumentation können Sie in der folgenden Link

LinuxAdictos

TileDB 2.0, eine Datenbank zum Speichern von Matrizen und wissenschaftlichen Daten

Über TileDB

Über Version 2.0

Hinterlasse einen Kommentar Antwort abbrechen