TileDB 2.0, baza danych do przechowywania macierzy i danych naukowych

Niedawno ogłoszono wydanie nowej wersji TileDB 2.0, w której dodano integrację do pracy z różnymi usługami w chmurze, możliwość korzystania z różnych algorytmów, ulepszenia z różnymi silnikami pamięci masowej i nie tylko.

Dla tych, którzy nie znają TileDB, powinni to wiedzieć to baza danych zaprojektowana, aby pomóc zespołom zajmującym się analizą danych pomagają dokonywać szybszych odkryć, udostępniając bardziej wydajny sposób przechowywania, aktualizowania, analizowania i udostępniania dużych, zróżnicowanych zestawów danych.

O TileDB

TileDB składa się z nowego wielowymiarowego formatu danych tablicowych, szybki, możliwy do osadzenia silnik pamięci masowej C++ typu open source z integracją narzędzi do analizy danych i usługą w chmurze ułatwiającą zarządzanie danymi i obliczenia bezserwerowe.

TileDB jest zoptymalizowany do przechowywania macierzy i danych wykorzystywanych w wielowymiarowych obliczeniach naukowych, takich jak kilka systemów do przetwarzania informacji genetycznej, danych przestrzennych i finansowych, czyli systemów, które działają z rzadkimi lub stale wypełnianymi wielowymiarowymi macierzami.

TileDB oferuje samodzielną i wbudowaną bibliotekę C++ który jest dostarczany z interfejsami API w językach C, C++, Python, R, Java i Go i ma bezpośredni dostęp do tablic TileDB.

Biblioteka jest zintegrowana z Spark, Dask, PrestoDB, MariaDB, Arrow i bibliotekami geoprzestrzennymi, takimi jak PDAL, GDAL i Rasterio. TileDB wypycha jak najwięcej mocy obliczeniowej do pamięci masowej, takie jak warunki filtrowania z silników SQL i obliczenia ramek danych z Dask i Spark.

Oprócz bazy danych dostępna jest TileDB Cloud, usługa płatna zgodnie z rzeczywistym użyciem, za pomocą której można udostępniać macierze TileDB w chmurze innym użytkownikom i wykonywać na nich obliczenia bez serwera.

Z kluczowych cech TileDB wyróżniają się następujące:

Skuteczne metody przechowywania rzadkich tablic, których dane nie następują w sposób ciągły, tablica zapełnia się porcjami, a większość elementów pozostaje pusta lub przyjmuje tę samą wartość.
Możliwość dostępu do danych w formacie klucz-wartość lub zestawy kolumn (DataFrame);
Obsługa integracji z AWS S3, Google Cloud Storage i Azure Blob Storage.
TileDB wydajnie obsługuje wersjonowanie danych wbudowane natywnie w silnik i format pamięci masowej.
Posiada różnorodne optymalizacje dotyczące równoległych operacji we/wy do magazynów obiektów w chmurze i obliczeń wielowątkowych (takich jak sortowanie, kompresja itp.).
Możliwość korzystania z różnych algorytmów kompresji i szyfrowania danych.
Obsługa integralności sumy kontrolnej.
Działa w trybie wielowątkowym z równoległością wejścia/wyjścia.
Obsługa wersjonowania przechowywanych danych, w tym przywracania stanu do określonego punktu w przeszłości lub aktualizacji atomowych dużych tablic liczb całkowitych.
Możliwość łączenia metadanych.
Obsługa puli danych.
Moduły integracyjne do wykorzystania jako silnik pamięci masowej niskiego poziomu w Spark, Dask, MariaDB, GDAL, PDAL, Rasterio, gVCF i PrestoDB.
Biblioteki powiązań API C++ dla języków Python, R, Java i Go.

Kod projektu jest napisany w C++ i rozpowszechniany na licencji MIT i jest kompatybilny z systemami Linux, macOS i Windows.

O wersji 2.0

Wersja 2.0 wyróżnia się kompatybilnością z koncepcją «DataFrame», oferuje nasz konfigurator pozwala na przechowywanie danych w postaci kolumn wartości o dowolnej długości, powiązanej z określonymi atrybutami, oraz że przeprojektowany interfejs API dla języka R.

Pamięć masowa jest również zoptymalizowana pod kątem przetwarzania rzadkich macierzy niejednorodny pod względem wielkości (w komórkach można przechowywać różne typy danych oraz możliwe jest łączenie różnych typów kolumn, np. w których przechowywana jest nazwa, godzina i cena).

Dodano obsługę kolumn z danymi łańcuchowymi, a także dodano moduły do integracji z Google Cloud Storage i Azure Blob Storage.

Wreszcie, jeśli chcesz dowiedzieć się więcej o tej nowej wersji, sInformacje o wydaniu można sprawdzić pod adresem poniższy link.

Y Aby dowiedzieć się więcej o jego instalacji, wdrożeniem i dokumentacją, możesz to zrobić w formacie następujący link.

LinuxAdictos

TileDB 2.0, baza danych do przechowywania macierzy i danych naukowych

O TileDB

O wersji 2.0

Zostaw swój komentarz Anuluj odpowiedź