TileDB 2.0, база данни за съхраняване на матрици и научни данни

Пускането на новата версия на TileDB 2.0 беше обявено наскоро, в което интеграцията е добавена за работа с различни облачни услуги, възможност за използване на различни алгоритми, подобрения с различни двигатели за съхранение и други неща.

За тези, които не са запознати с TileDB, те трябва да знаят, че това е база данни, предназначена да помогне на екипите за наука за данни за да направят откритията по-бързи, като им предоставят по-мощен начин за съхраняване, актуализиране, анализ и споделяне на големи набори от разнообразни данни.

Относно TileDB

TileDB се състои от нов формат за многомерни масиви данни, бърз, вграждаем механизъм за съхранение на C ++ с отворен код с интеграция на инструменти за наука за данни и облачна услуга за лесно изчисляване и управление на данни без сървър.

TileDB е оптимизиран за съхраняване на матрици и данни, използвани в многомерни научни изчисления, като различни системи за обработка на генетична информация, пространствени и финансови данни, тоест системи, които работят с дисперсни или непрекъснато попълнени многомерни матрици.

TileDB предлага самостоятелна и вградена библиотека C ++ който се доставя с API в C, C ++, Python, R, Java и Go и имате директен достъп до масивите TileDB.

Библиотеката е интегрирана с Spark, Dask, PrestoDB, MariaDB, Arrow и геопространствени библиотеки като PDAL, GDAL и Rasterio. TileDB изтласква възможно най-много изчисления към хранилищетокато условията за филтриране на SQL двигател и изчисленията на рамки за данни на Dask и Spark.

Наред с базата данни е TileDB Cloud, услуга за плащане, която можете да използвате, за да споделяте масиви TileDB в облака с други потребители и да извършвате безсървърни изчисления върху тях.

От основните характеристики на TileDB открояват се следните:

Ефективни методи за съхраняване на оскъдни масиви, чиито данни не следват непрекъснато, масивът се запълва с фрагменти и повечето елементи остават празни или приемат същата стойност.
Възможност за достъп до данни във формат на ключова стойност или набори от колони (DataFrame);
Поддръжка за интеграция с AWS S3, Google Cloud Storage и Azure Blob Storage.
TileDB поддържа ефективно управление на данни, вградено в неговия формат и механизъм за съхранение.
Той има разнообразни оптимизации около паралелни I / O в хранилища на облачни обекти и многонишкови изчисления (като класификация, компресия и т.н.).
Възможност за използване на различни алгоритми за компресиране и криптиране на данни.
Подкрепа за целостта на контролната сума.
Работи в многонишков режим с паралелизация на входа / изхода.
Поддръжка за версиониране на съхранени данни, дори за извличане на състояние в определен момент в миналото или за атомни актуализации на големи целочислени набори.
Възможност за свързване на метаданни.
Поддръжка за групиране на данни.
Интеграционни модули, които ще се използват като механизъм за съхранение на ниско ниво в Spark, Dask, MariaDB, GDAL, PDAL, Rasterio, gVCF и PrestoDB.
C ++ API библиотеки за обвързване за езици Python, R, Java и Go.

Кодът на проекта е написан на C ++ и се разпространява под лиценза MIT и е съвместим с Linux, macOS и Windows.

Относно версия 2.0

Версия 2.0 се отличава със своята съвместимост с концепцията «DataFrame», че ви позволява да съхранявате данни под формата на колони със стойности произволна дължина, обвързана със специфични атрибути и че преработеният API за R.

Съхранението също е оптимизирано за обработка на оскъдни матрици разнородни по размер (различни видове данни могат да се съхраняват в клетки и е възможно да се обединят различни видове колони, например, в които се съхраняват името, времето и цената).

Добавена е поддръжка за колони с низови данни, както и модули бяха добавени за интеграция с Google Cloud Storage и Azure Blob Storage.

И накрая, ако искате да научите повече за тази нова версия, стрМожете да проверите бележката за изданието на следната връзка.

Y за да научите повече за инсталирането му, изпълнение и документация, можете да го направите в следваща връзка.

Оставете вашия коментар Отказ на отговора

Вашият имейл адрес няма да бъде публикуван. Задължителните полета са отбелязани с *

коментар *

име*

Електронната поща*

Приемам условия за поверителност*

Отговорник за данните: AB Internet Networks 2008 SL
Предназначение на данните: Контрол на СПАМ, управление на коментари.
Легитимация: Вашето съгласие
Съобщаване на данните: Данните няма да бъдат съобщени на трети страни, освен по законово задължение.
Съхранение на данни: База данни, хоствана от Occentus Networks (ЕС)
Права: По всяко време можете да ограничите, възстановите и изтриете информацията си.

Искам да получа бюлетина

LinuxAdictos

TileDB 2.0, база данни за съхранение на матрици и научни данни

Относно TileDB

Относно версия 2.0

Оставете вашия коментар Отказ на отговора