TileDB 2.0, база данни за съхранение на матрици и научни данни

Пускането на новата версия на TileDB 2.0 беше обявено наскоро, в което интеграцията е добавена за работа с различни облачни услуги, възможност за използване на различни алгоритми, подобрения с различни двигатели за съхранение и други неща.

За тези, които не са запознати с TileDB, те трябва да знаят, че това е база данни, предназначена да помогне на екипите за наука за данни за да направят откритията по-бързи, като им предоставят по-мощен начин за съхраняване, актуализиране, анализ и споделяне на големи набори от разнообразни данни.

Относно TileDB

TileDB се състои от нов формат за многомерни масиви данни, бърз, вграждаем механизъм за съхранение на C ++ с отворен код с интеграция на инструменти за наука за данни и облачна услуга за лесно изчисляване и управление на данни без сървър.

TileDB е оптимизиран за съхраняване на матрици и данни, използвани в многомерни научни изчисления, като различни системи за обработка на генетична информация, пространствени и финансови данни, тоест системи, които работят с дисперсни или непрекъснато попълнени многомерни матрици.

TileDB предлага самостоятелна и вградена библиотека C ++ който се доставя с API в C, C ++, Python, R, Java и Go и имате директен достъп до масивите TileDB.

Библиотеката е интегрирана с Spark, Dask, PrestoDB, MariaDB, Arrow и геопространствени библиотеки като PDAL, GDAL и Rasterio. TileDB изтласква възможно най-много изчисления към хранилищетокато условията за филтриране на SQL двигател и изчисленията на рамки за данни на Dask и Spark.

Наред с базата данни е TileDB Cloud, услуга за плащане, която можете да използвате, за да споделяте масиви TileDB в облака с други потребители и да извършвате безсървърни изчисления върху тях.

От основните характеристики на TileDB открояват се следните:

  • Ефективни методи за съхраняване на оскъдни масиви, чиито данни не следват непрекъснато, масивът се запълва с фрагменти и повечето елементи остават празни или приемат същата стойност.
  • Възможност за достъп до данни във формат на ключова стойност или набори от колони (DataFrame);
  • Поддръжка за интеграция с AWS S3, Google Cloud Storage и Azure Blob Storage.
  • TileDB поддържа ефективно управление на данни, вградено в неговия формат и механизъм за съхранение.
  • Той има разнообразни оптимизации около паралелни I / O в хранилища на облачни обекти и многонишкови изчисления (като класификация, компресия и т.н.).
  • Възможност за използване на различни алгоритми за компресиране и криптиране на данни.
  • Подкрепа за целостта на контролната сума.
  • Работи в многонишков режим с паралелизация на входа / изхода.
  • Поддръжка за версиониране на съхранени данни, дори за извличане на състояние в определен момент в миналото или за атомни актуализации на големи целочислени набори.
  • Възможност за свързване на метаданни.
  • Поддръжка за групиране на данни.
  • Интеграционни модули, които ще се използват като механизъм за съхранение на ниско ниво в Spark, Dask, MariaDB, GDAL, PDAL, Rasterio, gVCF и PrestoDB.
  • C ++ API библиотеки за обвързване за езици Python, R, Java и Go.

Кодът на проекта е написан на C ++ и се разпространява под лиценза MIT и е съвместим с Linux, macOS и Windows.

Относно версия 2.0

Версия 2.0 се отличава със своята съвместимост с концепцията «DataFrame», че ви позволява да съхранявате данни под формата на колони със стойности произволна дължина, обвързана със специфични атрибути и че преработеният API за R.

Съхранението също е оптимизирано за обработка на оскъдни матрици разнородни по размер (различни видове данни могат да се съхраняват в клетки и е възможно да се обединят различни видове колони, например, в които се съхраняват името, времето и цената).

Добавена е поддръжка за колони с низови данни, както и модули бяха добавени за интеграция с Google Cloud Storage и Azure Blob Storage. 

И накрая, ако искате да научите повече за тази нова версия, стрМожете да проверите бележката за изданието на следната връзка.

Y за да научите повече за инсталирането му, изпълнение и документация, можете да го направите в следваща връзка.


Оставете вашия коментар

Вашият имейл адрес няма да бъде публикуван. Задължителните полета са отбелязани с *

*

*

  1. Отговорник за данните: AB Internet Networks 2008 SL
  2. Предназначение на данните: Контрол на СПАМ, управление на коментари.
  3. Легитимация: Вашето съгласие
  4. Съобщаване на данните: Данните няма да бъдат съобщени на трети страни, освен по законово задължение.
  5. Съхранение на данни: База данни, хоствана от Occentus Networks (ЕС)
  6. Права: По всяко време можете да ограничите, възстановите и изтриете информацията си.