Пускането на новата версия на TileDB 2.0 беше обявено наскоро, в което интеграцията е добавена за работа с различни облачни услуги, възможност за използване на различни алгоритми, подобрения с различни двигатели за съхранение и други неща.
За тези, които не са запознати с TileDB, те трябва да знаят, че това е база данни, предназначена да помогне на екипите за наука за данни за да направят откритията по-бързи, като им предоставят по-мощен начин за съхраняване, актуализиране, анализ и споделяне на големи набори от разнообразни данни.
Относно TileDB
TileDB се състои от нов формат за многомерни масиви данни, бърз, вграждаем механизъм за съхранение на C ++ с отворен код с интеграция на инструменти за наука за данни и облачна услуга за лесно изчисляване и управление на данни без сървър.
TileDB е оптимизиран за съхраняване на матрици и данни, използвани в многомерни научни изчисления, като различни системи за обработка на генетична информация, пространствени и финансови данни, тоест системи, които работят с дисперсни или непрекъснато попълнени многомерни матрици.
TileDB предлага самостоятелна и вградена библиотека C ++ който се доставя с API в C, C ++, Python, R, Java и Go и имате директен достъп до масивите TileDB.
Библиотеката е интегрирана с Spark, Dask, PrestoDB, MariaDB, Arrow и геопространствени библиотеки като PDAL, GDAL и Rasterio. TileDB изтласква възможно най-много изчисления към хранилищетокато условията за филтриране на SQL двигател и изчисленията на рамки за данни на Dask и Spark.
Наред с базата данни е TileDB Cloud, услуга за плащане, която можете да използвате, за да споделяте масиви TileDB в облака с други потребители и да извършвате безсървърни изчисления върху тях.
От основните характеристики на TileDB открояват се следните:
- Ефективни методи за съхраняване на оскъдни масиви, чиито данни не следват непрекъснато, масивът се запълва с фрагменти и повечето елементи остават празни или приемат същата стойност.
- Възможност за достъп до данни във формат на ключова стойност или набори от колони (DataFrame);
- Поддръжка за интеграция с AWS S3, Google Cloud Storage и Azure Blob Storage.
- TileDB поддържа ефективно управление на данни, вградено в неговия формат и механизъм за съхранение.
- Той има разнообразни оптимизации около паралелни I / O в хранилища на облачни обекти и многонишкови изчисления (като класификация, компресия и т.н.).
- Възможност за използване на различни алгоритми за компресиране и криптиране на данни.
- Подкрепа за целостта на контролната сума.
- Работи в многонишков режим с паралелизация на входа / изхода.
- Поддръжка за версиониране на съхранени данни, дори за извличане на състояние в определен момент в миналото или за атомни актуализации на големи целочислени набори.
- Възможност за свързване на метаданни.
- Поддръжка за групиране на данни.
- Интеграционни модули, които ще се използват като механизъм за съхранение на ниско ниво в Spark, Dask, MariaDB, GDAL, PDAL, Rasterio, gVCF и PrestoDB.
- C ++ API библиотеки за обвързване за езици Python, R, Java и Go.
Кодът на проекта е написан на C ++ и се разпространява под лиценза MIT и е съвместим с Linux, macOS и Windows.
Относно версия 2.0
Версия 2.0 се отличава със своята съвместимост с концепцията «DataFrame», че ви позволява да съхранявате данни под формата на колони със стойности произволна дължина, обвързана със специфични атрибути и че преработеният API за R.
Съхранението също е оптимизирано за обработка на оскъдни матрици разнородни по размер (различни видове данни могат да се съхраняват в клетки и е възможно да се обединят различни видове колони, например, в които се съхраняват името, времето и цената).
Добавена е поддръжка за колони с низови данни, както и модули бяха добавени за интеграция с Google Cloud Storage и Azure Blob Storage.
И накрая, ако искате да научите повече за тази нова версия, стрМожете да проверите бележката за изданието на следната връзка.
Y за да научите повече за инсталирането му, изпълнение и документация, можете да го направите в следваща връзка.