Недавно было объявлено о выпуске новой версии TileDB 2.0, в которой добавлена интеграция для работы с разными облачными сервисами, возможность использовать разные алгоритмы, улучшения с разными механизмами хранения и многое другое.
Тем, кто не знаком с TileDB, следует знать, что это база данных, предназначенная для помощи командам специалистов делать открытия быстрее, предоставляя им более эффективный способ хранения, обновления, анализа и обмена большими наборами разнообразных данных.
О TileDB
TileDB состоит из нового формата данных многомерного массива, Быстрый встраиваемый механизм хранения C ++ с открытым исходным кодом с интеграцией инструментов анализа данных и облачной службой для упрощения бессерверных вычислений и управления данными.
ТайлДБ оптимизирован для хранения матриц и данных, используемых в многомерных научных расчетах, например, различные системы обработки генетической информации, пространственных и финансовых данных, то есть системы, которые работают с рассредоточенными или непрерывно заполненными многомерными матрицами.
TileDB предлагает автономную и встроенную библиотеку C ++. который поставляется с API на C, C ++, Python, R, Java и Go и у вас есть прямой доступ к массивам TileDB.
Библиотека интегрирована с Spark, Dask, PrestoDB, MariaDB, Arrow и геопространственными библиотеками, такими как PDAL, GDAL и Rasterio. TileDB помещает в хранилище как можно больше вычисленийтакие как условия фильтрации механизма SQL и вычисления фреймов данных Dask и Spark.
Наряду с базой данных находится TileDB Cloud, сервис с оплатой по мере использования, который вы можете использовать для совместного использования массивов TileDB в облаке с другими пользователями и выполнения над ними бессерверных вычислений.
Из ключевых особенностей TileDB выделяются следующие:
- Эффективные методы хранения разреженных массивов, данные которых не следуют непрерывно, массив заполняется кусками, а большинство элементов остаются пустыми или принимают одно и то же значение.
- Возможность доступа к данным в формате ключевого значения или наборах столбцов (DataFrame);
- Поддержка интеграции с AWS S3, Google Cloud Storage и Azure Blob Storage.
- TileDB эффективно поддерживает управление версиями данных, встроенное в его формат и механизм хранения.
- Он имеет множество оптимизаций для параллельного ввода-вывода в хранилищах облачных объектов и многопоточных вычислений (таких как классификация, сжатие и т. Д.).
- Возможность использования различных алгоритмов сжатия и шифрования данных.
- Поддержка целостности контрольной суммы.
- Работает в многопоточном режиме с распараллеливанием ввода / вывода.
- Поддержка управления версиями хранимых данных, даже для получения состояния в определенный момент в прошлом или для атомарных обновлений больших целочисленных наборов.
- Возможность связать метаданные.
- Поддержка группировки данных.
- Модули интеграции для использования в качестве низкоуровневого механизма хранения в Spark, Dask, MariaDB, GDAL, PDAL, Rasterio, gVCF и PrestoDB.
- Библиотеки связывания API C ++ для языков Python, R, Java и Go.
Код проекта написан на C ++, распространяется по лицензии MIT и совместим с Linux, macOS и Windows.
О версии 2.0
Версия 2.0 отличается своей совместимостью с концепцией «DataFrame», что позволяет хранить данные в виде столбцов значений произвольной длины, привязанной к определенным атрибутам, и что обновленный API для R.
Хранилище также оптимизировано для обработки разреженных матриц. неоднородны по размеру (в ячейках могут храниться разные типы данных и есть возможность объединять разные типы столбцов, например, в которых хранятся имя, время и цена).
Добавлена поддержка столбцов со строковыми данными, а также добавлены модули для интеграции с Облачное хранилище Google и хранилище BLOB-объектов Azure.
Наконец, если вы хотите узнать больше об этой новой версии, стр.Вы можете проверить примечание к выпуску на по следующей ссылке.
Y чтобы узнать больше о его установке, реализация и документация, вы можете сделать это в по следующей ссылке.