TileDB 2.0, база данных для хранения матриц и научных данных

Недавно было объявлено о выпуске новой версии TileDB 2.0, в которой добавлена ​​интеграция для работы с разными облачными сервисами, возможность использовать разные алгоритмы, улучшения с разными механизмами хранения и многое другое.

Тем, кто не знаком с TileDB, следует знать, что это база данных, предназначенная для помощи командам специалистов делать открытия быстрее, предоставляя им более эффективный способ хранения, обновления, анализа и обмена большими наборами разнообразных данных.

О TileDB

TileDB состоит из нового формата данных многомерного массива, Быстрый встраиваемый механизм хранения C ++ с открытым исходным кодом с интеграцией инструментов анализа данных и облачной службой для упрощения бессерверных вычислений и управления данными.

ТайлДБ оптимизирован для хранения матриц и данных, используемых в многомерных научных расчетах, например, различные системы обработки генетической информации, пространственных и финансовых данных, то есть системы, которые работают с рассредоточенными или непрерывно заполненными многомерными матрицами.

TileDB предлагает автономную и встроенную библиотеку C ++. который поставляется с API на C, C ++, Python, R, Java и Go и у вас есть прямой доступ к массивам TileDB.

Библиотека интегрирована с Spark, Dask, PrestoDB, MariaDB, Arrow и геопространственными библиотеками, такими как PDAL, GDAL и Rasterio. TileDB помещает в хранилище как можно больше вычисленийтакие как условия фильтрации механизма SQL и вычисления фреймов данных Dask и Spark.

Наряду с базой данных находится TileDB Cloud, сервис с оплатой по мере использования, который вы можете использовать для совместного использования массивов TileDB в облаке с другими пользователями и выполнения над ними бессерверных вычислений.

Из ключевых особенностей TileDB выделяются следующие:

  • Эффективные методы хранения разреженных массивов, данные которых не следуют непрерывно, массив заполняется кусками, а большинство элементов остаются пустыми или принимают одно и то же значение.
  • Возможность доступа к данным в формате ключевого значения или наборах столбцов (DataFrame);
  • Поддержка интеграции с AWS S3, Google Cloud Storage и Azure Blob Storage.
  • TileDB эффективно поддерживает управление версиями данных, встроенное в его формат и механизм хранения.
  • Он имеет множество оптимизаций для параллельного ввода-вывода в хранилищах облачных объектов и многопоточных вычислений (таких как классификация, сжатие и т. Д.).
  • Возможность использования различных алгоритмов сжатия и шифрования данных.
  • Поддержка целостности контрольной суммы.
  • Работает в многопоточном режиме с распараллеливанием ввода / вывода.
  • Поддержка управления версиями хранимых данных, даже для получения состояния в определенный момент в прошлом или для атомарных обновлений больших целочисленных наборов.
  • Возможность связать метаданные.
  • Поддержка группировки данных.
  • Модули интеграции для использования в качестве низкоуровневого механизма хранения в Spark, Dask, MariaDB, GDAL, PDAL, Rasterio, gVCF и PrestoDB.
  • Библиотеки связывания API C ++ для языков Python, R, Java и Go.

Код проекта написан на C ++, распространяется по лицензии MIT и совместим с Linux, macOS и Windows.

О версии 2.0

Версия 2.0 отличается своей совместимостью с концепцией «DataFrame», что позволяет хранить данные в виде столбцов значений произвольной длины, привязанной к определенным атрибутам, и что обновленный API для R.

Хранилище также оптимизировано для обработки разреженных матриц. неоднородны по размеру (в ячейках могут храниться разные типы данных и есть возможность объединять разные типы столбцов, например, в которых хранятся имя, время и цена).

Добавлена ​​поддержка столбцов со строковыми данными, а также добавлены модули для интеграции с Облачное хранилище Google и хранилище BLOB-объектов Azure. 

Наконец, если вы хотите узнать больше об этой новой версии, стр.Вы можете проверить примечание к выпуску на по следующей ссылке.

Y чтобы узнать больше о его установке, реализация и документация, вы можете сделать это в по следующей ссылке.


Содержание статьи соответствует нашим принципам редакционная этика. Чтобы сообщить об ошибке, нажмите здесь.

Будьте первым, чтобы комментировать

Оставьте свой комментарий

Ваш электронный адрес не будет опубликован.

*

*

  1. Ответственный за данные: AB Internet Networks 2008 SL
  2. Назначение данных: контроль спама, управление комментариями.
  3. Легитимация: ваше согласие
  4. Передача данных: данные не будут переданы третьим лицам, кроме как по закону.
  5. Хранение данных: база данных, размещенная в Occentus Networks (ЕС)
  6. Права: в любое время вы можете ограничить, восстановить и удалить свою информацию.