TileDB 2.0, um banco de dados para armazenar matrizes e dados científicos

O lançamento da nova versão do TileDB 2.0 foi anunciado recentemente em que integração é adicionada para trabalhar com diferentes serviços em nuvem, capacidade de usar algoritmos diferentes, melhorias com os diferentes mecanismos de armazenamento e outras coisas.

Para aqueles que não estão familiarizados com o TileDB, eles devem saber que este é um banco de dados projetado para ajudar as equipes de ciência de dados faça descobertas com mais rapidez, dando-lhes uma maneira mais poderosa de armazenar, atualizar, analisar e compartilhar grandes conjuntos de dados diversos.

Sobre o TileDB

TileDB consiste em um novo formato de dados de matriz multidimensional, um mecanismo de armazenamento C ++ de código aberto, rápido e incorporável com integrações de ferramentas de ciência de dados e um serviço de nuvem para fácil cálculo e gerenciamento de dados sem servidor.

TileDBName é otimizado para armazenar matrizes e dados usados ​​em cálculos científicos multidimensionais, como vários sistemas de processamento de informação genética, dados espaciais e financeiros, ou seja, sistemas que operam com matrizes multidimensionais dispersas ou continuamente preenchidas.

TileDB oferece uma biblioteca C ++ autônoma e incorporada que vem com API em C, C ++, Python, R, Java e Go e você tem acesso direto aos arrays TileDB.

A biblioteca é integrada com Spark, Dask, PrestoDB, MariaDB, Arrow e bibliotecas geoespaciais como PDAL, GDAL e Rasterio. TileDB empurra o máximo de computação possível para o armazenamentocomo condições de filtro do mecanismo SQL e cálculos de quadro de dados Dask e Spark.

Junto com o banco de dados está o TileDB Cloud, um serviço pré-pago que você pode usar para compartilhar arrays TileDB na nuvem com outros usuários e realizar cálculos sem servidor neles.

Dos principais recursos do TileDB o seguinte se destaca:

  • Métodos eficazes para armazenar matrizes esparsas, cujos dados não seguem continuamente, a matriz é preenchida com pedaços e a maioria dos elementos permanece vazia ou assume o mesmo valor.
  • Capacidade de acessar dados em formato de valor-chave ou conjuntos de colunas (DataFrame);
  • Suporte para integração com AWS S3, Google Cloud Storage e Azure Blob Storage.
  • O TileDB suporta de forma eficiente o controle de versão de dados nativamente incorporado em seu formato e mecanismo de armazenamento.
  • Ele tem uma variedade de otimizações em torno de E / S paralela em armazenamentos de objetos em nuvem e cálculos multi-threaded (como classificação, compressão, etc.).
  • Capacidade de usar diferentes algoritmos de compressão e criptografia de dados.
  • Suporte para integridade de soma de verificação.
  • Funciona em modo multithread com paralelização de entrada / saída.
  • Suporte para controle de versão de dados armazenados, mesmo para recuperação de estado em um determinado ponto no passado ou para atualizações atômicas de grandes conjuntos de inteiros.
  • Capacidade de vincular metadados.
  • Suporte para agrupamento de dados.
  • Módulos de integração para serem usados ​​como mecanismo de armazenamento de baixo nível no Spark, Dask, MariaDB, GDAL, PDAL, Rasterio, gVCF e PrestoDB.
  • Bibliotecas de vinculação de API C ++ para linguagens Python, R, Java e Go.

O código do projeto é escrito em C ++ e distribuído sob a licença MIT e é compatível com Linux, macOS e Windows.

Sobre a versão 2.0

Versão 2.0 destaca-se pela compatibilidade com o conceito «DataFrame», que permite que você armazene dados na forma de colunas de valores comprimento arbitrário, vinculado a atributos específicos e que a API redesenhada para R.

O armazenamento também é otimizado para o processamento de matrizes esparsas heterogêneo em tamanho (diferentes tipos de dados podem ser armazenados em células e é possível mesclar diferentes tipos de colunas, por exemplo, nas quais o nome, a hora e o preço são armazenados).

Adicionado suporte para colunas com dados de string, bem como módulos foram adicionados para integração com Google Cloud Storage e Azure Blob Storage. 

Finalmente, se você quiser saber mais sobre esta nova versão, pVocê pode verificar a nota de lançamento em o seguinte link.

Y para saber mais sobre sua instalação, implementação e documentação, você pode fazer isso no link a seguir


Deixe um comentário

Seu endereço de email não será publicado. Campos obrigatórios são marcados com *

*

*

  1. Responsável pelos dados: AB Internet Networks 2008 SL
  2. Finalidade dos dados: Controle de SPAM, gerenciamento de comentários.
  3. Legitimação: Seu consentimento
  4. Comunicação de dados: Os dados não serão comunicados a terceiros, exceto por obrigação legal.
  5. Armazenamento de dados: banco de dados hospedado pela Occentus Networks (UE)
  6. Direitos: A qualquer momento você pode limitar, recuperar e excluir suas informações.