TileDB 2.0, um banco de dados para armazenar matrizes e dados científicos

O lançamento da nova versão do TileDB 2.0 foi anunciado recentemente em que integração é adicionada para trabalhar com diferentes serviços em nuvem, capacidade de usar algoritmos diferentes, melhorias com os diferentes mecanismos de armazenamento e outras coisas.

Para aqueles que não estão familiarizados com o TileDB, eles devem saber que este é um banco de dados projetado para ajudar as equipes de ciência de dados faça descobertas com mais rapidez, dando-lhes uma maneira mais poderosa de armazenar, atualizar, analisar e compartilhar grandes conjuntos de dados diversos.

Sobre o TileDB

TileDB consiste em um novo formato de dados de matriz multidimensional, um mecanismo de armazenamento C ++ de código aberto, rápido e incorporável com integrações de ferramentas de ciência de dados e um serviço de nuvem para fácil cálculo e gerenciamento de dados sem servidor.

TileDBName é otimizado para armazenar matrizes e dados usados em cálculos científicos multidimensionais, como vários sistemas de processamento de informação genética, dados espaciais e financeiros, ou seja, sistemas que operam com matrizes multidimensionais dispersas ou continuamente preenchidas.

TileDB oferece uma biblioteca C ++ autônoma e incorporada que vem com API em C, C ++, Python, R, Java e Go e você tem acesso direto aos arrays TileDB.

A biblioteca é integrada com Spark, Dask, PrestoDB, MariaDB, Arrow e bibliotecas geoespaciais como PDAL, GDAL e Rasterio. TileDB empurra o máximo de computação possível para o armazenamentocomo condições de filtro do mecanismo SQL e cálculos de quadro de dados Dask e Spark.

Junto com o banco de dados está o TileDB Cloud, um serviço pré-pago que você pode usar para compartilhar arrays TileDB na nuvem com outros usuários e realizar cálculos sem servidor neles.

Dos principais recursos do TileDB o seguinte se destaca:

Métodos eficazes para armazenar matrizes esparsas, cujos dados não seguem continuamente, a matriz é preenchida com pedaços e a maioria dos elementos permanece vazia ou assume o mesmo valor.
Capacidade de acessar dados em formato de valor-chave ou conjuntos de colunas (DataFrame);
Suporte para integração com AWS S3, Google Cloud Storage e Azure Blob Storage.
O TileDB suporta de forma eficiente o controle de versão de dados nativamente incorporado em seu formato e mecanismo de armazenamento.
Ele tem uma variedade de otimizações em torno de E / S paralela em armazenamentos de objetos em nuvem e cálculos multi-threaded (como classificação, compressão, etc.).
Capacidade de usar diferentes algoritmos de compressão e criptografia de dados.
Suporte para integridade de soma de verificação.
Funciona em modo multithread com paralelização de entrada / saída.
Suporte para controle de versão de dados armazenados, mesmo para recuperação de estado em um determinado ponto no passado ou para atualizações atômicas de grandes conjuntos de inteiros.
Capacidade de vincular metadados.
Suporte para agrupamento de dados.
Módulos de integração para serem usados como mecanismo de armazenamento de baixo nível no Spark, Dask, MariaDB, GDAL, PDAL, Rasterio, gVCF e PrestoDB.
Bibliotecas de vinculação de API C ++ para linguagens Python, R, Java e Go.

O código do projeto é escrito em C ++ e distribuído sob a licença MIT e é compatível com Linux, macOS e Windows.

Sobre a versão 2.0

Versão 2.0 destaca-se pela compatibilidade com o conceito «DataFrame», que permite que você armazene dados na forma de colunas de valores comprimento arbitrário, vinculado a atributos específicos e que a API redesenhada para R.

O armazenamento também é otimizado para o processamento de matrizes esparsas heterogêneo em tamanho (diferentes tipos de dados podem ser armazenados em células e é possível mesclar diferentes tipos de colunas, por exemplo, nas quais o nome, a hora e o preço são armazenados).

Adicionado suporte para colunas com dados de string, bem como módulos foram adicionados para integração com Google Cloud Storage e Azure Blob Storage.

Finalmente, se você quiser saber mais sobre esta nova versão, pVocê pode verificar a nota de lançamento em o seguinte link.

Y para saber mais sobre sua instalação, implementação e documentação, você pode fazer isso no link a seguir

LinuxAdictos

TileDB 2.0, um banco de dados para armazenar matrizes e dados científicos

Sobre o TileDB

Sobre a versão 2.0

Deixe um comentário Cancelar resposta