O lançamento da nova versão do TileDB 2.0 foi anunciado recentemente em que integração é adicionada para trabalhar com diferentes serviços em nuvem, capacidade de usar algoritmos diferentes, melhorias com os diferentes mecanismos de armazenamento e outras coisas.
Para aqueles que não estão familiarizados com o TileDB, eles devem saber que este é um banco de dados projetado para ajudar as equipes de ciência de dados faça descobertas com mais rapidez, dando-lhes uma maneira mais poderosa de armazenar, atualizar, analisar e compartilhar grandes conjuntos de dados diversos.
Sobre o TileDB
TileDB consiste em um novo formato de dados de matriz multidimensional, um mecanismo de armazenamento C ++ de código aberto, rápido e incorporável com integrações de ferramentas de ciência de dados e um serviço de nuvem para fácil cálculo e gerenciamento de dados sem servidor.
TileDBName é otimizado para armazenar matrizes e dados usados em cálculos científicos multidimensionais, como vários sistemas de processamento de informação genética, dados espaciais e financeiros, ou seja, sistemas que operam com matrizes multidimensionais dispersas ou continuamente preenchidas.
TileDB oferece uma biblioteca C ++ autônoma e incorporada que vem com API em C, C ++, Python, R, Java e Go e você tem acesso direto aos arrays TileDB.
A biblioteca é integrada com Spark, Dask, PrestoDB, MariaDB, Arrow e bibliotecas geoespaciais como PDAL, GDAL e Rasterio. TileDB empurra o máximo de computação possível para o armazenamentocomo condições de filtro do mecanismo SQL e cálculos de quadro de dados Dask e Spark.
Junto com o banco de dados está o TileDB Cloud, um serviço pré-pago que você pode usar para compartilhar arrays TileDB na nuvem com outros usuários e realizar cálculos sem servidor neles.
Dos principais recursos do TileDB o seguinte se destaca:
- Métodos eficazes para armazenar matrizes esparsas, cujos dados não seguem continuamente, a matriz é preenchida com pedaços e a maioria dos elementos permanece vazia ou assume o mesmo valor.
- Capacidade de acessar dados em formato de valor-chave ou conjuntos de colunas (DataFrame);
- Suporte para integração com AWS S3, Google Cloud Storage e Azure Blob Storage.
- O TileDB suporta de forma eficiente o controle de versão de dados nativamente incorporado em seu formato e mecanismo de armazenamento.
- Ele tem uma variedade de otimizações em torno de E / S paralela em armazenamentos de objetos em nuvem e cálculos multi-threaded (como classificação, compressão, etc.).
- Capacidade de usar diferentes algoritmos de compressão e criptografia de dados.
- Suporte para integridade de soma de verificação.
- Funciona em modo multithread com paralelização de entrada / saída.
- Suporte para controle de versão de dados armazenados, mesmo para recuperação de estado em um determinado ponto no passado ou para atualizações atômicas de grandes conjuntos de inteiros.
- Capacidade de vincular metadados.
- Suporte para agrupamento de dados.
- Módulos de integração para serem usados como mecanismo de armazenamento de baixo nível no Spark, Dask, MariaDB, GDAL, PDAL, Rasterio, gVCF e PrestoDB.
- Bibliotecas de vinculação de API C ++ para linguagens Python, R, Java e Go.
O código do projeto é escrito em C ++ e distribuído sob a licença MIT e é compatível com Linux, macOS e Windows.
Sobre a versão 2.0
Versão 2.0 destaca-se pela compatibilidade com o conceito «DataFrame», que permite que você armazene dados na forma de colunas de valores comprimento arbitrário, vinculado a atributos específicos e que a API redesenhada para R.
O armazenamento também é otimizado para o processamento de matrizes esparsas heterogêneo em tamanho (diferentes tipos de dados podem ser armazenados em células e é possível mesclar diferentes tipos de colunas, por exemplo, nas quais o nome, a hora e o preço são armazenados).
Adicionado suporte para colunas com dados de string, bem como módulos foram adicionados para integração com Google Cloud Storage e Azure Blob Storage.
Finalmente, se você quiser saber mais sobre esta nova versão, pVocê pode verificar a nota de lançamento em o seguinte link.
Y para saber mais sobre sua instalação, implementação e documentação, você pode fazer isso no link a seguir