TileDB 2.0, un database per archiviare matrici e dati scientifici

Recentemente è stato annunciato il rilascio della nuova versione di TileDB 2.0 in cui l'integrazione viene aggiunta per funzionare con diversi servizi cloud, capacità di utilizzare diversi algoritmi, miglioramenti con i diversi motori di archiviazione e altre cose.

Per coloro che non hanno familiarità con TileDB, dovrebbero sapere che questo è un database progettato per aiutare i team di data science rendere le scoperte più veloci offrendo loro un modo più potente per archiviare, aggiornare, analizzare e condividere grandi set di dati diversi.

Informazioni su TileDB

TileDB è costituito da un nuovo formato di dati array multidimensionale, un motore di archiviazione C ++ veloce, incorporabile e open source con integrazioni di strumenti di scienza dei dati e un servizio cloud per calcoli e gestione dei dati senza server.

TileDB è ottimizzato per memorizzare matrici e dati utilizzati nei calcoli scientifici multidimensionali, come vari sistemi per l'elaborazione di informazioni genetiche, dati spaziali e finanziari, ovvero sistemi che operano con matrici multidimensionali disperse o riempite continuamente.

TileDB offre una libreria C ++ autonoma e incorporata che viene fornito con API in C, C ++, Python, R, Java e Go e hai accesso diretto agli array TileDB.

La libreria è integrata con Spark, Dask, PrestoDB, MariaDB, Arrow e librerie geospaziali come PDAL, GDAL e Rasterio. TileDB spinge il maggior numero di risorse di calcolo possibile nell'archiviazionecome le condizioni di filtro del motore SQL e i calcoli dei frame di dati Dask e Spark.

Accanto al database c'è TileDB Cloud, un servizio pay-as-you-go che puoi utilizzare per condividere array TileDB nel cloud con altri utenti ed eseguire calcoli serverless su di essi.

Delle caratteristiche principali di TileDB spiccano i seguenti:

Metodi efficaci per memorizzare array sparsi, i cui dati non seguono continuamente, l'array viene riempito di blocchi e la maggior parte degli elementi rimane vuota o assume lo stesso valore.
Possibilità di accedere ai dati in formato valore chiave o set di colonne (DataFrame);
Supporto per l'integrazione con AWS S3, Google Cloud Storage e Azure Blob Storage.
TileDB supporta in modo efficiente il controllo delle versioni dei dati incorporato in modo nativo nel formato e nel motore di archiviazione.
Ha una varietà di ottimizzazioni intorno all'I / O parallelo negli archivi di oggetti cloud e calcoli multi-thread (come classificazione, compressione, ecc.).
Capacità di utilizzare diversi algoritmi di compressione dei dati e crittografia.
Supporto per l'integrità del checksum.
Funziona in modalità multithread con parallelizzazione input / output.
Supporto per il controllo delle versioni dei dati archiviati, anche per il recupero dello stato in un determinato punto nel passato o per gli aggiornamenti atomici di grandi insiemi di numeri interi.
Possibilità di collegare i metadati.
Supporto per il raggruppamento dei dati.
Moduli di integrazione da utilizzare come motore di archiviazione di basso livello in Spark, Dask, MariaDB, GDAL, PDAL, Rasterio, gVCF e PrestoDB.
Librerie di binding API C ++ per linguaggi Python, R, Java e Go.

Il codice del progetto è scritto in C ++ e distribuito con licenza MIT ed è compatibile con Linux, macOS e Windows.

Informazioni sulla versione 2.0

Versione 2.0 si distingue per la sua compatibilità con il concetto «DataFrame», che consente di memorizzare i dati come colonne di valori lunghezza arbitraria, vincolata ad attributi specifici e che l'API riprogettata per R.

Lo storage è ottimizzato anche per l'elaborazione di matrici sparse di dimensioni eterogenee (nelle celle possono essere memorizzati diversi tipi di dati ed è possibile unire diversi tipi di colonne, ad esempio, in cui sono memorizzati il nome, l'ora e il prezzo).

Aggiunto supporto per colonne con dati stringa, nonché moduli sono stati aggiunti per l'integrazione con Google Cloud Storage e Azure Blob Storage.

Infine, se vuoi saperne di più su questa nuova versione, pPuoi controllare la nota di rilascio su il seguente collegamento.

Y per saperne di più sulla sua installazione, implementazione e documentazione, puoi farlo in seguente link

LinuxAdictos

TileDB 2.0, un database per memorizzare matrici e dati scientifici

Informazioni su TileDB

Informazioni sulla versione 2.0

Lascia un tuo commento Annulla risposta