Recentemente è stato annunciato il rilascio della nuova versione di TileDB 2.0 in cui l'integrazione viene aggiunta per funzionare con diversi servizi cloud, capacità di utilizzare diversi algoritmi, miglioramenti con i diversi motori di archiviazione e altre cose.
Per coloro che non hanno familiarità con TileDB, dovrebbero sapere che questo è un database progettato per aiutare i team di data science rendere le scoperte più veloci offrendo loro un modo più potente per archiviare, aggiornare, analizzare e condividere grandi set di dati diversi.
Informazioni su TileDB
TileDB è costituito da un nuovo formato di dati array multidimensionale, un motore di archiviazione C ++ veloce, incorporabile e open source con integrazioni di strumenti di scienza dei dati e un servizio cloud per calcoli e gestione dei dati senza server.
TileDB è ottimizzato per memorizzare matrici e dati utilizzati nei calcoli scientifici multidimensionali, come vari sistemi per l'elaborazione di informazioni genetiche, dati spaziali e finanziari, ovvero sistemi che operano con matrici multidimensionali disperse o riempite continuamente.
TileDB offre una libreria C ++ autonoma e incorporata che viene fornito con API in C, C ++, Python, R, Java e Go e hai accesso diretto agli array TileDB.
La libreria è integrata con Spark, Dask, PrestoDB, MariaDB, Arrow e librerie geospaziali come PDAL, GDAL e Rasterio. TileDB spinge il maggior numero di risorse di calcolo possibile nell'archiviazionecome le condizioni di filtro del motore SQL e i calcoli dei frame di dati Dask e Spark.
Accanto al database c'è TileDB Cloud, un servizio pay-as-you-go che puoi utilizzare per condividere array TileDB nel cloud con altri utenti ed eseguire calcoli serverless su di essi.
Delle caratteristiche principali di TileDB spiccano i seguenti:
- Metodi efficaci per memorizzare array sparsi, i cui dati non seguono continuamente, l'array viene riempito di blocchi e la maggior parte degli elementi rimane vuota o assume lo stesso valore.
- Possibilità di accedere ai dati in formato valore chiave o set di colonne (DataFrame);
- Supporto per l'integrazione con AWS S3, Google Cloud Storage e Azure Blob Storage.
- TileDB supporta in modo efficiente il controllo delle versioni dei dati incorporato in modo nativo nel formato e nel motore di archiviazione.
- Ha una varietà di ottimizzazioni intorno all'I / O parallelo negli archivi di oggetti cloud e calcoli multi-thread (come classificazione, compressione, ecc.).
- Capacità di utilizzare diversi algoritmi di compressione dei dati e crittografia.
- Supporto per l'integrità del checksum.
- Funziona in modalità multithread con parallelizzazione input / output.
- Supporto per il controllo delle versioni dei dati archiviati, anche per il recupero dello stato in un determinato punto nel passato o per gli aggiornamenti atomici di grandi insiemi di numeri interi.
- Possibilità di collegare i metadati.
- Supporto per il raggruppamento dei dati.
- Moduli di integrazione da utilizzare come motore di archiviazione di basso livello in Spark, Dask, MariaDB, GDAL, PDAL, Rasterio, gVCF e PrestoDB.
- Librerie di binding API C ++ per linguaggi Python, R, Java e Go.
Il codice del progetto è scritto in C ++ e distribuito con licenza MIT ed è compatibile con Linux, macOS e Windows.
Informazioni sulla versione 2.0
Versione 2.0 si distingue per la sua compatibilità con il concetto «DataFrame», che consente di memorizzare i dati come colonne di valori lunghezza arbitraria, vincolata ad attributi specifici e che l'API riprogettata per R.
Lo storage è ottimizzato anche per l'elaborazione di matrici sparse di dimensioni eterogenee (nelle celle possono essere memorizzati diversi tipi di dati ed è possibile unire diversi tipi di colonne, ad esempio, in cui sono memorizzati il nome, l'ora e il prezzo).
Aggiunto supporto per colonne con dati stringa, nonché moduli sono stati aggiunti per l'integrazione con Google Cloud Storage e Azure Blob Storage.
Infine, se vuoi saperne di più su questa nuova versione, pPuoi controllare la nota di rilascio su il seguente collegamento.
Y per saperne di più sulla sua installazione, implementazione e documentazione, puoi farlo in seguente link