TileDB 2.0, en databas för lagring av matriser och vetenskaplig data

Lanseringen av den nya versionen av TileDB 2.0 tillkännagavs nyligen i vilken integration läggs till för att arbeta med olika molntjänster, förmåga att använda olika algoritmer, förbättringar med olika lagringsmotorer och andra saker.

För dem som inte känner till TileDB, bör de veta att detta är en databas utformad för att hjälpa datavetenskapsteam för att göra upptäckter snabbare genom att ge dem ett mer kraftfullt sätt att lagra, uppdatera, analysera och dela stora uppsättningar med olika data.

Om TileDB

TileDB består av ett nytt flerdimensionellt arrayformat, en snabb, inbäddad, öppen källkod C ++ - lagringsmotor med datainformationsverktygsintegrationer och en molntjänst för enkel serverfri beräkning och datahantering.

TileDB är optimerad för att lagra matriser och data som används i flerdimensionella vetenskapliga beräkningar, såsom olika system för bearbetning av genetisk information, rumsliga och ekonomiska data, det vill säga system som arbetar med spridda eller kontinuerligt fyllda flerdimensionella matriser.

TileDB erbjuder ett fristående och inbäddat C ++ - bibliotek som levereras med API i C, C ++, Python, R, Java och Go och du har direkt tillgång till TileDB-matriserna.

Biblioteket är integrerat med Spark, Dask, PrestoDB, MariaDB, Arrow och geospatial bibliotek som PDAL, GDAL och Rasterio. TileDB skjuter så mycket beräkning som möjligt till lagringsåsom SQL-motorfilterförhållanden och Dask and Spark-dataramberäkningar.

Vid sidan av databasen finns TileDB Cloud, en pay-as-you-go-tjänst som du kan använda för att dela TileDB-arrays i molnet med andra användare och utföra serverlösa beräkningar på dem.

Av de viktigaste funktionerna i TileDB följande sticker ut:

  • Effektiva metoder för att lagra glesa matriser, vars data inte följer kontinuerligt, matrisen är fylld med fragment, och de flesta elementen förblir tomma eller tar samma värde.
  • Möjlighet att komma åt data i nyckelvärdesformat eller uppsättningar av kolumner (DataFrame);
  • Stöd för integration med AWS S3, Google Cloud Storage och Azure Blob Storage.
  • TileDB stöder effektivt dataversionering inbyggt i dess format och lagringsmotor.
  • Den har en mängd olika optimeringar kring parallella I / O i molnobjektbutiker och flertrådade beräkningar (som klassificering, komprimering etc.).
  • Möjlighet att använda olika datakomprimerings- och krypteringsalgoritmer.
  • Stöd för kontrollsummets integritet.
  • Det fungerar i flertrådsläge med in / ut-parallellisering.
  • Stöd för versionering av lagrad data, även för att hämta tillstånd vid en viss tidpunkt tidigare eller för atomuppdateringar av stora heltal.
  • Möjlighet att länka metadata.
  • Stöd för datagruppering.
  • Integrationsmoduler som kan användas som lågmotor för lagring i Spark, Dask, MariaDB, GDAL, PDAL, Rasterio, gVCF och PrestoDB.
  • C ++ API-bindande bibliotek för Python-, R-, Java- och Go-språk.

Projektkoden är skriven i C ++ och distribueras under MIT-licensen och är kompatibel med Linux, macOS och Windows.

Om version 2.0

Version 2.0 sticker ut för sin kompatibilitet med «DataFrame» -konceptet, que låter dig lagra data i form av kolumner med värden godtycklig längd, bunden till specifika attribut, och att det omdesignade API för R.

Lagring är också optimerad för att bearbeta glesa matriser heterogen i storlek (olika typer av data kan lagras i celler och det är möjligt att slå samman olika typer av kolumner, till exempel där namn, tid och pris lagras).

Lagt till stöd för kolumner med strängdata, liksom moduler lades till för integration med Google Cloud Storage och Azure Blob Storage. 

Slutligen, om du vill veta mer om den här nya versionen, sDu kan kontrollera utgåvan på följande länk.

Y för att lära dig mer om installationen, implementering och dokumentation kan du göra det i följande länk.


Lämna din kommentar

Din e-postadress kommer inte att publiceras. Obligatoriska fält är markerade med *

*

*

  1. Ansvarig för data: AB Internet Networks 2008 SL
  2. Syftet med uppgifterna: Kontrollera skräppost, kommentarhantering.
  3. Legitimering: Ditt samtycke
  4. Kommunikation av uppgifterna: Uppgifterna kommer inte att kommuniceras till tredje part förutom enligt laglig skyldighet.
  5. Datalagring: databas värd för Occentus Networks (EU)
  6. Rättigheter: När som helst kan du begränsa, återställa och radera din information.