TileDB 2.0, een database om matrices en wetenschappelijke gegevens op te slaan

Onlangs is de release van de nieuwe versie van TileDB 2.0 aangekondigd waarin integratie is toegevoegd om met verschillende cloudservices te werken, mogelijkheid om verschillende algoritmen te gebruiken, verbeteringen met de verschillende opslagengines en andere dingen.

Voor degenen die niet bekend zijn met TileDB, moeten ze weten dat dit is een database die is ontworpen om data science-teams te helpen ontdek sneller door ze een krachtigere manier te bieden om grote sets van diverse gegevens op te slaan, bij te werken, te analyseren en te delen.

Over TileDB

TileDB bestaat uit een nieuw multidimensionaal array-gegevensformaat, een snelle, integreerbare, open source C ++ -opslagengine met integraties van datawetenschappelijke tools en een cloudservice voor eenvoudige serverloze berekeningen en gegevensbeheer.

TegelDB is geoptimaliseerd om matrices en gegevens op te slaan die worden gebruikt in multidimensionale wetenschappelijke berekeningen, zoals verschillende systemen voor het verwerken van genetische informatie, ruimtelijke en financiële gegevens, dat wil zeggen systemen die werken met verspreide of continu gevulde multidimensionale matrices.

TileDB biedt een zelfstandige en ingesloten C ++ -bibliotheek die wordt geleverd met API in C, C ++, Python, R, Java en Go en je hebt direct toegang tot de TileDB-arrays.

De bibliotheek is geïntegreerd met Spark, Dask, PrestoDB, MariaDB, Arrow en georuimtelijke bibliotheken zoals PDAL, GDAL en Rasterio. TileDB pusht zoveel mogelijk rekenkracht naar opslagzoals SQL-engine filtervoorwaarden en Dask- en Spark-dataframeberekeningen.

Naast de database is er TileDB Cloud, een pay-as-you-go-service die u kunt gebruiken om TileDB-arrays in de cloud met andere gebruikers te delen en serverloze berekeningen op hen uit te voeren.

Van de belangrijkste kenmerken van TileDB de volgende vallen op:

  • Effectieve methoden voor het opslaan van spaarzame arrays, waarvan de gegevens niet continu volgen, de array wordt gevuld met brokken en de meeste elementen blijven leeg of nemen dezelfde waarde aan.
  • Mogelijkheid om toegang te krijgen tot gegevens in sleutelwaarde-indeling of sets kolommen (DataFrame);
  • Ondersteuning voor integratie met AWS S3, Google Cloud Storage en Azure Blob Storage.
  • TileDB ondersteunt efficiënt dataversiebeheer dat native is ingebed in het formaat en de opslag-engine.
  • Het heeft een verscheidenheid aan optimalisaties rond parallelle I / O in cloudobjectopslag en multi-threaded berekeningen (zoals classificatie, compressie, enz.).
  • Mogelijkheid om verschillende datacompressie- en coderingsalgoritmen te gebruiken.
  • Ondersteuning voor checksum-integriteit.
  • Het werkt in multithread-modus met input / output-parallellisatie.
  • Ondersteuning voor versiebeheer van opgeslagen gegevens, zelfs voor het ophalen van de status op een bepaald punt in het verleden of voor atomaire updates van grote sets van gehele getallen.
  • Mogelijkheid om metadata te koppelen.
  • Ondersteuning voor gegevensgroepering.
  • Integratiemodules voor gebruik als low-level storage-engine in Spark, Dask, MariaDB, GDAL, PDAL, Rasterio, gVCF en PrestoDB.
  • C ++ API-bindingsbibliotheken voor Python-, R-, Java- en Go-talen.

De projectcode is geschreven in C ++ en gedistribueerd onder de MIT-licentie en is compatibel met Linux, macOS en Windows.

Over versie 2.0

Versie 2.0 onderscheidt zich door zijn compatibiliteit met het «DataFrame» -concept, dat stelt u in staat om gegevens op te slaan als kolommen met waarden willekeurige lengte, gebonden aan specifieke attributen en dat de opnieuw ontworpen API voor R.

Opslag is ook geoptimaliseerd voor het verwerken van spaarzame matrices heterogeen in grootte (verschillende soorten gegevens kunnen in cellen worden opgeslagen en het is mogelijk om verschillende soorten kolommen samen te voegen, bijvoorbeeld waarin de naam, tijd en prijs worden opgeslagen).

Ondersteuning toegevoegd voor kolommen met stringgegevens, evenals modules zijn toegevoegd voor integratie met Google Cloud Storage en Azure Blob Storage. 

Als u tenslotte meer wilt weten over deze nieuwe versie, pU kunt de release-opmerking bekijken op de volgende link.

Y voor meer informatie over de installatie, implementatie en documentatie, u kunt het doen in het volgende link.


Laat je reactie achter

Uw e-mailadres wordt niet gepubliceerd. Verplichte velden zijn gemarkeerd met *

*

*

  1. Verantwoordelijk voor de gegevens: AB Internet Networks 2008 SL
  2. Doel van de gegevens: Controle SPAM, commentaarbeheer.
  3. Legitimatie: uw toestemming
  4. Mededeling van de gegevens: De gegevens worden niet aan derden meegedeeld, behalve op grond van wettelijke verplichting.
  5. Gegevensopslag: database gehost door Occentus Networks (EU)
  6. Rechten: u kunt uw gegevens op elk moment beperken, herstellen en verwijderen.