TileDB 2.0, o bază de date pentru stocarea matricilor și a datelor științifice

Lansarea noii versiuni a TileDB 2.0 a fost recent anunțată în care integrarea este adăugată pentru a lucra cu diferite servicii cloud, abilitatea de a utiliza algoritmi diferiți, îmbunătățiri cu diferitele motoare de stocare și alte lucruri.

Pentru cei care nu sunt familiarizați cu TileDB, ar trebui să știe că acest lucru este o bază de date concepută pentru a ajuta echipele de știință a datelor faceți descoperirile mai rapid oferindu-le un mod mai puternic de a stoca, actualiza, analiza și partaja seturi mari de date diverse.

Despre TileDB

TileDB constă într-un nou format de date de matrice multidimensională, un motor de stocare C ++ rapid, încorporabil, open source, cu integrări de instrumente pentru știința datelor și un serviciu cloud pentru calcul ușor fără server și gestionarea datelor.

TileDB este optimizat pentru a stoca matrici și date utilizate în calcule științifice multidimensionale, cum ar fi diverse sisteme de procesare a informațiilor genetice, date spațiale și financiare, adică sisteme care funcționează cu matrice multidimensionale dispersate sau umplute continuu.

TileDB oferă o bibliotecă C ++ independentă și încorporată care este livrat cu API în C, C ++, Python, R, Java și Go și aveți acces direct la matricile TileDB.

Biblioteca este integrată cu Spark, Dask, PrestoDB, MariaDB, Arrow și biblioteci geospațiale, cum ar fi PDAL, GDAL și Rasterio. TileDB împinge cât mai mult calcul la stocareprecum condițiile de filtrare a motorului SQL și calculele cadrelor de date Dask și Spark.

Alături de baza de date este TileDB Cloud, un serviciu pay-as-you-go pe care îl puteți utiliza pentru a partaja matricele TileDB în cloud cu alți utilizatori și pentru a efectua calcule fără server pe aceștia.

Dintre caracteristicile cheie ale TileDB se remarcă următoarele:

  • Metode eficiente pentru stocarea matricelor rare, ale căror date nu urmează continuu, matricea este umplută cu bucăți, iar majoritatea elementelor rămân goale sau au aceeași valoare.
  • Abilitatea de a accesa date în format de valoare cheie sau seturi de coloane (DataFrame);
  • Suport pentru integrare cu AWS S3, Google Cloud Storage și Azure Blob Storage.
  • TileDB acceptă în mod eficient versiunile de date încorporate nativ în formatul și motorul său de stocare.
  • Are o varietate de optimizări în jurul I / O paralel în magazinele de obiecte cloud și calcule multi-thread (cum ar fi clasificarea, compresia etc.).
  • Abilitatea de a utiliza diferiți algoritmi de compresie și criptare a datelor.
  • Suport pentru integritatea sumei de control.
  • Funcționează în modul multithread cu paralelizare de intrare / ieșire.
  • Suport pentru versionarea datelor stocate, chiar și pentru recuperarea stării într-un anumit moment din trecut sau pentru actualizări atomice ale seturilor întregi mari.
  • Abilitatea de a lega metadatele.
  • Suport pentru gruparea datelor.
  • Module de integrare pentru utilizare ca motor de stocare de nivel scăzut în Spark, Dask, MariaDB, GDAL, PDAL, Rasterio, gVCF și PrestoDB.
  • Biblioteci de legare API C ++ pentru limbaje Python, R, Java și Go.

Codul proiectului este scris în C ++ și distribuit sub licența MIT și este compatibil cu Linux, macOS și Windows.

Despre versiunea 2.0

Versiunea 2.0 se remarcă prin compatibilitatea sa cu conceptul «DataFrame»,vă permite să stocați date ca coloane de valori lungime arbitrară, legată de atribute specifice și că API-ul reproiectat pentru R.

Stocarea este, de asemenea, optimizată pentru procesarea matricelor rare de dimensiuni eterogene (diferite tipuri de date pot fi stocate în celule și este posibilă îmbinarea diferitelor tipuri de coloane, de exemplu, în care sunt stocate numele, ora și prețul).

Suport adăugat pentru coloane cu date de șir, precum și au fost adăugate module pentru integrare cu Google Cloud Storage și Azure Blob Storage. 

În cele din urmă, dacă doriți să aflați mai multe despre această nouă versiune, pPuteți verifica nota de lansare la următorul link.

Y pentru a afla mai multe despre instalarea sa, implementare și documentare, o puteți face în următorul link.


Lasă comentariul tău

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *

*

*

  1. Responsabil pentru date: AB Internet Networks 2008 SL
  2. Scopul datelor: Control SPAM, gestionarea comentariilor.
  3. Legitimare: consimțământul dvs.
  4. Comunicarea datelor: datele nu vor fi comunicate terților decât prin obligație legală.
  5. Stocarea datelor: bază de date găzduită de Occentus Networks (UE)
  6. Drepturi: în orice moment vă puteți limita, recupera și șterge informațiile.