TileDB 2.0, isang database upang mag-imbak ng mga matrice at siyentipikong data

Ang paglabas ng bagong bersyon ng TileDB 2.0 ay inihayag kamakailan kung saan ang pagsasama ay idinagdag upang gumana sa iba't ibang mga serbisyo sa cloud, kakayahang gumamit ng iba't ibang mga algorithm, pagpapabuti sa iba't ibang mga imbakan engine at iba pang mga bagay.

Para sa mga hindi pamilyar sa TileDB, dapat nilang malaman ito ay isang database na idinisenyo upang matulungan ang mga koponan ng agham ng data upang gawing mas mabilis ang mga tuklas sa pamamagitan ng pagbibigay sa kanila ng isang mas malakas na paraan upang mag-imbak, mag-update, pag-aralan at ibahagi ang malalaking hanay ng magkakaibang data.

Tungkol sa TileDB

Ang TileDB ay binubuo ng isang bagong multidimensional na format ng data ng array, isang mabilis, naka-embed, bukas na mapagkukunan ng C ++ storage engine na may mga pagsasama-sama ng tool sa science ng data at isang serbisyong cloud para sa madaling pagkalkula ng serverless at pamamahala ng data.

TileDB ay na-optimize upang mag-imbak ng mga matrice at data na ginamit sa multidimensional na mga kalkulasyong pang-agham, tulad ng iba`t ibang mga system para sa pagproseso ng impormasyong genetiko, data ng spatial at pampinansyal, iyon ay, mga system na nagpapatakbo ng may dispersed o patuloy na napunan na multidimensional matrices.

Nag-aalok ang TileDB ng isang nakapag-iisang at naka-embed na C ++ library aling mga barko na may API sa C, C ++, Python, R, Java at Go at mayroon kang direktang pag-access sa mga arrays ng TileDB.

Ang aklatan ay isinama sa Spark, Dask, PrestoDB, MariaDB, Arrow, at mga geospatial na aklatan tulad ng PDAL, GDAL, at Rasterio. Ang TileDB ay nagtutulak ng maraming compute hangga't maaari sa pag-iimbaktulad ng mga kundisyon ng filter ng SQL engine at mga kalkulasyon ng frame ng data ng Dask at Spark.

Sa tabi ng database ay ang TileDB Cloud, isang serbisyo na pay-as-you-go na maaari mong magamit upang ibahagi ang mga arrays ng TileDB sa cloud sa iba pang mga gumagamit at magsagawa ng mga kalkulasyon na walang server sa kanila.

Sa mga pangunahing tampok ng TileDB ang mga sumusunod na kapansin-pansin:

Ang mga mabisang pamamaraan para sa pag-iimbak ng mga kalat-kalat na mga array, ang data na kung saan ay hindi sumusunod na tuloy-tuloy, ang array ay puno ng mga chunk, at ang karamihan sa mga elemento ay mananatiling walang laman o kumuha ng parehong halaga.
Kakayahang mag-access ng data sa pangunahing format ng halaga o mga hanay ng mga haligi (DataFrame);
Suporta para sa pagsasama sa AWS S3, Google Cloud Storage, at Azure Blob Storage.
Mahusay na sinusuportahan ng TileDB ang pag-bersyon ng data na likas na naka-embed sa format at imbakan na engine.
Mayroon itong iba't ibang mga pag-optimize sa paligid ng parallel I / O sa mga cloud object store at mga multi-threaded na kalkulasyon (tulad ng pag-uuri, compression, atbp.).
Kakayahang gumamit ng iba't ibang mga compression ng data at mga algorithm na naka-encrypt.
Suporta para sa integridad ng tsekum.
Gumagana ito sa multithreaded mode na may parallelization ng input / output.
Suporta para sa pag-bersyon ng nakaimbak na data, kahit na para sa pagkuha ng estado sa isang tiyak na punto sa nakaraan o para sa mga pag-update ng atomiko ng mga malalaking hanay ng integer.
Kakayahang i-link ang metadata.
Suporta sa pagpapangkat ng data.
Ang mga module ng pagsasama ay gagamitin bilang isang mababang antas ng imbakan engine sa Spark, Dask, MariaDB, GDAL, PDAL, Rasterio, gVCF at PrestoDB.
Ang mga library ng umiiral na C ++ API para sa mga wikang Python, R, Java, at Go.

Ang code ng proyekto ay nakasulat sa C ++ at ipinamamahagi sa ilalim ng lisensya ng MIT at katugma sa Linux, macOS, at Windows.

Tungkol sa bersyon 2.0

Bersyon 2.0 nakatayo para sa pagiging tugma nito sa konsepto ng «DataFrame», ito Pinapayagan kang mag-imbak ng data bilang mga haligi ng mga halaga di-makatwirang haba, nakasalalay sa mga tukoy na katangian at na ang muling pagdisenyo ng API para sa R.

Ang imbakan ay na-optimize din para sa pagproseso ng mga kalat-kalat na mga matrice magkakaiba ang laki (ang iba't ibang mga uri ng data ay maaaring maiimbak sa mga cell at posible na pagsamahin ang iba't ibang mga uri ng mga haligi, halimbawa, kung saan nakaimbak ang pangalan, oras at presyo).

Nagdagdag ng suporta para sa mga haligi na may data ng string, pati na rin idinagdag ang mga module para sa pagsasama sa Google Cloud Storage at Azure Blob Storage.

Panghuli kung nais mong malaman ang tungkol sa bagong bersyon, pMaaari mong suriin ang tala ng paglabas sa ang sumusunod na link.

Y upang matuto nang higit pa tungkol sa pag-install nito, pagpapatupad at dokumentasyon, magagawa mo ito sa sumusunod na link.

LinuxAdictos

TileDB 2.0, isang database upang mag-imbak ng mga matrice at pang-agham na data

Tungkol sa TileDB

Tungkol sa bersyon 2.0

Iwanan ang iyong puna Ikansela ang tugon