TileDB 2.0, pangkalan data untuk menyimpan matriks dan data saintifik

Pembebasan versi baru TileDB 2.0 baru-baru ini diumumkan di mana integrasi ditambah untuk berfungsi dengan perkhidmatan awan yang berbeza, keupayaan untuk menggunakan algoritma yang berbeza, peningkatan dengan enjin penyimpanan yang berbeza dan perkara lain

Bagi mereka yang tidak biasa dengan TileDB, mereka harus mengetahui perkara ini adalah pangkalan data yang direka untuk membantu pasukan sains data untuk membuat penemuan lebih pantas dengan memberi mereka kaedah yang lebih kuat untuk menyimpan, mengemas kini, menganalisis dan berkongsi sekumpulan besar data.

Mengenai TileDB

TileDB terdiri daripada format data pelbagai dimensi baru, enjin penyimpanan C ++ sumber terbuka yang pantas, dapat disematkan, dengan integrasi alat sains data dan perkhidmatan awan untuk pengiraan dan pengurusan data tanpa pelayan yang mudah.

TileDB dioptimumkan untuk menyimpan matriks dan data yang digunakan dalam pengiraan saintifik multidimensi, seperti pelbagai sistem untuk memproses maklumat genetik, data spasial dan kewangan, iaitu sistem yang beroperasi dengan matriks multidimensi yang tersebar atau diisi secara berterusan.

TileDB menawarkan perpustakaan C ++ yang tersendiri dan terbenam yang dihantar dengan API dalam C, C ++, Python, R, Java dan Go dan anda mempunyai akses langsung ke tatabab TileDB.

Perpustakaan ini digabungkan dengan perpustakaan Spark, Dask, PrestoDB, MariaDB, Arrow, dan geospatial seperti PDAL, GDAL, dan Rasterio. TileDB mendorong komputasi sebanyak mungkin ke penyimpananseperti keadaan penapis enjin SQL dan pengiraan bingkai data Dask dan Spark.

Di samping pangkalan data adalah TileDB Cloud, perkhidmatan bayar-sambil-pergi yang boleh anda gunakan untuk berkongsi tatasusunan TileDB di awan dengan pengguna lain dan melakukan pengiraan tanpa pelayan.

Dari ciri-ciri utama TileDB berikut menonjol:

  • Kaedah yang berkesan untuk menyimpan susunan jarang, datanya tidak mengikuti secara berterusan, susunan diisi dengan serpihan dan kebanyakan elemen tetap kosong atau mengambil nilai yang sama.
  • Keupayaan untuk mengakses data dalam format nilai utama atau set lajur (DataFrame);
  • Sokongan untuk penyatuan dengan AWS S3, Google Cloud Storage, dan Azure Blob Storage.
  • TileDB dengan cekap menyokong pemformatan data yang tertanam dalam format dan enjin storannya.
  • Ia mempunyai pelbagai pengoptimuman di sekitar I / O selari di gedung objek awan dan pengiraan pelbagai utas (seperti klasifikasi, pemampatan, dll.).
  • Keupayaan untuk menggunakan algoritma pemampatan dan enkripsi data yang berbeza.
  • Sokongan untuk integriti checksum.
  • Ia berfungsi dalam mod multithreaded dengan input / output parallelization.
  • Sokongan untuk membuat versi data yang tersimpan, bahkan untuk mendapatkan semula keadaan pada titik tertentu pada masa lalu atau untuk kemas kini atom bagi set bilangan bulat besar.
  • Keupayaan untuk menghubungkan metadata.
  • Sokongan pengelompokan data.
  • Modul integrasi untuk digunakan sebagai enjin penyimpanan tahap rendah di Spark, Dask, MariaDB, GDAL, PDAL, Rasterio, gVCF dan PrestoDB.
  • Perpustakaan mengikat API C ++ untuk bahasa Python, R, Java, dan Go.

Kod projek ditulis dalam C ++ dan diedarkan di bawah lesen MIT dan serasi dengan Linux, macOS, dan Windows.

Mengenai versi 2.0

Versi 2.0 menonjolkan keserasiannya dengan konsep «DataFrame», bahawa membolehkan anda menyimpan data dalam bentuk lajur nilai panjang sewenang-wenang, terikat pada atribut tertentu dan bahawa API yang direka semula untuk R.

Penyimpanan juga dioptimumkan untuk memproses matriks jarang berukuran heterogen (jenis data yang berbeza dapat disimpan dalam sel dan kemungkinan menggabungkan pelbagai jenis lajur, misalnya, di mana nama, masa dan harga disimpan).

Menambah sokongan untuk lajur dengan data rentetan, serta modul ditambahkan untuk integrasi dengan Google Cloud Storage dan Azure Blob Storage. 

Akhirnya jika anda ingin mengetahui lebih lanjut mengenai versi baru ini, hlmAnda boleh menyemak nota pelepasan di pautan berikut.

Y untuk mengetahui lebih lanjut mengenai pemasangan anda, pelaksanaan dan dokumentasi, anda boleh melakukannya di pautan berikut.


Tinggalkan komen anda

Alamat email anda tidak akan disiarkan. Ruangan yang diperlukan ditanda dengan *

*

*

  1. Bertanggungjawab untuk data: AB Internet Networks 2008 SL
  2. Tujuan data: Mengendalikan SPAM, pengurusan komen.
  3. Perundangan: Persetujuan anda
  4. Komunikasi data: Data tidak akan disampaikan kepada pihak ketiga kecuali dengan kewajiban hukum.
  5. Penyimpanan data: Pangkalan data yang dihoskan oleh Occentus Networks (EU)
  6. Hak: Pada bila-bila masa anda boleh menghadkan, memulihkan dan menghapus maklumat anda.