TileDB 2.0, database untuk menyimpan matriks dan data ilmiah

Rilis versi baru TileDB 2.0 baru-baru ini diumumkan integrasi ditambahkan untuk bekerja dengan layanan cloud yang berbeda, kemampuan untuk menggunakan algoritme yang berbeda, peningkatan dengan mesin penyimpanan yang berbeda, dan hal-hal lain.

Bagi mereka yang tidak terbiasa dengan TileDB, mereka harus tahu ini adalah database yang dirancang untuk membantu tim ilmu data untuk membuat penemuan lebih cepat dengan memberi mereka cara yang lebih efektif untuk menyimpan, memperbarui, menganalisis, dan berbagi kumpulan besar data yang beragam.

Tentang TileDB

TileDB terdiri dari format data array multidimensi baru, mesin penyimpanan C ++ sumber terbuka yang cepat, dapat disematkan, dengan integrasi alat sains data dan layanan cloud untuk penghitungan dan pengelolaan data tanpa server yang mudah.

UbinDB dioptimalkan untuk menyimpan matriks dan data yang digunakan dalam kalkulasi ilmiah multidimensi, seperti berbagai sistem untuk memproses informasi genetik, spasial dan data keuangan, yaitu sistem yang beroperasi dengan matriks multidimensi yang tersebar atau terus menerus terisi.

TileDB menawarkan pustaka C ++ mandiri dan tersemat yang dikirimkan dengan API dalam C, C ++, Python, R, Java dan Go dan Anda memiliki akses langsung ke array TileDB.

Pustaka tersebut terintegrasi dengan Spark, Dask, PrestoDB, MariaDB, Arrow, dan pustaka geospasial seperti PDAL, GDAL, dan Rasterio. TileDB mendorong komputasi sebanyak mungkin ke penyimpananseperti kondisi filter mesin SQL dan penghitungan bingkai data Dask dan Spark.

Di samping database adalah TileDB Cloud, layanan pay-as-you-go yang dapat Anda gunakan untuk berbagi array TileDB di cloud dengan pengguna lain dan melakukan penghitungan tanpa server pada mereka.

Fitur utama TileDB yang menonjol berikut ini:

  • Metode efektif untuk menyimpan larik jarang, yang datanya tidak mengikuti terus menerus, larik diisi dengan fragmen, dan sebagian besar elemen tetap kosong atau mengambil nilai yang sama.
  • Kemampuan untuk mengakses data dalam format nilai kunci atau kumpulan kolom (DataFrame);
  • Dukungan untuk integrasi dengan AWS S3, Google Cloud Storage, dan Azure Blob Storage.
  • TileDB secara efisien mendukung versi data yang tertanam secara native dalam format dan mesin penyimpanannya.
  • Ini memiliki berbagai pengoptimalan seputar I / O paralel di penyimpanan objek cloud dan penghitungan multi-utas (seperti klasifikasi, kompresi, dll.).
  • Kemampuan untuk menggunakan kompresi data dan algoritma enkripsi yang berbeda.
  • Dukungan untuk integritas checksum.
  • Ia bekerja dalam mode multithread dengan paralelisasi input / output.
  • Dukungan untuk membuat versi data yang disimpan, bahkan untuk mengambil status pada titik tertentu di masa lalu atau untuk pembaruan atomik dari kumpulan bilangan bulat besar.
  • Kemampuan untuk menghubungkan metadata.
  • Dukungan pengelompokan data.
  • Modul integrasi untuk digunakan sebagai mesin penyimpanan tingkat rendah di Spark, Dask, MariaDB, GDAL, PDAL, Rasterio, gVCF, dan PrestoDB.
  • Library binding C ++ API untuk bahasa Python, R, Java, dan Go.

Kode proyek ditulis dalam C ++ dan didistribusikan di bawah lisensi MIT dan kompatibel dengan Linux, macOS, dan Windows.

Tentang versi 2.0

Versi 2.0 menonjol karena kompatibilitasnya dengan konsep «DataFrame», bahwa memungkinkan Anda menyimpan data dalam bentuk kolom nilai panjang sewenang-wenang, terikat ke atribut tertentu dan bahwa API yang didesain ulang untuk R.

Penyimpanan juga dioptimalkan untuk memproses matriks renggang dalam ukuran heterogen (berbagai jenis data dapat disimpan dalam sel dan dimungkinkan untuk menggabungkan berbagai jenis kolom, misalnya, di mana nama, waktu dan harga disimpan).

Menambahkan dukungan untuk kolom dengan data string, serta modul ditambahkan untuk integrasi dengan Google Cloud Storage dan Azure Blob Storage. 

Terakhir jika Anda ingin tahu lebih banyak tentang versi baru ini, halAnda dapat memeriksa catatan rilis di link berikut.

Y untuk mempelajari lebih lanjut tentang pemasangannya, implementasi dan dokumentasi, Anda dapat melakukannya di link berikut.


tinggalkan Komentar Anda

Alamat email Anda tidak akan dipublikasikan. Bidang yang harus diisi ditandai dengan *

*

*

  1. Bertanggung jawab atas data: AB Internet Networks 2008 SL
  2. Tujuan data: Mengontrol SPAM, manajemen komentar.
  3. Legitimasi: Persetujuan Anda
  4. Komunikasi data: Data tidak akan dikomunikasikan kepada pihak ketiga kecuali dengan kewajiban hukum.
  5. Penyimpanan data: Basis data dihosting oleh Occentus Networks (UE)
  6. Hak: Anda dapat membatasi, memulihkan, dan menghapus informasi Anda kapan saja.