TileDB 2.0, một cơ sở dữ liệu để lưu trữ ma trận và dữ liệu khoa học

Việc phát hành phiên bản mới của TileDB 2.0 gần đây đã được công bố trong đó tích hợp được thêm vào để hoạt động với các dịch vụ đám mây khác nhau, khả năng sử dụng các thuật toán khác nhau, cải tiến với các công cụ lưu trữ khác nhau và những thứ khác.

Đối với những người không quen với TileDB, họ nên biết rằng điều này là cơ sở dữ liệu được thiết kế để giúp các nhóm khoa học dữ liệu để thực hiện các khám phá nhanh hơn bằng cách cung cấp cho họ một cách mạnh mẽ hơn để lưu trữ, cập nhật, phân tích và chia sẻ tập hợp lớn dữ liệu đa dạng.

Giới thiệu về TileDB

TileDB bao gồm một định dạng dữ liệu mảng đa chiều mới, một công cụ lưu trữ C ++ mã nguồn mở, có thể nhúng, nhanh chóng với tích hợp công cụ khoa học dữ liệu và dịch vụ đám mây để dễ dàng tính toán và quản lý dữ liệu không cần máy chủ.

NgóiDB được tối ưu hóa để lưu trữ ma trận và dữ liệu được sử dụng trong tính toán khoa học đa chiều, chẳng hạn như các hệ thống khác nhau để xử lý thông tin di truyền, dữ liệu không gian và tài chính, tức là các hệ thống hoạt động với ma trận đa chiều phân tán hoặc liên tục được lấp đầy.

TileDB cung cấp một thư viện C ++ độc lập và được nhúng cung cấp API bằng C, C ++, Python, R, Java và Go và bạn có quyền truy cập trực tiếp vào các mảng TileDB.

Thư viện được tích hợp với Spark, Dask, PrestoDB, MariaDB, Arrow và các thư viện không gian địa lý như PDAL, GDAL và Rasterio. TileDB đẩy nhiều máy tính nhất có thể vào bộ nhớchẳng hạn như điều kiện bộ lọc động cơ SQL và tính toán khung dữ liệu Dask và Spark.

Cùng với cơ sở dữ liệu là TileDB Cloud, một dịch vụ trả tiền khi bạn di chuyển mà bạn có thể sử dụng để chia sẻ các mảng TileDB trên đám mây với những người dùng khác và thực hiện các phép tính không cần máy chủ trên chúng.

Trong số các tính năng chính của TileDB nổi bật sau:

  • Các phương pháp hiệu quả để lưu trữ các mảng thưa thớt, dữ liệu không theo sau liên tục, mảng được lấp đầy bởi các phần tử và hầu hết các phần tử vẫn trống hoặc có cùng giá trị.
  • Khả năng truy cập dữ liệu ở định dạng giá trị chính hoặc tập hợp các cột (DataFrame);
  • Hỗ trợ tích hợp với AWS S3, Google Cloud Storage và Azure Blob Storage.
  • TileDB hỗ trợ hiệu quả việc lập phiên bản dữ liệu được nhúng nguyên bản trong công cụ lưu trữ và định dạng của nó.
  • Nó có một loạt các tối ưu hóa xung quanh I / O song song trong các kho lưu trữ đối tượng đám mây và tính toán đa luồng (chẳng hạn như phân loại, nén, v.v.).
  • Khả năng sử dụng các thuật toán nén và mã hóa dữ liệu khác nhau.
  • Hỗ trợ tính toàn vẹn của tổng kiểm tra.
  • Nó hoạt động ở chế độ đa luồng với đầu vào / đầu ra song song.
  • Hỗ trợ lập phiên bản cho dữ liệu được lưu trữ, ngay cả để truy xuất trạng thái tại một thời điểm nhất định trong quá khứ hoặc để cập nhật nguyên tử của các tập hợp số nguyên lớn.
  • Khả năng liên kết siêu dữ liệu.
  • Hỗ trợ phân nhóm dữ liệu.
  • Các mô-đun tích hợp được sử dụng như một công cụ lưu trữ cấp thấp trong Spark, Dask, MariaDB, GDAL, PDAL, Rasterio, gVCF và PrestoDB.
  • Thư viện liên kết API C ++ cho các ngôn ngữ Python, R, Java và Go.

Mã dự án được viết bằng C ++ và được phân phối theo giấy phép MIT và tương thích với Linux, macOS và Windows.

Giới thiệu về phiên bản 2.0

Phiên bản 2.0 nổi bật vì khả năng tương thích với khái niệm «DataFrame»,cho phép bạn lưu trữ dữ liệu dưới dạng cột giá trị độ dài tùy ý, ràng buộc với các thuộc tính cụ thể và API được thiết kế lại cho R.

Bộ nhớ cũng được tối ưu hóa để xử lý ma trận thưa thớt không đồng nhất về kích thước (các loại dữ liệu khác nhau có thể được lưu trữ trong các ô và có thể hợp nhất các loại cột khác nhau, ví dụ, trong đó tên, thời gian và giá được lưu trữ).

Đã thêm hỗ trợ cho các cột có dữ liệu chuỗi, cũng như các mô-đun đã được thêm vào để tích hợp với Google Cloud Storage và Azure Blob Storage. 

Cuối cùng nếu bạn muốn biết thêm về phiên bản mới này, pBạn có thể kiểm tra ghi chú phát hành tại liên kết sau.

Y để tìm hiểu thêm về cài đặt của nó, triển khai và tài liệu, bạn có thể làm điều đó trong liên kết theo dõi.


Để lại bình luận của bạn

địa chỉ email của bạn sẽ không được công bố. Các trường bắt buộc được đánh dấu bằng *

*

*

  1. Chịu trách nhiệm về dữ liệu: AB Internet Networks 2008 SL
  2. Mục đích của dữ liệu: Kiểm soát SPAM, quản lý bình luận.
  3. Hợp pháp: Sự đồng ý của bạn
  4. Truyền thông dữ liệu: Dữ liệu sẽ không được thông báo cho các bên thứ ba trừ khi có nghĩa vụ pháp lý.
  5. Lưu trữ dữ liệu: Cơ sở dữ liệu do Occentus Networks (EU) lưu trữ
  6. Quyền: Bất cứ lúc nào bạn có thể giới hạn, khôi phục và xóa thông tin của mình.