TileDB 2.0の新しいバージョンのリリースが最近発表されましたが、 さまざまなクラウドサービスと連携するための統合が追加されました、さまざまなアルゴリズムを使用する機能、さまざまなストレージエンジンによる改善など。
TileDBに慣れていない人は、これを知っておく必要があります。 データサイエンスチームを支援するために設計されたデータベースです 多様なデータの大規模なセットを保存、更新、分析、共有するためのより強力な方法を提供することにより、発見をより迅速に行うため。
TileDBについて
TileDBは、新しい多次元配列データ形式で構成されています。 データサイエンスツールと統合された高速で埋め込み可能なオープンソースのC ++ストレージエンジンと、サーバーレス計算とデータ管理を容易にするクラウドサービス。
タイルDB 多次元科学計算で使用される行列とデータを格納するように最適化されています、遺伝情報、空間および財務データを処理するためのさまざまなシステム、つまり、分散または連続的に満たされた多次元行列で動作するシステムなど。
TileDBは、スタンドアロンの組み込みC ++ライブラリを提供します これは、C、C ++、Python、R、Java、およびGoのAPIに付属しています。 また、TileDBアレイに直接アクセスできます。
このライブラリは、Spark、Dask、PrestoDB、MariaDB、Arrow、およびPDAL、GDAL、Rasterioなどの地理空間ライブラリと統合されています。 TileDBは可能な限り多くのコンピューティングをストレージにプッシュしますSQLエンジンのフィルター条件やDaskおよびSparkデータフレームの計算など。
データベースと並んで、TileDB Cloudがあります。これは、クラウド内のTileDBアレイを他のユーザーと共有し、サーバーレス計算を実行するために使用できる従量課金制のサービスです。
TileDBの主な機能のうち 次の点が際立っています。
- データが連続的に続かないスパース配列を格納するための効果的な方法。配列はフラグメントで埋められ、ほとんどの要素は空のままであるか、同じ値を取ります。
- キー値形式または列のセット(DataFrame)のデータにアクセスする機能。
- AWS S3、Google Cloud Storage、およびAzure BlobStorageとの統合のサポート。
- TileDBは、フォーマットおよびストレージエンジンにネイティブに組み込まれたデータバージョン管理を効率的にサポートします。
- クラウドオブジェクトストアの並列I / Oおよびマルチスレッド計算(分類、圧縮など)に関するさまざまな最適化があります。
- さまざまなデータ圧縮および暗号化アルゴリズムを使用する機能。
- チェックサムの整合性のサポート。
- これは、入力/出力の並列化を備えたマルチスレッドモードで動作します。
- 過去の特定の時点で状態を取得したり、大きな整数セットをアトミックに更新したりする場合でも、保存されたデータのバージョン管理をサポートします。
- メタデータをリンクする機能。
- データグループ化のサポート。
- Spark、Dask、MariaDB、GDAL、PDAL、Rasterio、gVCF、およびPrestoDBで低レベルのストレージエンジンとして使用される統合モジュール。
- Python、R、Java、およびGo言語用のC ++ APIバインディングライブラリ。
プロジェクトコードはC ++で記述され、MITライセンスの下で配布され、Linux、macOS、およびWindowsと互換性があります。
バージョン2.0について
バージョン2.0 «DataFrame»コンセプトとの互換性で際立っています。 その 値の列の形式でデータを保存できます 任意の長さ、特定の属性にバインドされ、R用に再設計されたAPI。
ストレージは、スパース行列の処理にも最適化されています サイズが不均一です(さまざまなタイプのデータをセルに格納でき、たとえば、名前、時間、価格が格納されているさまざまなタイプの列をマージできます)。
文字列データを含む列のサポートが追加されました。 との統合のためにモジュールが追加されました Google CloudStorageとAzureBlobStorage。
最後に、この新しいバージョンについてもっと知りたい場合は、pリリースノートは次のURLで確認できます。 次のリンク。
Y そのインストールの詳細については、 実装とドキュメント、あなたはでそれを行うことができます 次のリンク。