ビッグデータ用の4つのオープンソースプラットフォーム

ビッグデータ

ビッグデータは、大きなデータの収集を説明するために使用される用語です そしてそれは時間とともに指数関数的に成長します。

データはとても大きいです 従来のどのデータ管理ツールよりも複雑です それらを効率的に保存または処理できます。

しかし、私たちは皆が 固定形式で保存、アクセス、処理できるデータは、「構造化」データと呼ばれます。

その 大規模に管理されている、 その中で ソリューションを実装する必要があります 大量のデータを短時間で処理、保存、分析できる

大規模に取り扱われるフィギュアを見ると、 「ビッグデータ」という名前が付けられている理由は簡単に理解できます 保存と処理の課題を想像してみてください。

そのため、今日は、データ分析プラットフォームの作成に使用できるいくつかの人気のあるオープンソースツールについて学習します。

Apache Hadoopの

hadoop apache

ApacheHadoopは 分散環境で非常に大きなデータセットを処理するオープンソースソフトウェアプラットフォーム。

このツール ストレージ、計算能力、およびに基づいています ほとんど 低コストの基本的なハードウェアで。

ApacheHadoopは 数台から数千台のサーバーに簡単に拡張できるように設計されています。

これは、ローカルに保存されたデータを一般的な並列処理構成で処理するのに役立ちます。

Hadoopの利点のXNUMXつは、ソフトウェアレベルで障害を処理できることです。 Apache Hadoopは、ファイルシステムレイヤー、クラスター管理レイヤー、および処理レイヤーのフレームワークを提供します。

他のプロジェクトやフレームワークがHadoopエコシステムに参加して連携し、システムで利用可能な任意のレイヤー用に独自のフレームワークを開発するためのオプションが残されています。

Elasticsearch

Elasticsearch

Elasticsearchは フルテキストベースの検索および分析エンジン。 システムです 高度にスケーラブルで分散型、 特別に設計された ビッグデータシステムと効率的かつ迅速に連携する、その主なユースケースのXNUMXつはログ分析です。

高度で複雑な検索とほぼリアルタイムの処理が可能で、高度な分析と運用インテリジェンスを実現します。

Elasticsearch Javaで記述され、ApacheLuceneに基づいています、Elasticsearchはスキーマフリー構造のJSONドキュメントに基づいているため、簡単に採用できます。

これは、主要なビジネスグレードの検索エンジンのXNUMXつです。 クライアントは任意のプログラミング言語で記述できます。 Elasticsearchは、Java、.NET、PHP、Python、Perlなどで公式に動作します。

MongoDBの

MongoDBの

MongoDBは ドキュメントデータモデルに基づくNoSQLデータベース。 MongoDBでは、すべてがコレクションまたはドキュメントです。

MongoDBの用語を理解するために、コレクションはテーブルの代替語であり、ドキュメントは行の代替語です。

MongoDBの は、オープンソースのドキュメント指向のクロスプラットフォームデータベースです。 主にC ++で書かれています。

また、高性能、高可用性、および容易なスケーラビリティを提供する主要なNoSQLデータベースでもあります。

MongoDBの スキーマでJSONのようなドキュメントを使用し、優れたクエリサポートを提供します。 その主な機能には、インデックス作成、レプリケーション、負荷分散、集約、ファイルストレージなどがあります。

カサンドラ

カサンドラは NoSQLデータベースを管理するために設計されたオープンソースのApacheプロジェクト。

Cassandraの行はテーブルに編成され、キーによってインデックスが付けられます。 これは、追加専用のレコードベースのストレージエンジンを使用します。

Cassandraのデータは複数のマスターノードに分散されます、単一障害点なし。 これは高レベルのApacheプロジェクトであり、その開発は現在Apache Software Foundation(ASF)によって監督されています。

カサンドラは 大規模(ウェブ)での操作に関連する問題を解決するように設計されています。

Cassandraのマスターアーキテクチャを考えると、ハードウェア障害の数が少ない(ただし重大な)場合でも、動作を継続できます。 Cassandraは、複数のデータセンターの複数のノードで実行されます。

これらのデータセンターでデータを複製して、障害やダウンタイムを回避します。 これにより、フォールトトレラント性の高いシステムになります。


コメントを残す

あなたのメールアドレスが公開されることはありません。 必須フィールドには付いています *

*

*

  1. データの責任者:AB Internet Networks 2008 SL
  2. データの目的:SPAMの制御、コメント管理。
  3. 正当化:あなたの同意
  4. データの伝達:法的義務がある場合を除き、データが第三者に伝達されることはありません。
  5. データストレージ:Occentus Networks(EU)がホストするデータベース
  6. 権利:いつでも情報を制限、回復、削除できます。

  1.   サントイシド

    BigDataについてもっと知りたいです。現在、IBMクラウドでホストされているアカウントを持っています。そこで、Apache Sparkで作業したいのですが、チームとうまくリンクできませんでした。ご支援いただければ幸いです。