ビッグデータは、大きなデータの収集を説明するために使用される用語です そしてそれは時間とともに指数関数的に成長します。
データはとても大きいです 従来のどのデータ管理ツールよりも複雑です それらを効率的に保存または処理できます。
しかし、私たちは皆が 固定形式で保存、アクセス、処理できるデータは、「構造化」データと呼ばれます。
その 大規模に管理されている、 その中で ソリューションを実装する必要があります 大量のデータを短時間で処理、保存、分析できる
大規模に取り扱われるフィギュアを見ると、 「ビッグデータ」という名前が付けられている理由は簡単に理解できます 保存と処理の課題を想像してみてください。
そのため、今日は、データ分析プラットフォームの作成に使用できるいくつかの人気のあるオープンソースツールについて学習します。
Apache Hadoopの
ApacheHadoopは 分散環境で非常に大きなデータセットを処理するオープンソースソフトウェアプラットフォーム。
このツール ストレージ、計算能力、およびに基づいています ほとんど 低コストの基本的なハードウェアで。
ApacheHadoopは 数台から数千台のサーバーに簡単に拡張できるように設計されています。
これは、ローカルに保存されたデータを一般的な並列処理構成で処理するのに役立ちます。
Hadoopの利点のXNUMXつは、ソフトウェアレベルで障害を処理できることです。 Apache Hadoopは、ファイルシステムレイヤー、クラスター管理レイヤー、および処理レイヤーのフレームワークを提供します。
他のプロジェクトやフレームワークがHadoopエコシステムに参加して連携し、システムで利用可能な任意のレイヤー用に独自のフレームワークを開発するためのオプションが残されています。
Elasticsearch
Elasticsearchは フルテキストベースの検索および分析エンジン。 システムです 高度にスケーラブルで分散型、 特別に設計された ビッグデータシステムと効率的かつ迅速に連携する、その主なユースケースのXNUMXつはログ分析です。
高度で複雑な検索とほぼリアルタイムの処理が可能で、高度な分析と運用インテリジェンスを実現します。
Elasticsearch Javaで記述され、ApacheLuceneに基づいています、Elasticsearchはスキーマフリー構造のJSONドキュメントに基づいているため、簡単に採用できます。
これは、主要なビジネスグレードの検索エンジンのXNUMXつです。 クライアントは任意のプログラミング言語で記述できます。 Elasticsearchは、Java、.NET、PHP、Python、Perlなどで公式に動作します。
MongoDBの
MongoDBは ドキュメントデータモデルに基づくNoSQLデータベース。 MongoDBでは、すべてがコレクションまたはドキュメントです。
MongoDBの用語を理解するために、コレクションはテーブルの代替語であり、ドキュメントは行の代替語です。
MongoDBの は、オープンソースのドキュメント指向のクロスプラットフォームデータベースです。 主にC ++で書かれています。
また、高性能、高可用性、および容易なスケーラビリティを提供する主要なNoSQLデータベースでもあります。
MongoDBの スキーマでJSONのようなドキュメントを使用し、優れたクエリサポートを提供します。 その主な機能には、インデックス作成、レプリケーション、負荷分散、集約、ファイルストレージなどがあります。
カサンドラ
カサンドラは NoSQLデータベースを管理するために設計されたオープンソースのApacheプロジェクト。
Cassandraの行はテーブルに編成され、キーによってインデックスが付けられます。 これは、追加専用のレコードベースのストレージエンジンを使用します。
Cassandraのデータは複数のマスターノードに分散されます、単一障害点なし。 これは高レベルのApacheプロジェクトであり、その開発は現在Apache Software Foundation(ASF)によって監督されています。
カサンドラは 大規模(ウェブ)での操作に関連する問題を解決するように設計されています。
Cassandraのマスターアーキテクチャを考えると、ハードウェア障害の数が少ない(ただし重大な)場合でも、動作を継続できます。 Cassandraは、複数のデータセンターの複数のノードで実行されます。
これらのデータセンターでデータを複製して、障害やダウンタイムを回避します。 これにより、フォールトトレラント性の高いシステムになります。
BigDataについてもっと知りたいです。現在、IBMクラウドでホストされているアカウントを持っています。そこで、Apache Sparkで作業したいのですが、チームとうまくリンクできませんでした。ご支援いただければ幸いです。