4 个大数据开源平台

大数据是用于描述大数据收集的术语 并且随着时间的增长呈指数增长。

数据这么大 比任何传统的数据管理工具都要复杂 您可以有效地存储或处理它们。

但是我们必须明白，每个人 可以以固定格式存储，访问和处理的数据称为“结构化”数据。

该 被大规模管理 在其中 解决方案必须实施 能够在短时间内处理，存储和分析大量数据

当查看大规模处理的图形时， 可以很容易地理解为什么给了“大数据”这个名字 并想象存储和处理的挑战。

因此，今天我们要学习一些流行的开源工具，这些工具可用于创建数据分析平台。

Apache Hadoop

Apache Hadoop是 一个开放源代码软件平台，可在分布式环境中处理非常大的数据集。

这个工具 基于存储量，计算能力和 主要 在低成本的基本硬件中。

Apache Hadoop是 旨在轻松地从几台服务器扩展到数千台服务器。

它可以帮助您以常规并行处理配置来处理本地存储的数据。

Hadoop的好处之一是它可以在软件级别处理故障。 Apache Hadoop为文件系统层，集群管理层和处理层提供了一个框架。

它为其他项目和框架提供了进入Hadoop生态系统并与之协同工作的选项，并为系统中可用的任何层开发了自己的框架。

Elasticsearch是 一个基于全文的搜索和分析引擎。 这是一个系统 高度可扩展和分布式 特别设计 与大数据系统一起快速高效地工作，其主要用例之一是日志分析。

它能够进行高级和复杂的搜索以及近乎实时的处理，以进行高级分析和操作智能。

Elasticsearch 用Java编写，基于Apache Lucene，Elasticsearch基于具有无模式结构的JSON文档，因此易于采用。

它是领先的企业级搜索引擎之一。您可以使用任何编程语言编写客户端。 Elasticsearch正式适用于Java，.NET，PHP，Python，Perl等。

MongoDB是 基于文档数据模型的NoSQL数据库。 在MongoDB中，所有内容都是集合或文档。

为了理解MongoDB的术语，集合是表的替代词，而文档是行的替代词。

MongoDB的 是一个开放源代码，面向文档的跨平台数据库。它主要用C ++编写。

它也是领先的NoSQL数据库，具有高性能，高可用性和易扩展性。

MongoDB的 在架构中使用类似JSON的文档，并提供强大的查询支持。它的一些主要功能包括索引，复制，负载平衡，聚合和文件存储。

卡桑德拉（Cassandra）是 一个专为NoSQL数据库管理而设计的开源Apache项目。

Cassandra的行组织在表中，并通过键索引。它使用基于记录的仅追加存储引擎。

Cassandra中的数据分布在多个主节点上，没有单点故障。这是一个高级Apache项目，目前由Apache Software Foundation（ASF）监督其开发。

卡桑德拉（Cassandra）是 设计用于解决与大规模操作（网络）相关的问题。

有了Cassandra的主体系结构，尽管出现了少量（但很大）的硬件故障，它仍可以继续运行。 Cassandra在多个数据中心的多个节点上运行。

在这些数据中心中复制数据以避免故障或停机。这使其成为高度容错的系统。