大数据是用于描述大数据收集的术语 并且随着时间的增长呈指数增长。
数据这么大 比任何传统的数据管理工具都要复杂 您可以有效地存储或处理它们。
但是我们必须明白,每个人 可以以固定格式存储,访问和处理的数据称为“结构化”数据。
该 被大规模管理 在其中 解决方案必须实施 能够在短时间内处理,存储和分析大量数据
当查看大规模处理的图形时, 可以很容易地理解为什么给了“大数据”这个名字 并想象存储和处理的挑战。
因此,今天我们要学习一些流行的开源工具,这些工具可用于创建数据分析平台。
Apache Hadoop
Apache Hadoop是 一个开放源代码软件平台,可在分布式环境中处理非常大的数据集。
这个工具 基于存储量,计算能力和 主要 在低成本的基本硬件中。
Apache Hadoop是 旨在轻松地从几台服务器扩展到数千台服务器。
它可以帮助您以常规并行处理配置来处理本地存储的数据。
Hadoop的好处之一是它可以在软件级别处理故障。 Apache Hadoop为文件系统层,集群管理层和处理层提供了一个框架。
它为其他项目和框架提供了进入Hadoop生态系统并与之协同工作的选项,并为系统中可用的任何层开发了自己的框架。
Elasticsearch
Elasticsearch是 一个基于全文的搜索和分析引擎。 这是一个系统 高度可扩展和分布式 特别设计 与大数据系统一起快速高效地工作,其主要用例之一是日志分析。
它能够进行高级和复杂的搜索以及近乎实时的处理,以进行高级分析和操作智能。
Elasticsearch 用Java编写,基于Apache Lucene,Elasticsearch基于具有无模式结构的JSON文档,因此易于采用。
它是领先的企业级搜索引擎之一。 您可以使用任何编程语言编写客户端。 Elasticsearch正式适用于Java,.NET,PHP,Python,Perl等。
MongoDB的
MongoDB是 基于文档数据模型的NoSQL数据库。 在MongoDB中,所有内容都是集合或文档。
为了理解MongoDB的术语,集合是表的替代词,而文档是行的替代词。
MongoDB的 是一个开放源代码,面向文档的跨平台数据库。 它主要用C ++编写。
它也是领先的NoSQL数据库,具有高性能,高可用性和易扩展性。
MongoDB的 在架构中使用类似JSON的文档,并提供强大的查询支持。 它的一些主要功能包括索引,复制,负载平衡,聚合和文件存储。
卡桑德拉
卡桑德拉(Cassandra)是 一个专为NoSQL数据库管理而设计的开源Apache项目。
Cassandra的行组织在表中,并通过键索引。 它使用基于记录的仅追加存储引擎。
Cassandra中的数据分布在多个主节点上,没有单点故障。 这是一个高级Apache项目,目前由Apache Software Foundation(ASF)监督其开发。
卡桑德拉(Cassandra)是 设计用于解决与大规模操作(网络)相关的问题。
有了Cassandra的主体系结构,尽管出现了少量(但很大)的硬件故障,它仍可以继续运行。 Cassandra在多个数据中心的多个节点上运行。
在这些数据中心中复制数据以避免故障或停机。 这使其成为高度容错的系统。
我对了解BigData感兴趣,目前我有一个托管在ibm云中的帐户,我想在那里与Apache Spark合作,但是我无法与我的团队很好地联系,非常感谢您的支持