4个大数据开源平台

大数据

大数据是用于描述大数据收集的术语 并且随着时间的增长呈指数增长。

数据这么大 比任何传统的数据管理工具都要复杂 您可以有效地存储或处理它们。

但是我们必须明白,每个人 可以以固定格式存储,访问和处理的数据称为“结构化”数据。

被大规模管理 在其中 解决方案必须实施 能够在短时间内处理,存储和分析大量数据

当查看大规模处理的图形时, 可以很容易地理解为什么给了“大数据”这个名字 并想象存储和处理的挑战。

因此,今天我们要学习一些流行的开源工具,这些工具可用于创建数据分析平台。

Apache Hadoop

Hadoop阿帕奇

Apache Hadoop是 一个开放源代码软件平台,可在分布式环境中处理非常大的数据集。

这个工具 基于存储量,计算能力和 主要 在低成本的基本硬件中。

Apache Hadoop是 旨在轻松地从几台服务器扩展到数千台服务器。

它可以帮助您以常规并行处理配置来处理本地存储的数据。

Hadoop的好处之一是它可以在软件级别处理故障。 Apache Hadoop为文件系统层,集群管理层和处理层提供了一个框架。

它为其他项目和框架提供了进入Hadoop生态系统并与之协同工作的选项,并为系统中可用的任何层开​​发了自己的框架。

Elasticsearch

Elasticsearch

Elasticsearch是 一个基于全文的搜索和分析引擎。 这是一个系统 高度可扩展和分布式 特别设计 与大数据系统一起快速高效地工作,其主要用例之一是日志分析。

它能够进行高级和复杂的搜索以及近乎实时的处理,以进行高级分析和操作智能。

Elasticsearch 用Java编写,基于Apache Lucene,Elasticsearch基于具有无模式结构的JSON文档,因此易于采用。

它是领先的企业级搜索引擎之一。 您可以使用任何编程语言编写客户端。 Elasticsearch正式适用于Java,.NET,PHP,Python,Perl等。

MongoDB的

MongoDB的

MongoDB是 基于文档数据模型的NoSQL数据库。 在MongoDB中,所有内容都是集合或文档。

为了理解MongoDB的术语,集合是表的替代词,而文档是行的替代词。

MongoDB的 是一个开放源代码,面向文档的跨平台数据库。 它主要用C ++编写。

它也是领先的NoSQL数据库,具有高性能,高可用性和易扩展性。

MongoDB的 在架构中使用类似JSON的文档,并提供强大的查询支持。 它的一些主要功能包括索引,复制,负载平衡,聚合和文件存储。

卡桑德拉

卡桑德拉(Cassandra)是 一个专为NoSQL数据库管理而设计的开源Apache项目。

Cassandra的行组织在表中,并通过键索引。 它使用基于记录的仅追加存储引擎。

Cassandra中的数据分布在多个主节点上,没有单点故障。 这是一个高级Apache项目,目前由Apache Software Foundation(ASF)监督其开发。

卡桑德拉(Cassandra)是 设计用于解决与大规模操作(网络)相关的问题。

有了Cassandra的主体系结构,尽管出现了少量(但很大)的硬件故障,它仍可以继续运行。 Cassandra在多个数据中心的多个节点上运行。

在这些数据中心中复制数据以避免故障或停机。 这使其成为高度容错的系统。


发表您的评论

您的电子邮件地址将不会被发表。 必填字段标有 *

*

*

  1. 负责资料:AB Internet Networks 2008 SL
  2. 数据用途:控制垃圾邮件,注释管理。
  3. 合法性:您的同意
  4. 数据通讯:除非有法律义务,否则不会将数据传达给第三方。
  5. 数据存储:Occentus Networks(EU)托管的数据库
  6. 权利:您可以随时限制,恢复和删除您的信息。

  1.   圣伊西德

    我对了解BigData感兴趣,目前我有一个托管在ibm云中的帐户,我想在那里与Apache Spark合作,但是我无法与我的团队很好地联系,非常感谢您的支持