4 платформы с открытым исходным кодом для больших данных

Большие данные

Большие данные - это термин, используемый для описания сбора больших данных. и это возрастает со временем в геометрической прогрессии.

Данные такие большие и сложнее, чем любой из традиционных инструментов управления данными вы можете эффективно хранить или обрабатывать их.

Но надо понимать, что все данные, которые могут быть сохранены, доступны и обработаны в фиксированном формате, называются «структурированными» данными.

Что управляются в больших масштабах, в котором решения должны быть реализованы которые способны обрабатывать, хранить и анализировать большие объемы данных за короткое время

Глядя на крупномасштабные фигуры, легко понять, почему дано название «большие данные» и представьте себе проблемы хранения и обработки.

Вот почему сегодня мы узнаем о некоторых популярных инструментах с открытым исходным кодом, которые можно использовать для создания платформы анализа данных.

Apache Hadoop

хадуп-апач

Apache Hadoop - это программная платформа с открытым исходным кодом, которая обрабатывает очень большие наборы данных в распределенной среде.

Этот инструмент основан на хранении, вычислительной мощности и главным образом в недорогом базовом оборудовании.

Apache Hadoop - это разработан для легкого масштабирования от нескольких до тысяч серверов.

Это помогает обрабатывать локально сохраненные данные в общей конфигурации параллельной обработки.

Одним из преимуществ Hadoop является то, что он обрабатывает сбои на программном уровне. Apache Hadoop предоставляет основу для уровня файловой системы, уровня управления кластером и уровня обработки.

Это оставляет возможность для других проектов и фреймворков работать вместе с экосистемой Hadoop и разрабатывать свои собственные фреймворки для любого из уровней, доступных в системе.

Elasticsearch

Elasticsearch

Elasticsearch - это система полнотекстового поиска и аналитики. Это система хорошо масштабируемый и распределенный, специально разработанный эффективно и быстро работать с системами больших данных, где одним из основных вариантов использования является анализ журналов.

Он способен выполнять расширенный и сложный поиск и обработку данных в режиме, близком к реальному времени, для расширенного анализа и оперативного интеллекта.

Elasticsearch написан на Java и основан на Apache Lucene, Elasticsearch основан на документе JSON со структурой без схемы, что упрощает его внедрение.

Это одна из ведущих поисковых систем бизнес-класса. Вы можете написать своего клиента на любом языке программирования; Elasticsearch официально работает с Java, .NET, PHP, Python, Perl и т. Д.

MongoDB

MongoDB

MongoDB - это база данных NoSQL, основанная на модели данных документа. В MongoDB все является коллекцией или документом.

Чтобы понять терминологию MongoDB, коллекция - это альтернативное слово для таблицы, а документ - это альтернативное слово для строк.

MongoDB - это кроссплатформенная база данных с открытым исходным кодом, ориентированная на документы. Написан в основном на C ++.

Это также ведущая база данных NoSQL, предлагающая высокую производительность, доступность и простую масштабируемость.

MongoDB использует JSON-подобные документы со схемой и обеспечивает отличную поддержку запросов. Некоторые из его основных функций включают индексацию, репликацию, балансировку нагрузки, агрегирование и хранение файлов.

Кассандра

Кассандра проект Apache с открытым исходным кодом, предназначенный для управления базами данных NoSQL.

Строки Кассандры организованы в таблицы и индексируются ключом. Он использует механизм хранения на основе записей, допускающий только добавление.

Данные в Cassandra распределяются по нескольким главным узлам., без единой точки отказа. Это высокоуровневый проект Apache, и его разработка в настоящее время контролируется Apache Software Foundation (ASF).

Кассандра предназначен для решения проблем, связанных с работой в больших масштабах (Интернет).

Учитывая основную архитектуру Cassandra, она может продолжать работать, несмотря на небольшое (но значительное) количество аппаратных сбоев. Cassandra работает на нескольких узлах в нескольких центрах обработки данных.

Реплицируйте данные в этих центрах обработки данных, чтобы избежать сбоев или простоев. Это делает систему очень отказоустойчивой.


Оставьте свой комментарий

Ваш электронный адрес не будет опубликован. Обязательные для заполнения поля помечены *

*

*

  1. Ответственный за данные: AB Internet Networks 2008 SL
  2. Назначение данных: контроль спама, управление комментариями.
  3. Легитимация: ваше согласие
  4. Передача данных: данные не будут переданы третьим лицам, кроме как по закону.
  5. Хранение данных: база данных, размещенная в Occentus Networks (ЕС)
  6. Права: в любое время вы можете ограничить, восстановить и удалить свою информацию.

  1.   Сант Исид сказал

    Мне больше интересно узнать о BigData, в настоящее время у меня есть учетная запись, размещенная в облаке ibm, я хотел бы работать прямо там с Apache Spark, но у меня не было возможности связаться с моей командой, я был бы признателен за вашу поддержку