4 платформы с открытым исходным кодом для больших данных

Большие данные

Большие данные - это термин, используемый для описания сбора больших данных. и это возрастает со временем в геометрической прогрессии.

Данные такие большие и сложнее, чем любой из традиционных инструментов управления данными вы можете эффективно хранить или обрабатывать их.

Но надо понимать, что все данные, которые могут быть сохранены, доступны и обработаны в фиксированном формате, называются «структурированными» данными.

Что управляются в больших масштабах, в котором решения должны быть реализованы которые способны обрабатывать, хранить и анализировать большие объемы данных за короткое время

Глядя на крупномасштабные фигуры, легко понять, почему дано название «большие данные» и представьте себе проблемы хранения и обработки.

Вот почему сегодня мы узнаем о некоторых популярных инструментах с открытым исходным кодом, которые можно использовать для создания платформы анализа данных.

Apache Hadoop

хадуп-апач

Apache Hadoop - это программная платформа с открытым исходным кодом, которая обрабатывает очень большие наборы данных в распределенной среде.

Этот инструмент основан на хранении, вычислительной мощности и главным образом в недорогом базовом оборудовании.

Apache Hadoop - это разработан для легкого масштабирования от нескольких до тысяч серверов.

Это помогает обрабатывать локально сохраненные данные в общей конфигурации параллельной обработки.

Одним из преимуществ Hadoop является то, что он обрабатывает сбои на программном уровне. Apache Hadoop предоставляет основу для уровня файловой системы, уровня управления кластером и уровня обработки.

Это оставляет возможность для других проектов и фреймворков работать вместе с экосистемой Hadoop и разрабатывать свои собственные фреймворки для любого из уровней, доступных в системе.

Elasticsearch

Elasticsearch

Elasticsearch - это система полнотекстового поиска и аналитики. Это система хорошо масштабируемый и распределенный, специально разработанный эффективно и быстро работать с системами больших данных, где одним из основных вариантов использования является анализ журналов.

Он способен выполнять расширенный и сложный поиск и обработку данных в режиме, близком к реальному времени, для расширенного анализа и оперативного интеллекта.

Elasticsearch написан на Java и основан на Apache Lucene, Elasticsearch основан на документе JSON со структурой без схемы, что упрощает его внедрение.

Это одна из ведущих поисковых систем бизнес-класса. Вы можете написать своего клиента на любом языке программирования; Elasticsearch официально работает с Java, .NET, PHP, Python, Perl и т. Д.

MongoDB

MongoDB

MongoDB - это база данных NoSQL, основанная на модели данных документа. В MongoDB все является коллекцией или документом.

Чтобы понять терминологию MongoDB, коллекция - это альтернативное слово для таблицы, а документ - это альтернативное слово для строк.

MongoDB - это кроссплатформенная база данных с открытым исходным кодом, ориентированная на документы. Написан в основном на C ++.

Это также ведущая база данных NoSQL, предлагающая высокую производительность, доступность и простую масштабируемость.

MongoDB использует JSON-подобные документы со схемой и обеспечивает отличную поддержку запросов. Некоторые из его основных функций включают индексацию, репликацию, балансировку нагрузки, агрегирование и хранение файлов.

Кассандра

Кассандра проект Apache с открытым исходным кодом, предназначенный для управления базами данных NoSQL.

Строки Кассандры организованы в таблицы и индексируются ключом. Он использует механизм хранения на основе записей, допускающий только добавление.

Данные в Cassandra распределяются по нескольким главным узлам., без единой точки отказа. Это высокоуровневый проект Apache, и его разработка в настоящее время контролируется Apache Software Foundation (ASF).

Кассандра предназначен для решения проблем, связанных с работой в больших масштабах (Интернет).

Учитывая основную архитектуру Cassandra, она может продолжать работать, несмотря на небольшое (но значительное) количество аппаратных сбоев. Cassandra работает на нескольких узлах в нескольких центрах обработки данных.

Реплицируйте данные в этих центрах обработки данных, чтобы избежать сбоев или простоев. Это делает систему очень отказоустойчивой.


Содержание статьи соответствует нашим принципам редакционная этика. Чтобы сообщить об ошибке, нажмите здесь.

Комментарий, оставьте свой

Оставьте свой комментарий

Ваш электронный адрес не будет опубликован.

*

*

  1. Ответственный за данные: AB Internet Networks 2008 SL
  2. Назначение данных: контроль спама, управление комментариями.
  3. Легитимация: ваше согласие
  4. Передача данных: данные не будут переданы третьим лицам, кроме как по закону.
  5. Хранение данных: база данных, размещенная в Occentus Networks (ЕС)
  6. Права: в любое время вы можете ограничить, восстановить и удалить свою информацию.

  1.   Сант Исид сказал

    Мне больше интересно узнать о BigData, в настоящее время у меня есть учетная запись, размещенная в облаке ibm, я хотел бы работать прямо там с Apache Spark, но у меня не было возможности связаться с моей командой, я был бы признателен за вашу поддержку