Большие данные - это термин, используемый для описания сбора больших данных. и это возрастает со временем в геометрической прогрессии.
Данные такие большие и сложнее, чем любой из традиционных инструментов управления данными вы можете эффективно хранить или обрабатывать их.
Но надо понимать, что все данные, которые могут быть сохранены, доступны и обработаны в фиксированном формате, называются «структурированными» данными.
Что управляются в больших масштабах, в котором решения должны быть реализованы которые способны обрабатывать, хранить и анализировать большие объемы данных за короткое время
Глядя на крупномасштабные фигуры, легко понять, почему дано название «большие данные» и представьте себе проблемы хранения и обработки.
Вот почему сегодня мы узнаем о некоторых популярных инструментах с открытым исходным кодом, которые можно использовать для создания платформы анализа данных.
Apache Hadoop
Apache Hadoop - это программная платформа с открытым исходным кодом, которая обрабатывает очень большие наборы данных в распределенной среде.
Этот инструмент основан на хранении, вычислительной мощности и главным образом в недорогом базовом оборудовании.
Apache Hadoop - это разработан для легкого масштабирования от нескольких до тысяч серверов.
Это помогает обрабатывать локально сохраненные данные в общей конфигурации параллельной обработки.
Одним из преимуществ Hadoop является то, что он обрабатывает сбои на программном уровне. Apache Hadoop предоставляет основу для уровня файловой системы, уровня управления кластером и уровня обработки.
Это оставляет возможность для других проектов и фреймворков работать вместе с экосистемой Hadoop и разрабатывать свои собственные фреймворки для любого из уровней, доступных в системе.
Elasticsearch
Elasticsearch - это система полнотекстового поиска и аналитики. Это система хорошо масштабируемый и распределенный, специально разработанный эффективно и быстро работать с системами больших данных, где одним из основных вариантов использования является анализ журналов.
Он способен выполнять расширенный и сложный поиск и обработку данных в режиме, близком к реальному времени, для расширенного анализа и оперативного интеллекта.
Elasticsearch написан на Java и основан на Apache Lucene, Elasticsearch основан на документе JSON со структурой без схемы, что упрощает его внедрение.
Это одна из ведущих поисковых систем бизнес-класса. Вы можете написать своего клиента на любом языке программирования; Elasticsearch официально работает с Java, .NET, PHP, Python, Perl и т. Д.
MongoDB
MongoDB - это база данных NoSQL, основанная на модели данных документа. В MongoDB все является коллекцией или документом.
Чтобы понять терминологию MongoDB, коллекция - это альтернативное слово для таблицы, а документ - это альтернативное слово для строк.
MongoDB - это кроссплатформенная база данных с открытым исходным кодом, ориентированная на документы. Написан в основном на C ++.
Это также ведущая база данных NoSQL, предлагающая высокую производительность, доступность и простую масштабируемость.
MongoDB использует JSON-подобные документы со схемой и обеспечивает отличную поддержку запросов. Некоторые из его основных функций включают индексацию, репликацию, балансировку нагрузки, агрегирование и хранение файлов.
Кассандра
Кассандра проект Apache с открытым исходным кодом, предназначенный для управления базами данных NoSQL.
Строки Кассандры организованы в таблицы и индексируются ключом. Он использует механизм хранения на основе записей, допускающий только добавление.
Данные в Cassandra распределяются по нескольким главным узлам., без единой точки отказа. Это высокоуровневый проект Apache, и его разработка в настоящее время контролируется Apache Software Foundation (ASF).
Кассандра предназначен для решения проблем, связанных с работой в больших масштабах (Интернет).
Учитывая основную архитектуру Cassandra, она может продолжать работать, несмотря на небольшое (но значительное) количество аппаратных сбоев. Cassandra работает на нескольких узлах в нескольких центрах обработки данных.
Реплицируйте данные в этих центрах обработки данных, чтобы избежать сбоев или простоев. Это делает систему очень отказоустойчивой.
Мне больше интересно узнать о BigData, в настоящее время у меня есть учетная запись, размещенная в облаке ibm, я хотел бы работать прямо там с Apache Spark, но у меня не было возможности связаться с моей командой, я был бы признателен за вашу поддержку