Големите данни е термин, използван за описание на събирането на големи данни и това нараства експоненциално с течение на времето.
Данните са толкова големи и сложен от който и да е от традиционните инструменти за управление на данни можете да ги съхранявате или обработвате ефективно.
Но трябва да разберем, че всеки данните, които могат да бъдат съхранявани, достъпни и обработвани във фиксиран формат, се наричат „структурирани“ данни.
Че се управляват в голям мащаб, в който трябва да се прилагат решения които са в състояние да обработват, съхраняват и анализират големи количества данни за кратко време
Когато разглеждате фигури, които се обработват в голям мащаб, лесно може да се разбере защо се дава името „Големи данни“ и си представете предизвикателствата при съхраняването и обработката му.
Ето защо днес ще научим за някои популярни инструменти с отворен код, които могат да се използват за създаване на платформа за анализ на данни.
Apache Hadoop
Apache Hadoop е софтуерна платформа с отворен код, която обработва много големи набори от данни в разпределена среда.
Този инструмент се основава на съхранение, изчислителна мощност и главно в евтин основен хардуер.
Apache Hadoop е проектиран за лесно мащабиране от няколко до хиляди сървъри.
Той ви помага да обработвате локално съхранени данни в обща конфигурация за паралелна обработка.
Едно от предимствата на Hadoop е, че се справя с неуспехите на софтуерно ниво. Apache Hadoop предоставя рамка за слоя на файловата система, слоя за управление на клъстера и слоя за обработка.
Оставя възможност за други проекти и рамки да влязат и да работят заедно с екосистемата Hadoop и да разработят своя собствена рамка за всеки от слоевете, налични в системата.
Elasticsearch
Elasticsearch е пълнотекстова машина за търсене и анализ. Това е система силно мащабируема и разпределена, специално проектирани да работи ефективно и бързо със системи за големи данни, където един от основните му случаи на използване е анализ на регистрационния файл.
Той е способен на разширени и сложни търсения и почти в реално време обработка за усъвършенстван анализ и оперативна информация.
Elasticsearch е написана на Java и е базирана на Apache Lucene, Elasticsearch се основава на JSON документ със структура без схема, което го прави лесен и лесен за приемане.
Това е една от водещите търсачки за бизнес клас. Можете да пишете на вашия клиент на всеки език за програмиране; Elasticsearch официално работи с Java, .NET, PHP, Python, Perl и др.
MongoDB
MongoDB е база данни NoSQL, базирана на модела на данни на документа. В MongoDB всичко е колекция или документ.
За да разберем терминологията на MongoDB, колекцията е алтернативна дума за таблица, докато документът е алтернативна дума за редове.
MongoDB е база данни с отворен код, ориентирана към документи, междуплатформена база данни. Написано е главно на C ++.
Това е и водещата база данни NoSQL, предлагаща висока производителност, висока наличност и лесна мащабируемост.
MongoDB използва JSON-подобни документи със схема и осигурява чудесна поддръжка на заявки. Някои от основните му функции включват индексиране, репликация, балансиране на натоварването, агрегиране и съхранение на файлове.
Касандра
Касандра е проект с отворен код Apache, предназначен за управление на бази данни NoSQL.
Редовете на Касандра са организирани в таблици и индексирани с ключ. Той използва механизъм за съхранение, базиран на записи, само за добавяне.
Данните в Cassandra се разпределят между множество главни възли, без нито една точка на повреда. Това е проект на Apache на високо ниво и в момента неговото развитие се ръководи от Софтуерната фондация Apache (ASF).
Касандра е предназначен за решаване на проблеми, свързани с работа в голям мащаб (уеб).
Като се има предвид главната архитектура на Касандра, тя може да продължи да работи въпреки малкия (макар и значителен) брой хардуерни повреди. Касандра работи на множество възли в множество центрове за данни.
Репликирайте данни в тези центрове за данни, за да избегнете грешки или престой. Това го прави силно устойчива на повреди система.
По-интересно ми е да науча за BigData, в момента имам акаунт, хостван в ibm cloud, бих искал да работя точно там с Apache Spark, но не успях да се свържа добре с екипа си, бих оценил вашата подкрепа