4 платформи с отворен код за големи данни

Голяма информация

Големите данни е термин, използван за описание на събирането на големи данни и това нараства експоненциално с течение на времето.

Данните са толкова големи и сложен от който и да е от традиционните инструменти за управление на данни можете да ги съхранявате или обработвате ефективно.

Но трябва да разберем, че всеки данните, които могат да бъдат съхранявани, достъпни и обработвани във фиксиран формат, се наричат ​​„структурирани“ данни.

Че се управляват в голям мащаб, в който трябва да се прилагат решения които са в състояние да обработват, съхраняват и анализират големи количества данни за кратко време

Когато разглеждате фигури, които се обработват в голям мащаб, лесно може да се разбере защо се дава името „Големи данни“ и си представете предизвикателствата при съхраняването и обработката му.

Ето защо днес ще научим за някои популярни инструменти с отворен код, които могат да се използват за създаване на платформа за анализ на данни.

Apache Hadoop

hadoop apache

Apache Hadoop е софтуерна платформа с отворен код, която обработва много големи набори от данни в разпределена среда.

Този инструмент се основава на съхранение, изчислителна мощност и главно в евтин основен хардуер.

Apache Hadoop е проектиран за лесно мащабиране от няколко до хиляди сървъри.

Той ви помага да обработвате локално съхранени данни в обща конфигурация за паралелна обработка.

Едно от предимствата на Hadoop е, че се справя с неуспехите на софтуерно ниво. Apache Hadoop предоставя рамка за слоя на файловата система, слоя за управление на клъстера и слоя за обработка.

Оставя възможност за други проекти и рамки да влязат и да работят заедно с екосистемата Hadoop и да разработят своя собствена рамка за всеки от слоевете, налични в системата.

Elasticsearch

Elasticsearch

Elasticsearch е пълнотекстова машина за търсене и анализ. Това е система силно мащабируема и разпределена, специално проектирани да работи ефективно и бързо със системи за големи данни, където един от основните му случаи на използване е анализ на регистрационния файл.

Той е способен на разширени и сложни търсения и почти в реално време обработка за усъвършенстван анализ и оперативна информация.

Elasticsearch е написана на Java и е базирана на Apache Lucene, Elasticsearch се основава на JSON документ със структура без схема, което го прави лесен и лесен за приемане.

Това е една от водещите търсачки за бизнес клас. Можете да пишете на вашия клиент на всеки език за програмиране; Elasticsearch официално работи с Java, .NET, PHP, Python, Perl и др.

MongoDB

MongoDB

MongoDB е база данни NoSQL, базирана на модела на данни на документа. В MongoDB всичко е колекция или документ.

За да разберем терминологията на MongoDB, колекцията е алтернативна дума за таблица, докато документът е алтернативна дума за редове.

MongoDB е база данни с отворен код, ориентирана към документи, междуплатформена база данни. Написано е главно на C ++.

Това е и водещата база данни NoSQL, предлагаща висока производителност, висока наличност и лесна мащабируемост.

MongoDB използва JSON-подобни документи със схема и осигурява чудесна поддръжка на заявки. Някои от основните му функции включват индексиране, репликация, балансиране на натоварването, агрегиране и съхранение на файлове.

Касандра

Касандра е проект с отворен код Apache, предназначен за управление на бази данни NoSQL.

Редовете на Касандра са организирани в таблици и индексирани с ключ. Той използва механизъм за съхранение, базиран на записи, само за добавяне.

Данните в Cassandra се разпределят между множество главни възли, без нито една точка на повреда. Това е проект на Apache на високо ниво и в момента неговото развитие се ръководи от Софтуерната фондация Apache (ASF).

Касандра е предназначен за решаване на проблеми, свързани с работа в голям мащаб (уеб).

Като се има предвид главната архитектура на Касандра, тя може да продължи да работи въпреки малкия (макар и значителен) брой хардуерни повреди. Касандра работи на множество възли в множество центрове за данни.

Репликирайте данни в тези центрове за данни, за да избегнете грешки или престой. Това го прави силно устойчива на повреди система.


Оставете вашия коментар

Вашият имейл адрес няма да бъде публикуван. Задължителните полета са отбелязани с *

*

*

  1. Отговорник за данните: AB Internet Networks 2008 SL
  2. Предназначение на данните: Контрол на СПАМ, управление на коментари.
  3. Легитимация: Вашето съгласие
  4. Съобщаване на данните: Данните няма да бъдат съобщени на трети страни, освен по законово задължение.
  5. Съхранение на данни: База данни, хоствана от Occentus Networks (ЕС)
  6. Права: По всяко време можете да ограничите, възстановите и изтриете информацията си.

  1.   Сант Исид каза той

    По-интересно ми е да науча за BigData, в момента имам акаунт, хостван в ibm cloud, бих искал да работя точно там с Apache Spark, но не успях да се свържа добре с екипа си, бих оценил вашата подкрепа