4 open source platformy pro velká data

Velká data

Big Data je termín používaný k popisu shromažďování velkých dat a to v průběhu času exponenciálně roste.

Data jsou tak velká a složitější než kterýkoli z tradičních nástrojů pro správu dat můžete je efektivně ukládat nebo zpracovávat.

Ale musíme tomu rozumět všichni data, která lze ukládat, přistupovat k nim a zpracovávat je v pevném formátu, se nazývají „strukturovaná“ data.

Že jsou spravovány ve velkém měřítku, ve kterém musí být implementována řešení kteří jsou schopni zpracovat, uložit a analyzovat velké množství dat v krátkém čase

Při pohledu na postavy, které jsou zpracovány ve velkém měřítku, lze snadno pochopit, proč je pojmenován „Big Data“ a představte si výzvy skladování a zpracování.

Proto se dnes budeme učit o některých populárních open source nástrojích, které lze použít k vytvoření platformy pro analýzu dat.

Apache Hadoop

hadoop apache

Apache Hadoop je softwarová platforma s otevřeným zdrojovým kódem, která zpracovává velmi velké soubory dat v distribuovaném prostředí.

Tento nástroj je založen na úložišti, výpočetním výkonu a hlavně v levném základním hardwaru.

Apache Hadoop je navrženo pro snadné škálování od několika do tisíců serverů.

Pomůže vám zpracovat lokálně uložená data v obecné konfiguraci paralelního zpracování.

Jednou z výhod Hadoopu je, že zvládá selhání na softwarové úrovni. Apache Hadoop poskytuje rámec pro vrstvu systému souborů, vrstvu správy klastrů a vrstvu zpracování.

Ponechává možnost pro další projekty a rámce, aby přišly a spolupracovaly s ekosystémem Hadoop a vyvinuly vlastní rámec pro kteroukoli z vrstev dostupných v systému.

Elastickýsearch

Elastickýsearch

Elasticsearch je fulltextový vyhledávací a analytický modul. Je to systém vysoce škálovatelné a distribuované, speciálně navrženo efektivně a rychle pracovat se systémy velkých dat, kde jedním z jeho hlavních případů použití je analýza protokolu.

Je schopen pokročilého a komplexního vyhledávání a zpracování téměř v reálném čase pro pokročilou analýzu a provozní inteligenci.

Elastickýsearch je napsán v Javě a je založen na Apache LuceneElasticsearch je založen na dokumentu JSON se strukturou bez schémat, což usnadňuje a usnadňuje jeho přijetí.

Je to jeden z předních vyhledávacích strojů pro obchodní účely. Svého klienta můžete napsat v jakémkoli programovacím jazyce; Elasticsearch oficiálně pracuje s Java, .NET, PHP, Python, Perl atd.

MongoDB

MongoDB

MongoDB je databáze NoSQL založená na datovém modelu dokumentu. V MongoDB je všechno sbírka nebo dokument.

Pro pochopení terminologie MongoDB je kolekce alternativní slovo pro tabulku, zatímco document je alternativní slovo pro řádky.

MongoDB je otevřená, dokumentově orientovaná databáze napříč platformami. Je napsán hlavně v C ++.

Je to také přední databáze NoSQL nabízející vysoký výkon, vysokou dostupnost a snadnou škálovatelnost.

MongoDB používá dokumenty podobné schématu JSON a poskytuje skvělou podporu dotazů. Mezi jeho hlavní funkce patří indexování, replikace, vyvažování zátěže, agregace a ukládání souborů.

Cassandra

Cassandra je open source projekt Apache určený pro správu databází NoSQL.

Řádky Cassandry jsou uspořádány v tabulkách a indexovány klíčem. Používá pouze úložný modul založený na záznamech.

Data v Cassandře jsou distribuována na více hlavních uzlů, bez jediného bodu selhání. Jedná se o projekt Apache na vysoké úrovni a na jeho vývoj v současné době dohlíží Apache Software Foundation (ASF).

Cassandra je navržen k řešení problémů spojených s provozem ve velkém měřítku (web).

Vzhledem k hlavní architektuře Cassandry může i nadále fungovat i přes malý (i když významný) počet selhání hardwaru. Cassandra běží na více uzlech ve více datových centrech.

Replikujte data v těchto datových centrech, abyste předešli selhání nebo prostojům. Díky tomu je systém vysoce odolný vůči chybám.


Zanechte svůj komentář

Vaše e-mailová adresa nebude zveřejněna. Povinné položky jsou označeny *

*

*

  1. Za data odpovídá: AB Internet Networks 2008 SL
  2. Účel údajů: Ovládací SPAM, správa komentářů.
  3. Legitimace: Váš souhlas
  4. Sdělování údajů: Údaje nebudou sděleny třetím osobám, s výjimkou zákonných povinností.
  5. Úložiště dat: Databáze hostovaná společností Occentus Networks (EU)
  6. Práva: Vaše údaje můžete kdykoli omezit, obnovit a odstranit.

  1.   Svatý Isid řekl

    Více se zajímám o BigData, v současné době mám účet hostovaný v cloudu ibm, rád bych tam pracoval s Apache Spark, ale nebyl jsem schopen se dobře spojit se svým týmem, ocenil bych vaši podporu