4 platformy open source pre veľké dáta

Veľké dáta

Big Data je termín používaný na popis zhromažďovania veľkých údajov a to časom rastie exponenciálne.

Údaje sú také veľké a zložitejšie ako ktorýkoľvek z tradičných nástrojov na správu údajov môžete ich efektívne uložiť alebo spracovať.

Musíme však pochopiť, že všetci údaje, ktoré možno uložiť, získať k nim prístup a spracovať ich v pevnom formáte, sa nazývajú „štruktúrované“ údaje.

Že sú riadené vo veľkých mierkach, v ktorom musia byť implementované riešenia ktoré sú schopné spracovať, uložiť a analyzovať veľké množstvo údajov v krátkom čase

Pri pohľade na postavy, ktoré sa spracovávajú vo veľkom meradle, dá sa ľahko pochopiť, prečo je pomenovaný „Big Data“ a predstavte si výzvy skladovania a spracovania.

Preto sa dnes budeme učiť o niektorých populárnych nástrojoch otvoreného zdroja, ktoré možno použiť na vytvorenie platformy na analýzu údajov.

Apache Hadoop

hadoop apache

Apache Hadoop je softvérová platforma s otvoreným zdrojovým kódom, ktorá spracováva veľmi veľké súbory údajov v distribuovanom prostredí.

Tento nástroj je založený na úložisku, výpočtovom výkone a hlavne v nízkonákladovom základnom hardvéri.

Apache Hadoop je navrhnuté tak, aby ich bolo možné ľahko škálovať od niekoľkých až po tisíce serverov.

Pomáha vám spracovať lokálne uložené údaje vo všeobecnej konfigurácii paralelného spracovania.

Jednou z výhod Hadoopu je, že zvláda zlyhania na softvérovej úrovni. Apache Hadoop poskytuje rámec pre vrstvu systému súborov, vrstvu správy klastrov a vrstvu spracovania.

Ponecháva možnosť ďalším projektom a rámcom, aby prišli a spolupracovali s ekosystémom Hadoop a vyvinuli vlastný rámec pre ktorúkoľvek z vrstiev dostupných v systéme.

ElasticSearch

ElasticSearch

Elasticsearch je fulltextový vyhľadávací a analytický nástroj. Je to systém vysoko škálovateľné a distribuované, špeciálne navrhnuté efektívne a rýchlo pracovať so systémami veľkých dát, kde jedným z jeho hlavných prípadov použitia je analýza protokolu.

Je schopný pokročilého a komplexného vyhľadávania a spracovania takmer v reálnom čase pre pokročilú analýzu a operačné spravodajstvo.

ElasticSearch je napísaný v jazyku Java a je založený na serveri Apache Lucene, Elasticsearch je založený na dokumente JSON so schémou bez štruktúry, čo uľahčuje a uľahčuje jeho prijatie.

Je to jeden z popredných podnikových vyhľadávacích nástrojov. Svojho klienta môžete napísať v ľubovoľnom programovacom jazyku; Elasticsearch oficiálne pracuje s jazykmi Java, .NET, PHP, Python, Perl atď.

MongoDB

MongoDB

MongoDB je NoSQL databáza založená na dátovom modeli dokumentu. V MongoDB je všetko zbierka alebo dokument.

Pre pochopenie terminológie MongoDB je kolekcia alternatívnym slovom pre tabuľku, zatiaľ čo dokument je alternatívnym slovom pre riadky.

MongoDB je otvorená, dokumentovo-orientovaná, multiplatformná databáza. Je napísaný hlavne v jazyku C ++.

Je tiež vedúcou databázou NoSQL, ktorá ponúka vysoký výkon, vysokú dostupnosť a ľahkú škálovateľnosť.

MongoDB používa dokumenty podobné schéme JSON a poskytuje skvelú podporu pri dotazoch. Medzi jeho hlavné funkcie patrí indexovanie, replikácia, vyvažovanie záťaže, agregácia a ukladanie súborov.

Cassandra

Cassandra je open source projekt Apache určený na správu databázy NoSQL.

Riadky Cassandry sú usporiadané v tabuľkách a indexované kľúčom. Používa úložný modul založený na záznamoch, ktorý je iba doplnkom.

Údaje v Cassandre sú distribuované na viacerých hlavných uzloch, bez jediného bodu zlyhania. Je to projekt Apache na vysokej úrovni a nad jeho vývojom v súčasnosti dohliada Apache Software Foundation (ASF).

Cassandra je určené na riešenie problémov spojených s prevádzkou vo veľkom meradle (web).

Vzhľadom na hlavnú architektúru Cassandry môže naďalej fungovať aj napriek malému (ale významnému) počtu zlyhaní hardvéru. Cassandra beží na viacerých uzloch vo viacerých dátových centrách.

Replikujte údaje v týchto dátových centrách, aby ste predišli poruchám alebo výpadkom. Vďaka tomu je systém veľmi odolný voči chybám.


Zanechajte svoj komentár

Vaša e-mailová adresa nebude zverejnená. Povinné položky sú označené *

*

*

  1. Za údaje zodpovedá: AB Internet Networks 2008 SL
  2. Účel údajov: Kontrolný SPAM, správa komentárov.
  3. Legitimácia: Váš súhlas
  4. Oznamovanie údajov: Údaje nebudú poskytnuté tretím stranám, iba ak to vyplýva zo zákona.
  5. Ukladanie dát: Databáza hostená spoločnosťou Occentus Networks (EU)
  6. Práva: Svoje údaje môžete kedykoľvek obmedziť, obnoviť a vymazať.

  1.   Svätý Isid dijo

    Viac by ma zaujímalo BigData, v súčasnosti mám účet hostený v cloude ibm, chcel by som tam pracovať s Apache Spark, ale nedokázal som sa dobre spojiť s mojím tímom, ocenil by som vašu podporu