4 atvirojo kodo „Big Data“ platformos

„Big-Data“

Didieji duomenys yra terminas, apibūdinantis didelių duomenų rinkimą ir tai laikui bėgant auga eksponentiškai.

Duomenys tokie dideli ir sudėtingas nei bet kuris iš tradicinių duomenų valdymo įrankių galite juos efektyviai saugoti ar apdoroti.

Bet mes turime suprasti, kad visi duomenys, kuriuos galima saugoti, pasiekti ir tvarkyti fiksuotu formatu, vadinami „struktūrizuotais“ duomenimis.

Kad valdomi dideliais mastais, kuriame turi būti įgyvendinti sprendimai kurie per trumpą laiką sugeba tvarkyti, saugoti ir analizuoti didelius duomenų kiekius

Žvelgdami į dideliu mastu tvarkomus skaičius, galima lengvai suprasti, kodėl suteikiamas pavadinimas „Big Data“ įsivaizduokite saugojimo ir apdorojimo iššūkius.

Štai kodėl šiandien mes sužinosime apie keletą populiarių atvirojo kodo įrankių, kurie gali būti naudojami kuriant duomenų analizės platformą.

Apache Hadoopas

hadoop apache

Apache Hadoopas yra atviro kodo programinės įrangos platforma, kuri paskirstytoje aplinkoje apdoroja labai didelius duomenų rinkinius.

Šis įrankis yra pagrįstas saugojimu, skaičiavimo galia ir daugiausia pigios pagrindinės aparatūros.

Apache Hadoopas yra sukurta taip, kad būtų lengvai keičiama nuo kelių iki tūkstančių serverių.

Tai padeda jums apdoroti vietoje saugomus duomenis pagal bendrą paralelinio apdorojimo konfigūraciją.

Vienas iš „Hadoop“ pranašumų yra tai, kad jis tvarko gedimus programinės įrangos lygiu. Apache Hadoop pateikia failų sistemos sluoksnio, grupių valdymo sluoksnio ir apdorojimo sluoksnio pagrindą.

Tai palieka galimybę kitiems projektams ir struktūroms ateiti ir dirbti kartu su „Hadoop“ ekosistema ir sukurti savo sistemą bet kuriam sistemos sluoksniui.

Elasticearch

Elasticearch

Elastiniai tyrimai yra viso teksto paieškos ir analizės variklis. Tai sistema labai keičiamo dydžio ir platinamas, specialiai sukurtas efektyviai ir greitai dirbti su didžiųjų duomenų sistemomis, kur vienas iš pagrindinių naudojimo atvejų yra žurnalo analizė.

Jis gali atlikti pažangias ir sudėtingas paieškas bei beveik realiuoju laiku apdoroti pažangią analizę ir operatyvinę žvalgybą.

Elasticearch parašyta „Java“ ir yra paremta „Apache Lucene“, „Elasticsearch“ yra pagrįstas JSON dokumentu, kurio struktūra be schemos, todėl jį lengva ir lengva priimti.

Tai yra viena iš pirmaujančių verslo lygio paieškos sistemų. Savo klientą galite parašyti bet kuria programavimo kalba; „Elasticsearch“ oficialiai dirba su „Java“, .NET, PHP, „Python“, „Perl“ ir kt.

MongoDB

MongoDB

MongoDB yra NoSQL duomenų bazė, pagrįsta dokumentų duomenų modeliu. „MongoDB“ viskas yra kolekcija ar dokumentas.

Norint suprasti „MongoDB“ terminologiją, kolekcija yra pakaitinis žodis lentelei, o dokumentas yra pakaitinis žodis eilutėms.

MongoDB yra atviro kodo, orientuota į dokumentus, daugiaplatformė duomenų bazė. Jis rašomas daugiausia C ++.

Tai taip pat pirmaujanti „NoSQL“ duomenų bazė, siūlanti aukštą našumą, aukštą prieinamumą ir lengvą mastelį.

MongoDB naudoja į JSON panašius dokumentus su schema ir teikia puikų užklausų palaikymą. Kai kurios pagrindinės jo funkcijos yra indeksavimas, replikavimas, apkrovos balansavimas, kaupimas ir failų saugojimas.

Kasandra

Kasandra yra atvirojo kodo „Apache“ projektas, skirtas valdyti NoSQL duomenų bazes.

„Cassandra“ eilutės išdėstytos lentelėse ir indeksuojamos klavišu. Jis naudoja tik priedų įrašų saugojimo variklį.

„Cassandra“ duomenys paskirstomi keliems pagrindiniams mazgams, be vieno gedimo taško. Tai aukšto lygio „Apache“ projektas, kurio plėtrą šiuo metu prižiūri „Apache Software Foundation“ (ASF).

Kasandra yra sukurtas spręsti problemas, susijusias su dideliu mastu (žiniatinkliu).

Atsižvelgiant į pagrindinę „Cassandra“ architektūrą, ji gali veikti ir toliau, nepaisant nedidelio (nors reikšmingo) aparatūros gedimų skaičiaus. „Cassandra“ veikia keliuose mazguose keliuose duomenų centruose.

Pakartokite duomenis šiuose duomenų centruose, kad išvengtumėte gedimų ar prastovų. Tai daro sistemą labai atsparia trikdžiams.


Palikite komentarą

Jūsų elektroninio pašto adresas nebus skelbiamas. Privalomi laukai yra pažymėti *

*

*

  1. Už duomenis atsakingas: AB Internet Networks 2008 SL
  2. Duomenų paskirtis: kontroliuoti šlamštą, komentarų valdymą.
  3. Įteisinimas: jūsų sutikimas
  4. Duomenų perdavimas: Duomenys nebus perduoti trečiosioms šalims, išskyrus teisinius įsipareigojimus.
  5. Duomenų saugojimas: „Occentus Networks“ (ES) talpinama duomenų bazė
  6. Teisės: bet kuriuo metu galite apriboti, atkurti ir ištrinti savo informaciją.

  1.   Sant Izidas sakė

    Man įdomiau sužinoti apie „BigData“, šiuo metu turiu „ibm“ debesyje priglobtą paskyrą, norėčiau ten dirbti su „Apache Spark“, bet nesugebėjau gerai susieti su savo komanda, būčiau dėkingas už jūsų palaikymą