4 odprtokodne platforme za velike podatke

Veliki podatki

Veliki podatki so izraz, ki se uporablja za opis zbiranja velikih podatkov in ta s časom eksponentno raste.

Podatki so tako veliki in zapleteno kot katero koli tradicionalno orodje za upravljanje podatkov jih lahko učinkovito shranite ali obdelate.

Moramo pa razumeti, da vsi podatki, ki jih je mogoče shraniti, do njih dostopati in jih obdelati v določeni obliki, se imenujejo „strukturirani“ podatki.

To upravljajo v velikem obsegu, v kateri rešitve je treba izvajati ki so sposobni v kratkem času obdelati, shraniti in analizirati velike količine podatkov

Ko gledamo številke, ki se obravnavajo v velikem obsegu, zlahka lahko razumemo, zakaj je podano ime „veliki podatki“ in si predstavljajte izzive shranjevanja in obdelave.

Zato se bomo danes seznanili z nekaterimi priljubljenimi odprtokodnimi orodji, ki jih lahko uporabimo za ustvarjanje platforme za analizo podatkov.

Apache Hadoop

hadoop apache

Apache Hadoop je odprtokodna programska platforma, ki obdeluje zelo velike nabore podatkov v porazdeljenem okolju.

To orodje temelji na pomnilniku, računski moči in predvsem v poceni osnovni strojni opremi.

Apache Hadoop je zasnovan za enostavno spreminjanje od nekaj do tisoč strežnikov.

Pomaga vam obdelovati lokalno shranjene podatke v splošni konfiguraciji vzporedne obdelave.

Ena od prednosti Hadoopa je, da odpravlja okvare na programski ravni. Apache Hadoop ponuja ogrodje za plast datotečnega sistema, plast upravljanja gruč in plast obdelave.

Pusti možnost, da vstopijo drugi projekti in okviri ter sodelujejo z ekosistemom Hadoop in razvijejo lastni okvir za katero koli plast, ki je na voljo v sistemu.

Elastično iskanje

Elastično iskanje

Elasticsearch je iskalni in analitični mehanizem, ki temelji na celotnem besedilu. To je sistem zelo razširljiv in distribuiran, posebej zasnovani za učinkovito in hitro delo z velikimi podatkovnimi sistemi, kjer je eden glavnih primerov uporabe analiza dnevnikov.

Sposoben je naprednih in zapletenih iskanj ter obdelave skoraj v realnem času za napredno analizo in operativno inteligenco.

Elastično iskanje je napisan v Javi in ​​temelji na Apache Lucene, Elasticsearch temelji na dokumentu JSON s strukturo brez shem, kar omogoča enostavno in enostavno sprejemanje.

Je eden vodilnih poslovnih iskalnikov. Odjemalca lahko napišete v katerem koli programskem jeziku; Elasticsearch uradno deluje z Javo, .NET, PHP, Python, Perl itd.

MongoDB

MongoDB

MongoDB je zbirka podatkov NoSQL, ki temelji na podatkovnem modelu dokumenta. V MongoDB je vse zbirka ali dokument.

Da bi razumeli terminologijo MongoDB, je zbirka nadomestna beseda za tabelo, medtem ko je dokument nadomestna beseda za vrstice.

MongoDB je odprtokodna, v dokumente usmerjena, večplastna baza podatkov. Zapisano je predvsem v jeziku C ++.

Je tudi vodilna baza podatkov NoSQL, ki ponuja visoko zmogljivost, visoko razpoložljivost in enostavno razširljivost.

MongoDB uporablja JSON-podobne dokumente s shemo in nudi odlično podporo za poizvedbe. Nekatere njegove glavne funkcije vključujejo indeksiranje, kopiranje, uravnoteženje obremenitve, združevanje in shranjevanje datotek.

Cassandra

Cassandra je odprtokodni projekt Apache, zasnovan za upravljanje baze podatkov NoSQL.

Cassandrine vrstice so razporejene v tabele in indeksirane s ključem. Uporablja mehanizem za shranjevanje na osnovi zapisov, ki je samo dodatek.

Podatki v Cassandri so porazdeljeni po več glavnih vozliščih, brez ene same točke okvare. Gre za projekt Apache na visoki ravni, njegov razvoj pa trenutno nadzoruje Apache Software Foundation (ASF).

Cassandra je zasnovan za reševanje težav, povezanih z delovanjem v velikem obsegu (splet).

Glede na glavno arhitekturo Cassandre lahko kljub majhnemu (a pomembnemu) številu okvar strojne opreme deluje še naprej. Cassandra deluje na več vozliščih v več podatkovnih centrih.

Kopirajte podatke v teh podatkovnih centrih, da se izognete okvaram ali izpadom. Zaradi tega je sistem zelo odporen na napake.


Pustite svoj komentar

Vaš e-naslov ne bo objavljen. Obvezna polja so označena z *

*

*

  1. Odgovoren za podatke: AB Internet Networks 2008 SL
  2. Namen podatkov: Nadzor neželene pošte, upravljanje komentarjev.
  3. Legitimacija: Vaše soglasje
  4. Sporočanje podatkov: Podatki se ne bodo posredovali tretjim osebam, razen po zakonski obveznosti.
  5. Shranjevanje podatkov: Zbirka podatkov, ki jo gosti Occentus Networks (EU)
  6. Pravice: Kadar koli lahko omejite, obnovite in izbrišete svoje podatke.

  1.   Sveti Isid je dejal

    Trenutno me zanima učenje BigData. Trenutno imam račun, ki gostuje v oblaku ibm, želel bi tam delati z Apache Spark, vendar se s svojo ekipo nisem mogel dobro povezati, hvaležen bi bil za vašo podporo