4 platforme otvorenog koda za velike podatke

Veliki podaci

Veliki podaci izraz je koji se koristi za opisivanje prikupljanja velikih podataka a to vremenom eksponencijalno raste.

Podaci su tako veliki i složen od bilo kojeg tradicionalnog alata za upravljanje podacima možete ih učinkovito pohraniti ili obraditi.

Ali moramo shvatiti da svi podaci koji se mogu pohraniti, pristupiti im i obraditi u fiksnom formatu nazivaju se 'strukturiranim' podacima.

Da upravlja se u velikim razmjerima, u kojem rješenja se moraju provesti koji su u mogućnosti obraditi, pohraniti i analizirati velike količine podataka u kratkom vremenu

Kada se gledaju brojke kojima se rukuje u velikoj mjeri, lako se može razumjeti zašto se daje naziv "veliki podaci" i zamislite izazove skladištenja i obrade.

Zbog toga ćemo danas naučiti neke popularne alate otvorenog koda koji se mogu koristiti za stvaranje platforme za analizu podataka.

Apache Hadoop

hadoop apache

Apache Hadoop je softverska platforma otvorenog koda koja obrađuje vrlo velike skupove podataka u distribuiranom okruženju.

Ovaj alat temelji se na pohrani, računalnoj snazi ​​i uglavnom u jeftinom osnovnom hardveru.

Apache Hadoop je dizajniran za jednostavno skaliranje s nekoliko na tisuće poslužitelja.

Pomaže vam u obradi lokalno pohranjenih podataka u općenitoj konfiguraciji paralelne obrade.

Jedna od prednosti Hadoopa je ta što rješava kvarove na softverskoj razini. Apache Hadoop pruža okvir za sloj datotečnog sustava, sloj upravljanja klasterom i sloj obrade.

Ostavlja mogućnost da se uključe i drugi projekti i okviri koji rade zajedno s Hadoop ekosustavom i razvijaju vlastiti okvir za bilo koji sloj dostupan u sustavu.

Elasticsearch

Elasticsearch

Elasticsearch je mehanizam za pretraživanje i analitiku zasnovan na cijelom tekstu. To je sustav vrlo skalabilno i distribuirano, posebno dizajniran za učinkovit i brz rad sa sustavima velikih podataka, gdje je jedan od glavnih slučajeva upotrebe analiza dnevnika.

Sposoban je za napredna i složena pretraživanja te za obradu gotovo u stvarnom vremenu za naprednu analizu i operativnu inteligenciju.

Elasticsearch napisan je na Javi i zasnovan je na Apache Luceneu, Elasticsearch temelji se na JSON dokumentu sa strukturom bez sheme, što ga čini lakim i lakim za usvajanje.

Jedna je od vodećih tražilica poslovnog razreda. Možete pisati svog klijenta na bilo kojem programskom jeziku; Elasticsearch službeno radi s Java, .NET, PHP, Python, Perl itd.

MongoDB

MongoDB

MongoDB je baza podataka NoSQL zasnovana na modelu podataka dokumenta. U MongoDB-u je sve zbirka ili dokument.

Da bismo razumjeli terminologiju MongoDB, zbirka je zamjenska riječ za tablicu, dok je dokument zamjenska riječ za retke.

MongoDB je baza podataka otvorenog koda orijentirana na više platformi, orijentirana na dokumente. Napisan je uglavnom na C ++.

Također je vodeća NoSQL baza podataka koja nudi visoke performanse, visoku dostupnost i jednostavnu skalabilnost.

MongoDB koristi JSON-slične dokumente sa shemom i pruža veliku podršku za upite. Neke od njegovih glavnih funkcija uključuju indeksiranje, replikaciju, uravnoteženje opterećenja, agregiranje i pohranu datoteka.

Cassandra

Cassandra je projekt otvorenog koda Apache dizajniran za upravljanje NoSQL bazama podataka.

Kasandrini redovi organizirani su u tablice i indeksirani ključem. Koristi dodatak, mehanizam za pohranu zasnovan na zapisima.

Podaci u Cassandri distribuiraju se kroz više glavnih čvorova, bez ijedne točke neuspjeha. Riječ je o projektu Apache na visokoj razini, a njegov razvoj trenutno nadgleda Apache Software Foundation (ASF).

Cassandra je dizajniran za rješavanje problema povezanih s radom u velikim razmjerima (web).

S obzirom na Cassandrinu glavnu arhitekturu, ona može nastaviti raditi unatoč malom (ali značajnom) broju hardverskih kvarova. Cassandra radi na više čvorova u više podatkovnih centara.

Kopirajte podatke u tim podatkovnim centrima kako biste izbjegli kvarove ili zastoje. To ga čini visoko podnošljivim sustavom.


Ostavite svoj komentar

Vaša email adresa neće biti objavljen. Obavezna polja su označena s *

*

*

  1. Odgovoran za podatke: AB Internet Networks 2008 SL
  2. Svrha podataka: Kontrola neželjene pošte, upravljanje komentarima.
  3. Legitimacija: Vaš pristanak
  4. Komunikacija podataka: Podaci se neće dostavljati trećim stranama, osim po zakonskoj obvezi.
  5. Pohrana podataka: Baza podataka koju hostira Occentus Networks (EU)
  6. Prava: U bilo kojem trenutku možete ograničiti, oporaviti i izbrisati svoje podatke.

  1.   Sveti Isid dijo

    Više me zanima učenje o BigDati, trenutno imam račun hostiran u ibm cloud-u, želio bih tamo raditi s Apache Sparkom, ali nisam uspio dobro povezati se sa svojim timom, zahvalna bih na vašoj podršci