4 platforme otvorenog koda za velike podatke

Veliki podaci

Veliki podaci su izraz koji se koristi za opisivanje prikupljanja velikih podataka a to vremenom raste eksponencijalno.

Podaci su tako veliki i složeni od bilo kojeg tradicionalnog alata za upravljanje podacima možete ih efikasno pohraniti ili obraditi.

Ali to moramo shvatiti svi podaci koji se mogu pohraniti, pristupiti im i obraditi u fiksnom formatu nazivaju se 'strukturiranim' podacima.

Que njima se upravlja u velikim razmjerima, u kojem rješenja se moraju implementirati koji su u mogućnosti rukovati, pohraniti i analizirati velike količine podataka u kratkom vremenu

Kada se gledaju brojke kojima se rukuje u velikoj mjeri, lako se može razumjeti zašto je dato ime „veliki podaci“ i zamislite izazove skladištenja i prerade.

Zbog toga ćemo danas naučiti neke popularne alate otvorenog koda koji se mogu koristiti za stvaranje platforme za analizu podataka.

Apache Hadoop

hadoop apache

Apache Hadoop je softverska platforma otvorenog koda koja obrađuje vrlo velike skupove podataka u distribuiranom okruženju.

Ovaj alat zasniva se na memoriji, računarskoj snazi ​​i uglavnom u jeftinom osnovnom hardveru.

Apache Hadoop je dizajniran za jednostavno skaliranje sa nekoliko na hiljade servera.

Pomaže vam u obradi lokalno pohranjenih podataka u općoj konfiguraciji paralelne obrade.

Jedna od prednosti Hadoopa je ta što rješava kvarove na softverskom nivou. Apache Hadoop pruža okvir za sloj sistema datoteka, sloj upravljanja klasterom i sloj obrade.

Ostavlja mogućnost za druge projekte i okvire da uđu i rade zajedno sa Hadoop ekosustavom i razviju vlastiti okvir za bilo koji sloj dostupan u sistemu.

Elasticsearch

Elasticsearch

Elasticsearch je pretraživač i analitika zasnovan na punom tekstu. To je sistem visoko skalabilan i distribuiran, posebno dizajniran za efikasan i brz rad sa sistemima velikih podataka, gdje je jedan od glavnih slučajeva upotrebe analiza dnevnika.

Sposoban je za napredna i složena pretraživanja i obradu gotovo u stvarnom vremenu za naprednu analizu i operativnu inteligenciju.

Elasticsearch je napisan na Javi i zasnovan je na Apache Lucene, Elasticsearch zasnovan je na JSON dokumentu sa strukturom bez šeme, što ga čini lakim i lakim za usvajanje.

Jedan je od vodećih pretraživača poslovnog razreda. Možete pisati svog klijenta na bilo kojem programskom jeziku; Elasticsearch službeno radi s Java, .NET, PHP, Python, Perl itd.

MongoDB

MongoDB

MongoDB je baza podataka NoSQL zasnovana na modelu podataka dokumenta. U MongoDB-u je sve zbirka ili dokument.

Da bismo razumjeli MongoDB terminologiju, zbirka je zamjenska riječ za tablicu, dok je dokument zamjenska riječ za redove.

MongoDB je baza podataka više platformi orijentirana na dokumente otvorenog koda. Napisan je uglavnom na C ++.

Takođe je vodeća NoSQL baza podataka koja nudi visoke performanse, visoku dostupnost i laku skalabilnost.

MongoDB koristi JSON-slične dokumente sa šemom i pruža veliku podršku za upite. Neke od njegovih glavnih funkcija uključuju indeksiranje, replikaciju, uravnoteženje opterećenja, agregaciju i pohranu datoteka.

Cassandra

Cassandra je projekat otvorenog koda Apache dizajniran za administraciju baze podataka NoSQL.

Kasandrini redovi organizirani su u tablice i indeksirani ključem. Koristi dodatak, mehanizam za pohranu zasnovan na zapisima.

Podaci u Cassandri distribuiraju se kroz više glavnih čvorova, bez ijedne tačke neuspjeha. Riječ je o projektu Apache na visokoj razini, a njegov razvoj trenutno nadgleda Apache Software Foundation (ASF).

Cassandra je dizajniran za rješavanje problema povezanih s radom u velikim razmjerima (web).

S obzirom na Cassandrinu glavnu arhitekturu, ona može nastaviti raditi uprkos malom (ali značajnom) broju hardverskih kvarova. Cassandra radi na više čvorova u više centara podataka.

Kopirajte podatke u ovim centrima podataka kako biste izbjegli kvarove ili zastoje. To ga čini sistemom vrlo otpornim na kvarove.


Ostavite komentar

Vaša e-mail adresa neće biti objavljena. Obavezna polja su označena sa *

*

*

  1. Odgovoran za podatke: AB Internet Networks 2008 SL
  2. Svrha podataka: Kontrola neželjene pošte, upravljanje komentarima.
  3. Legitimacija: Vaš pristanak
  4. Komunikacija podataka: Podaci se neće dostavljati trećim stranama, osim po zakonskoj obavezi.
  5. Pohrana podataka: Baza podataka koju hostuje Occentus Networks (EU)
  6. Prava: U bilo kojem trenutku možete ograničiti, oporaviti i izbrisati svoje podatke.

  1.   Sveti Isid rekao je

    Više me zanima učenje o BigData-i, trenutno imam račun hostovan u ibm cloud-u, želio bih tamo raditi s Apache Spark-om, ali nisam uspio dobro povezati se sa svojim timom, zahvalna bih na vašoj podršci