Big Data er et udtryk, der bruges til at beskrive indsamlingen af store data og det vokser eksponentielt over tid.
Dataene er så store og kompleks end nogen af de traditionelle datahåndteringsværktøjer du kan gemme eller behandle dem effektivt.
Men vi må forstå, at alle data, der kan lagres, tilgås og behandles i et fast format kaldes 'strukturerede' data.
Det styres i store skalaer, hvori løsninger skal implementeres der er i stand til at håndtere, gemme og analysere store mængder data på kort tid
Når man ser på tal, der håndteres i stor skala, man kan let forstå, hvorfor navnet 'Big Data' gives og forestil dig udfordringerne ved lagring og behandling.
Derfor vil vi i dag lære om nogle populære open source-værktøjer, der kan bruges til at oprette en dataanalyseplatform.
Apache Hadoop
Apache Hadoop er en open source softwareplatform, der behandler meget store datasæt i et distribueret miljø.
Dette værktøj er baseret på lagring, beregningskraft og hovedsageligt i billig hardware.
Apache Hadoop er designet til let at skalere fra nogle få til tusinder af servere.
Det hjælper dig med at behandle lokalt lagrede data i en generel parallel behandlingskonfiguration.
En af fordelene ved Hadoop er, at den håndterer fiasko på softwareniveau. Apache Hadoop giver en ramme for filsystemlaget, klyngestyringslaget og behandlingslaget.
Det giver mulighed for, at andre projekter og rammer kan komme ind og arbejde sammen med Hadoop-økosystemet og udvikle deres egen ramme for ethvert af de lag, der er tilgængelige i systemet.
Elasticsearch
Elasticsearch er en fuldtekstbaseret søge- og analysemaskine. Det er et system meget skalerbar og distribueret, specielt designet at arbejde effektivt og hurtigt med big data-systemer, hvor en af dens vigtigste brugssager er loganalyse.
Det er i stand til avancerede og komplekse søgninger og næsten realtidsbehandling til avanceret analyse og operationel efterretning.
Elasticsearch er skrevet på Java og er baseret på Apache Lucene, Elasticsearch er baseret på et JSON-dokument med en skemafri struktur, hvilket gør det let og nemt at vedtage.
Det er en af de førende søgemaskiner i business grade. Du kan skrive din klient på ethvert programmeringssprog; Elasticsearch fungerer officielt med Java, .NET, PHP, Python, Perl osv.
MongoDB
MongoDB er en NoSQL-database baseret på dokumentdatamodellen. I MongoDB er alt en samling eller et dokument.
For at forstå MongoDB-terminologi er samling et alternativt ord for tabel, mens dokument er et alternativt ord for rækker.
MongoDB er en open source, dokumentorienteret platform på tværs af platforme. Det er hovedsageligt skrevet i C ++.
Det er også den førende NoSQL-database, der tilbyder høj ydeevne, høj tilgængelighed og let skalerbarhed.
MongoDB bruger JSON-lignende dokumenter med skema og giver god forespørgselssupport. Nogle af dets hovedfunktioner inkluderer indeksering, replikering, belastningsafbalancering, sammenlægning og lagring af filer.
Cassandra
Det er Cassandra et open source Apache-projekt designet til styring af NoSQL-databaser.
Cassandras rækker er organiseret i tabeller og indekseret af en nøgle. Det bruger en append-baseret, rekordbaseret lagermotor.
Data i Cassandra fordeles på flere masternoderuden et eneste fejlpunkt. Det er et højt niveau Apache-projekt, og dets udvikling overvåges i øjeblikket af Apache Software Foundation (ASF).
Det er Cassandra designet til at løse problemer forbundet med drift i stor skala (web).
I betragtning af Cassandras hovedarkitektur kan den fortsætte med at fungere på trods af et lille (men betydeligt) antal hardwarefejl. Cassandra kører på flere noder i flere datacentre.
Repliker data i disse datacentre for at undgå fejl eller nedetid. Dette gør det til et meget fejltolerant system.
Jeg er mere interesseret i at lære om BigData, i øjeblikket har jeg en konto hostet i ibm cloud, jeg vil gerne arbejde der med Apache Spark, men jeg har ikke formået at linke godt til mit team, jeg vil sætte pris på din støtte