4 open source platforme til Big data

Big-data

Big Data er et udtryk, der bruges til at beskrive indsamlingen af ​​store data og det vokser eksponentielt over tid.

Dataene er så store og kompleks end nogen af ​​de traditionelle datahåndteringsværktøjer du kan gemme eller behandle dem effektivt.

Men vi må forstå, at alle data, der kan lagres, tilgås og behandles i et fast format kaldes 'strukturerede' data.

Det styres i store skalaer, hvori løsninger skal implementeres der er i stand til at håndtere, gemme og analysere store mængder data på kort tid

Når man ser på tal, der håndteres i stor skala, man kan let forstå, hvorfor navnet 'Big Data' gives og forestil dig udfordringerne ved lagring og behandling.

Derfor vil vi i dag lære om nogle populære open source-værktøjer, der kan bruges til at oprette en dataanalyseplatform.

Apache Hadoop

hadoop apache

Apache Hadoop er en open source softwareplatform, der behandler meget store datasæt i et distribueret miljø.

Dette værktøj er baseret på lagring, beregningskraft og hovedsageligt i billig hardware.

Apache Hadoop er designet til let at skalere fra nogle få til tusinder af servere.

Det hjælper dig med at behandle lokalt lagrede data i en generel parallel behandlingskonfiguration.

En af fordelene ved Hadoop er, at den håndterer fiasko på softwareniveau. Apache Hadoop giver en ramme for filsystemlaget, klyngestyringslaget og behandlingslaget.

Det giver mulighed for, at andre projekter og rammer kan komme ind og arbejde sammen med Hadoop-økosystemet og udvikle deres egen ramme for ethvert af de lag, der er tilgængelige i systemet.

Elasticsearch

Elasticsearch

Elasticsearch er en fuldtekstbaseret søge- og analysemaskine. Det er et system meget skalerbar og distribueret, specielt designet at arbejde effektivt og hurtigt med big data-systemer, hvor en af ​​dens vigtigste brugssager er loganalyse.

Det er i stand til avancerede og komplekse søgninger og næsten realtidsbehandling til avanceret analyse og operationel efterretning.

Elasticsearch er skrevet på Java og er baseret på Apache Lucene, Elasticsearch er baseret på et JSON-dokument med en skemafri struktur, hvilket gør det let og nemt at vedtage.

Det er en af ​​de førende søgemaskiner i business grade. Du kan skrive din klient på ethvert programmeringssprog; Elasticsearch fungerer officielt med Java, .NET, PHP, Python, Perl osv.

MongoDB

MongoDB

MongoDB er en NoSQL-database baseret på dokumentdatamodellen. I MongoDB er alt en samling eller et dokument.

For at forstå MongoDB-terminologi er samling et alternativt ord for tabel, mens dokument er et alternativt ord for rækker.

MongoDB er en open source, dokumentorienteret platform på tværs af platforme. Det er hovedsageligt skrevet i C ++.

Det er også den førende NoSQL-database, der tilbyder høj ydeevne, høj tilgængelighed og let skalerbarhed.

MongoDB bruger JSON-lignende dokumenter med skema og giver god forespørgselssupport. Nogle af dets hovedfunktioner inkluderer indeksering, replikering, belastningsafbalancering, sammenlægning og lagring af filer.

Cassandra

Det er Cassandra et open source Apache-projekt designet til styring af NoSQL-databaser.

Cassandras rækker er organiseret i tabeller og indekseret af en nøgle. Det bruger en append-baseret, rekordbaseret lagermotor.

Data i Cassandra fordeles på flere masternoderuden et eneste fejlpunkt. Det er et højt niveau Apache-projekt, og dets udvikling overvåges i øjeblikket af Apache Software Foundation (ASF).

Det er Cassandra designet til at løse problemer forbundet med drift i stor skala (web).

I betragtning af Cassandras hovedarkitektur kan den fortsætte med at fungere på trods af et lille (men betydeligt) antal hardwarefejl. Cassandra kører på flere noder i flere datacentre.

Repliker data i disse datacentre for at undgå fejl eller nedetid. Dette gør det til et meget fejltolerant system.


Efterlad din kommentar

Din e-mailadresse vil ikke blive offentliggjort. Obligatoriske felter er markeret med *

*

*

  1. Ansvarlig for data: AB Internet Networks 2008 SL
  2. Formålet med dataene: Control SPAM, management af kommentarer.
  3. Legitimering: Dit samtykke
  4. Kommunikation af dataene: Dataene vil ikke blive kommunikeret til tredjemand, undtagen ved juridisk forpligtelse.
  5. Datalagring: Database hostet af Occentus Networks (EU)
  6. Rettigheder: Du kan til enhver tid begrænse, gendanne og slette dine oplysninger.

  1.   Sankt Isid sagde han

    Jeg er mere interesseret i at lære om BigData, i øjeblikket har jeg en konto hostet i ibm cloud, jeg vil gerne arbejde der med Apache Spark, men jeg har ikke formået at linke godt til mit team, jeg vil sætte pris på din støtte