4 open source platforms voor big data

Big-data

Big Data is een term die wordt gebruikt om het verzamelen van grote hoeveelheden gegevens te beschrijven en dat groeit exponentieel in de tijd.

De gegevens zijn zo groot en complexer dan alle traditionele tools voor gegevensbeheer u kunt ze efficiënt opslaan of verwerken.

Maar we moeten begrijpen dat iedereen gegevens die kunnen worden opgeslagen, geopend en verwerkt in een vast formaat, worden 'gestructureerde' gegevens genoemd.

Dat worden beheerd op grote schaal, waarin oplossingen moeten worden geïmplementeerd die in staat zijn om in korte tijd grote hoeveelheden data te verwerken, op te slaan en te analyseren

Als we kijken naar cijfers die op grote schaal worden gehanteerd, men kan gemakkelijk begrijpen waarom de naam 'Big Data' wordt gegeven en stel je de uitdagingen voor van het opslaan en verwerken ervan.

Daarom gaan we vandaag leren over enkele populaire open source-tools die kunnen worden gebruikt om een ​​data-analyseplatform te creëren.

Apache Hadoop

hadoop apache

Apache Hadoop is een open source softwareplatform dat zeer grote datasets verwerkt in een gedistribueerde omgeving.

Deze tool is gebaseerd op opslag, rekenkracht en voornamelijk in goedkope basishardware.

Apache Hadoop is ontworpen om eenvoudig te schalen van enkele naar duizenden servers.

Het helpt u bij het verwerken van lokaal opgeslagen gegevens in een algemene configuratie voor parallelle verwerking.

Een van de voordelen van Hadoop is dat het storingen op softwareniveau afhandelt. Apache Hadoop biedt een raamwerk voor de bestandssysteemlaag, de clusterbeheerlaag en de verwerkingslaag.

Het laat een optie over voor andere projecten en frameworks om binnen te komen en samen te werken met het Hadoop Ecosystem en hun eigen framework te ontwikkelen voor elk van de beschikbare lagen in het systeem.

Elasticsearch

Elasticsearch

Elasticsearch is een op volledige tekst gebaseerde zoek- en analyse-engine. Het is een systeem zeer schaalbaar en gedistribueerd, speciaal ontworpen om efficiënt en snel te werken met big data-systemen, waar een van de belangrijkste use-cases logboekanalyse is.

Het is in staat tot geavanceerde en complexe zoekopdrachten en bijna realtime verwerking voor geavanceerde analyse en operationele intelligentie.

Elasticsearch is geschreven in Java en is gebaseerd op Apache LuceneElasticsearch is gebaseerd op een JSON-document met een schemavrije structuur, waardoor het gemakkelijk en gemakkelijk te adopteren is.

Het is een van de toonaangevende zoekmachines voor bedrijven. U kunt uw cliënt in elke programmeertaal schrijven; Elasticsearch werkt officieel met Java, .NET, PHP, Python, Perl, etc.

MongoDB

MongoDB

MongoDB is een NoSQL-database op basis van het documentgegevensmodel. In MongoDB is alles een verzameling of document.

Om MongoDB-terminologie te begrijpen, is verzameling een alternatief woord voor tabel, terwijl document een alternatief woord is voor rijen.

MongoDB is een open source, documentgeoriënteerde, platformonafhankelijke database. Het is voornamelijk geschreven in C ++.

Het is ook de toonaangevende NoSQL-database die hoge prestaties, hoge beschikbaarheid en eenvoudige schaalbaarheid biedt.

MongoDB gebruikt JSON-achtige documenten met schema en biedt uitstekende ondersteuning voor zoekopdrachten​ Enkele van de belangrijkste functies zijn indexering, replicatie, taakverdeling, aggregatie en bestandsopslag.

Cassandra

Cassandra is een open source Apache-project ontworpen voor het beheren van NoSQL-databases.

Cassandra's rijen zijn georganiseerd in tabellen en geïndexeerd door een sleutel. Het maakt gebruik van een alleen-append, record-gebaseerde opslag-engine.

Gegevens in Cassandra worden verdeeld over meerdere hoofdknooppunten, zonder een enkel storingspunt. Het is een Apache-project van hoog niveau en de ontwikkeling ervan wordt momenteel gecontroleerd door de Apache Software Foundation (ASF).

Cassandra is ontworpen om problemen op te lossen die verband houden met het gebruik op grote schaal (web).

Gezien de masterarchitectuur van Cassandra kan het blijven werken ondanks een klein (hoewel aanzienlijk) aantal hardwarefouten. Cassandra draait op meerdere knooppunten in meerdere datacenters.

Repliceer gegevens in deze datacenters om storingen of downtime te voorkomen. Dit maakt het een zeer fouttolerant systeem.


Laat je reactie achter

Uw e-mailadres wordt niet gepubliceerd. Verplichte velden zijn gemarkeerd met *

*

*

  1. Verantwoordelijk voor de gegevens: AB Internet Networks 2008 SL
  2. Doel van de gegevens: Controle SPAM, commentaarbeheer.
  3. Legitimatie: uw toestemming
  4. Mededeling van de gegevens: De gegevens worden niet aan derden meegedeeld, behalve op grond van wettelijke verplichting.
  5. Gegevensopslag: database gehost door Occentus Networks (EU)
  6. Rechten: u kunt uw gegevens op elk moment beperken, herstellen en verwijderen.

  1.   Sint Isid zei

    Ik ben meer geïnteresseerd in het leren over BigData, momenteel heb ik een account gehost in ibm cloud, ik zou daar graag willen werken met Apache Spark, maar ik heb niet goed kunnen samenwerken met mijn team, ik zou je steun op prijs stellen