4 plataformes de codi obert per Bigdata

Dades massives

Big Data és un terme utilitzat per descriure la recopilació de dades de grans dimensions i que creix exponencialment amb el temps.

Les dades són tan grans i complexos que cap de les eines tradicionals d'administració de dades pot emmagatzemar o processar-se de manera eficient.

Però hem d'entendre que tots les dades que es poden emmagatzemar, accedir i processar en forma de format fix s'anomenen dades 'estructurats'.

Que són manejats a grans escales, en la qual cosa s'han d'implementar solucions que siguin capaços de manejar, emmagatzemar i analitzar grans quantitats de dades en poc temps

A l'observar xifres que es manegen a gran escala, un pot entendre fàcilment per què es dóna el nom 'Big Data' i imaginar els desafiaments que comporta el seu emmagatzematge i processament.

És per això que el dia d'avui anem a conèixer algunes eines populars de codi obert que es poden usar per crear una plataforma d'anàlisi de dades.

Apache Hadoop

Hadoop-apatxe

Apache Hadoop és una plataforma de programari de codi obert que processa conjunts de dades molt grans en un entorn distribuït.

aquesta eina es basa en respecte a l'emmagatzematge, la potència computacional i principalment en maquinari bàsic de baix cost.

Apache Hadoop està dissenyat per escalar fàcilment d'uns pocs a milers de servidors.

L'ajuda a processar les dades emmagatzemades localment en una configuració general de processament en paral·lel.

Un dels beneficis de Hadoop és que maneja la falla a nivell de programari. Apache Hadoop proporciona un marc per a la capa d'sistema d'arxius, la capa d'administració de l'clúster i la capa de processament.

Deixa una opció perquè altres projectes i marcs entrin i treballin juntament amb Hadoop Ecosystem i desenvolupin el seu propi marc per a qualsevol de les capes disponibles al sistema.

Elasticsearch

Elasticsearch

Elasticsearch és un motor de cerca i anàlisi basada en text complet. És un sistema altament escalable i distribuït, dissenyat específicament per treballar de manera eficient i ràpida amb els sistemes de big data, On un dels seus principals casos d'ús és l'anàlisi de registres.

És capaç de fer cerques avançades i complexes, i processament gairebé en temps real per a anàlisi avançat i intel·ligència operacional.

Elasticsearch està escrit en Java i està basat en Apache Lucene, Elasticsearch es basa en un document JSON amb una estructura lliure d'esquemes, el que facilita i facilita l'adopció.

És un dels principals motors de cerca de grau empresarial. Pot escriure el seu client en qualsevol llenguatge de programació; Elasticsearch oficialment funciona amb Java, .NET, PHP, Python, Perl, etc.

MongoDB

MongoDB

MongoDB és una base de dades NoSQL basada en el model de dades de documents. En MongoDB tot és una col·lecció o document.

Per comprendre la terminologia de MongoDB, la col·lecció és una paraula alternativa per table, mentre que document és una paraula alternativa per files.

MongoDB és una base de dades de codi obert, orientada a documents i multiplataforma. Està escrit principalment en C ++.

També és la base de dades NoSQL líder que ofereix alt rendiment, alta disponibilitat i escalabilitat fàcil.

MongoDB utilitza documents similars JSON amb esquema i proporciona una gran compatibilitat amb consultes. Algunes de les seves funcions principals inclouen indexació, replicació, equilibri de càrrega, agregació i emmagatzematge d'arxius.

Cassandra

Cassandra és un projecte Apache de codi obert dissenyat per a l'administració de bases de dades NoSQL.

Les files de Cassandra estan organitzades en taules i indexades per una clau. Utilitza un motor d'emmagatzematge basat en registres i de sol annexió.

Les dades en Cassandra es distribueixen a través de múltiples nodes mestres, Sense un sol punt de falla. És un projecte d'Apache d'alt nivell, i el seu desenvolupament actualment és supervisat per l'Apache Software Foundation (ASF).

Cassandra està dissenyat per a resoldre problemes associats amb el funcionament en una escala gran (web).

Donada l'arquitectura mestra de Cassandra, pot continuar realitzant operacions malgrat un petit (encara que significatiu) nombre de falles de maquinari. Cassandra s'executa en múltiples nodes en múltiples centres de dades.

Rèplica dades en aquests centres de dades per evitar falles o temps d'inactivitat. Això el converteix en un sistema altament tolerant a falles.


Un comentari, deixa el teu

Deixa el teu comentari

La seva adreça de correu electrònic no es publicarà. Els camps obligatoris estan marcats amb *

*

*

  1. Responsable de les dades: AB Internet Networks 2008 SL
  2. Finalitat de les dades: Controlar l'SPAM, gestió de comentaris.
  3. Legitimació: El teu consentiment
  4. Comunicació de les dades: No es comunicaran les dades a tercers excepte per obligació legal.
  5. Emmagatzematge de les dades: Base de dades allotjada en Occentus Networks (UE)
  6. Drets: En qualsevol moment pots limitar, recuperar i esborrar la teva informació.

  1.   Sant ISID va dir

    M'interessa més aprendre sobre la BigData actualment tinc un compte allotjada en ibm cloud quisera ahi mateix trabajr cn Apache Spark però no he aconseguit enllaçar bé cn el meu equip agrairia el seu suport