4 piattaforme open source per Big Data

Big-data

Big Data è un termine usato per descrivere la raccolta di dati di grandi dimensioni e che cresce in modo esponenziale nel tempo.

I dati sono così grandi e complesso rispetto a qualsiasi strumento tradizionale di gestione dei dati è possibile archiviarli o elaborarli in modo efficiente.

Ma dobbiamo capire che tutti i dati che possono essere memorizzati, consultati ed elaborati in un formato fisso sono chiamati dati "strutturati".

Che sono gestiti su larga scala, in quale le soluzioni devono essere implementate in grado di gestire, archiviare e analizzare grandi quantità di dati in breve tempo

Quando si guardano figure che vengono gestite su larga scala, si può facilmente capire perché viene dato il nome "Big Data" e immagina le sfide di archiviazione ed elaborazione.

Questo è il motivo per cui oggi impareremo alcuni popolari strumenti open source che possono essere utilizzati per creare una piattaforma di analisi dei dati.

Apache Hadoop

hadoop apache

Apache Hadoop lo è una piattaforma software open source che elabora set di dati molto grandi in un ambiente distribuito.

Questo strumento si basa su archiviazione, potenza di calcolo e principalmente in hardware di base a basso costo.

Apache Hadoop lo è progettato per scalare facilmente da pochi a migliaia di server.

Aiuta a elaborare i dati archiviati localmente in una configurazione di elaborazione parallela generale.

Uno dei vantaggi di Hadoop è che gestisce gli errori a livello di software. Apache Hadoop fornisce un framework per il livello del file system, il livello di gestione del cluster e il livello di elaborazione.

Lascia la possibilità di altri progetti e framework di entrare e lavorare insieme all'ecosistema Hadoop e sviluppare il proprio framework per uno qualsiasi dei livelli disponibili nel sistema.

elasticsearch

elasticsearch

Elasticsearch lo è un motore di ricerca e analisi basato su testo completo. È un sistema altamente scalabile e distribuito, progettato specificamente per lavorare in modo efficiente e rapido con i sistemi di big data, dove uno dei suoi principali casi d'uso è l'analisi dei log.

È in grado di eseguire ricerche avanzate e complesse e l'elaborazione quasi in tempo reale per analisi avanzate e intelligenza operativa.

elasticsearch è scritto in Java ed è basato su Apache Lucene, Elasticsearch si basa su un documento JSON con una struttura priva di schema, che lo rende facile e facile da adottare.

È uno dei principali motori di ricerca di livello aziendale. Puoi scrivere il tuo client in qualsiasi linguaggio di programmazione; Elasticsearch funziona ufficialmente con Java, .NET, PHP, Python, Perl, ecc.

MongoDB

MongoDB

MongoDB lo è un database NoSQL basato sul modello di dati del documento. In MongoDB tutto è una raccolta o un documento.

Per comprendere la terminologia MongoDB, raccolta è una parola alternativa per tabella, mentre documento è una parola alternativa per righe.

MongoDB è un database open source, orientato ai documenti e multipiattaforma. È scritto principalmente in C ++.

È anche il principale database NoSQL che offre prestazioni elevate, alta disponibilità e facile scalabilità.

MongoDB utilizza documenti simili a JSON con schema e fornisce un ottimo supporto per le query. Alcune delle sue funzioni principali includono indicizzazione, replica, bilanciamento del carico, aggregazione e archiviazione di file.

Cassandra

Cassandra lo è un progetto Apache open source progettato per la gestione di database NoSQL.

Le righe di Cassandra sono organizzate in tabelle e indicizzate da una chiave. Utilizza un motore di memorizzazione basato su record e di sola aggiunta.

I dati in Cassandra sono distribuiti su più nodi master, senza un singolo punto di errore. È un progetto Apache di alto livello e il suo sviluppo è attualmente supervisionato dalla Apache Software Foundation (ASF).

Cassandra lo è progettato per risolvere i problemi associati al funzionamento su larga scala (web).

Data l'architettura principale di Cassandra, può continuare a funzionare nonostante un numero ridotto (ma significativo) di guasti hardware. Cassandra funziona su più nodi in più data center.

Replicare i dati in questi data center per evitare guasti o tempi di inattività. Questo lo rende un sistema altamente tollerante ai guasti.


Lascia un tuo commento

L'indirizzo email non verrà pubblicato. I campi obbligatori sono contrassegnati con *

*

*

  1. Responsabile del trattamento: AB Internet Networks 2008 SL
  2. Scopo dei dati: controllo SPAM, gestione commenti.
  3. Legittimazione: il tuo consenso
  4. Comunicazione dei dati: I dati non saranno oggetto di comunicazione a terzi se non per obbligo di legge.
  5. Archiviazione dati: database ospitato da Occentus Networks (UE)
  6. Diritti: in qualsiasi momento puoi limitare, recuperare ed eliminare le tue informazioni.

  1.   Sant'Isidia suddetto

    Sono più interessato a conoscere BigData, attualmente ho un account ospitato in ibm cloud, mi piacerebbe lavorare lì con Apache Spark ma non sono stato in grado di collegarmi bene con il mio team, apprezzerei il tuo supporto