4 plateformes open source pour le Big data

Le Big Data est un terme utilisé pour décrire la collecte de données volumineuses et cela croît de façon exponentielle avec le temps.

Les données sont si volumineuses et complexe que tous les outils de gestion de données traditionnels vous pouvez les stocker ou les traiter efficacement.

Mais nous devons comprendre que tout le monde les données qui peuvent être stockées, consultées et traitées dans un format fixe sont appelées données «structurées».

Que sont gérés à grande échelle, dans lequel des solutions doivent être mises en œuvre capables de gérer, stocker et analyser de grandes quantités de données en peu de temps

Lorsque vous regardez des personnages manipulés à grande échelle, on comprend aisément pourquoi le nom de `` Big Data '' est donné et imaginez les défis du stockage et du traitement.

C'est pourquoi aujourd'hui, nous allons en apprendre davantage sur certains outils open source populaires qui peuvent être utilisés pour créer une plate-forme d'analyse de données.

Apache Hadoop

Apache Hadoop est une plate-forme logicielle open source qui traite de très grands ensembles de données dans un environnement distribué.

Cet outil est basé sur le stockage, la puissance de calcul et principalement dans du matériel de base à faible coût.

Apache Hadoop est conçu pour évoluer facilement de quelques à des milliers de serveurs.

Il vous aide à traiter les données stockées localement dans une configuration de traitement parallèle générale.

L'un des avantages d'Hadoop est qu'il gère les pannes au niveau du logiciel. Apache Hadoop fournit un cadre pour la couche du système de fichiers, la couche de gestion de cluster et la couche de traitement.

Cela laisse la possibilité à d'autres projets et frameworks d'entrer et de travailler avec l'écosystème Hadoop et de développer leur propre framework pour l'une des couches disponibles dans le système.

ElasticSearch

Elasticsearch est un moteur de recherche et d'analyse en texte intégral. C'est un système hautement évolutif et distribué, spécialement conçu pour travailler efficacement et rapidement avec des systèmes Big Data, où l'un de ses principaux cas d'utilisation est l'analyse des journaux.

Il est capable d'effectuer des recherches avancées et complexes et un traitement en temps quasi réel pour une analyse avancée et une intelligence opérationnelle.

ElasticSearch est écrit en Java et est basé sur Apache Lucene, Elasticsearch est basé sur un document JSON avec une structure sans schéma, ce qui le rend facile et facile à adopter.

C'est l'un des principaux moteurs de recherche de qualité professionnelle. Vous pouvez écrire votre client dans n'importe quel langage de programmation; Elasticsearch fonctionne officiellement avec Java, .NET, PHP, Python, Perl, etc.

MongoDB

MongoDB est une base de données NoSQL basée sur le modèle de données du document. Dans MongoDB, tout est une collection ou un document.

Pour comprendre la terminologie MongoDB, collection est un mot alternatif pour tableau, tandis que document est un mot alternatif pour lignes.

MongoDB est une base de données multiplateforme open source, orientée document. Il est écrit principalement en C ++.

C'est également la principale base de données NoSQL offrant des performances élevées, une haute disponibilité et une évolutivité facile.

MongoDB utilise des documents de type JSON avec un schéma et fournit une excellente prise en charge des requêtes. Certaines de ses principales fonctions incluent l'indexation, la réplication, l'équilibrage de charge, l'agrégation et le stockage de fichiers.

Cassandra

Cassandra est un projet Apache open source conçu pour l'administration de bases de données NoSQL.

Les lignes de Cassandra sont organisées en tables et indexées par une clé. Il utilise un moteur de stockage basé sur les enregistrements et les ajouts uniquement.

Les données de Cassandra sont réparties sur plusieurs nœuds maîtres, sans point de défaillance unique. Il s'agit d'un projet Apache de haut niveau, et son développement est actuellement supervisé par l'Apache Software Foundation (ASF).

Cassandra est conçu pour résoudre les problèmes liés à l'exploitation à grande échelle (Web).

Compte tenu de l'architecture principale de Cassandra, il peut continuer à fonctionner malgré un petit (mais important) nombre de pannes matérielles. Cassandra s'exécute sur plusieurs nœuds dans plusieurs centres de données.

Répliquez les données dans ces centres de données pour éviter les pannes ou les temps d'arrêt. Cela en fait un système hautement tolérant aux pannes.

Laisser un commentaire Annuler la réponse

Saint Isid dit
il ya 6 ans.

Je suis plus intéressé à en savoir plus sur BigData, actuellement j'ai un compte hébergé dans ibm cloud, j'aimerais y travailler avec Apache Spark mais je n'ai pas réussi à bien me connecter avec mon équipe, j'apprécierais votre soutien

Répondre à Sant Isid

LinuxAdictos

4 plateformes open source pour le Big Data

Apache Hadoop

ElasticSearch

MongoDB

Cassandra

Laisser un commentaire Annuler la réponse