बिग डेटा मोठ्या संज्ञेचे वर्णन करण्यासाठी वापरली जाणारी एक शब्द आहे आणि ते कालांतराने वेगाने वाढते.
डेटा खूप मोठा आहे आणि कोणत्याही पारंपारिक डेटा व्यवस्थापन साधनांपेक्षा जटिल आपण त्यांना कार्यक्षमतेने संचयित किंवा प्रक्रिया करू शकता.
पण आपण हे समजून घेतले पाहिजे की प्रत्येकजण एका निश्चित स्वरुपात संग्रहित, procesक्सेस केलेल्या आणि प्रक्रिया केल्या जाणार्या डेटाला 'संरचित' डेटा म्हणतात.
ते मोठ्या प्रमाणात मोजले जातात, ज्यात समाधानाची अंमलबजावणी करणे आवश्यक आहे जे अल्पावधीत मोठ्या प्रमाणात डेटा हाताळण्यास, संचयित करण्यास आणि विश्लेषित करण्यात सक्षम आहेत
मोठ्या प्रमाणात हाताळल्या गेलेल्या आकडेवारीकडे लक्ष देताना, 'बिग डेटा' हे नाव का दिले गेले हे कोणालाही सहज समजू शकते आणि त्यास संग्रहित करणे आणि त्यावर प्रक्रिया करण्याच्या आव्हानांची कल्पना करा.
म्हणूनच आज आम्ही काही लोकप्रिय मुक्त स्त्रोत साधनांबद्दल जाणून घेणार आहोत जे डेटा विश्लेषण प्लॅटफॉर्म तयार करण्यासाठी वापरले जाऊ शकतात.
अपाचे हडोप
अपाचे हडूप आहे एक मुक्त स्रोत सॉफ्टवेअर प्लॅटफॉर्म जे वितरित वातावरणात मोठ्या डेटा सेटवर प्रक्रिया करते.
हे साधन स्टोरेज, संगणकीय उर्जा आणि प्रामुख्याने कमी किमतीच्या मूलभूत हार्डवेअरमध्ये.
अपाचे हडूप आहे सर्व्हरच्या हजारो ते सहज मोजण्यासाठी डिझाइन केलेले.
हे आपल्याला सामान्य पॅरलल प्रोसेसिंग कॉन्फिगरेशनमध्ये स्थानिकरित्या संग्रहित डेटावर प्रक्रिया करण्यात मदत करते.
हडूपचा एक फायदा म्हणजे तो सॉफ्टवेअर स्तरावर अपयशाला हाताळतो. अपाचे हॅडूप फाइल सिस्टम लेयर, क्लस्टर मॅनेजमेंट लेयर आणि प्रोसेसिंग लेयरसाठी एक फ्रेमवर्क पुरवतो.
इतर प्रकल्प आणि फ्रेमवर्कमध्ये येण्यासाठी आणि हडूप इकोसिस्टममध्ये एकत्र काम करण्यासाठी आणि सिस्टममध्ये उपलब्ध असलेल्या कोणत्याही थरांसाठी त्यांचे स्वतःचे फ्रेमवर्क विकसित करण्याचा पर्याय सोडला आहे.
Elasticsearch
लवचिकता आहे पूर्ण-मजकूर-आधारित शोध आणि विश्लेषक इंजिन. ही एक यंत्रणा आहे अत्यंत स्केलेबल आणि वितरित, विशेषतः डिझाइन केलेले मोठ्या डेटा सिस्टमसह कार्यक्षमतेने आणि द्रुतपणे कार्य करण्यासाठी, जेथे त्याचे मुख्य उपयोग प्रकरणांपैकी एक लॉग विश्लेषण आहे.
प्रगत विश्लेषण आणि ऑपरेशनल बुद्धिमत्तेसाठी हे प्रगत आणि गुंतागुंतीच्या शोध आणि रीअल-टाइम प्रक्रियेसाठी जवळ सक्षम आहे.
Elasticsearch जावा मध्ये लिहिलेले आहे आणि अपाचे ल्युसिन वर आधारित आहे, इलास्टिकार्च स्कीमा-मुक्त संरचनेसह जेएसओएन दस्तऐवजावर आधारित आहे, ज्यायोगे त्याचे अवलंबन करणे सोपे आणि सुलभ होते.
हे अग्रगण्य व्यवसाय ग्रेड शोध इंजिनपैकी एक आहे. आपण आपल्या क्लायंटला कोणत्याही प्रोग्रामिंग भाषेत लिहू शकता; इलॅस्टिकसर्च अधिकृतपणे जावा, .नेट, पीएचपी, पायथन, पर्ल इ. सह कार्य करते.
MongoDB
मंगोडीबी आहे दस्तऐवज डेटा मॉडेलवर आधारित NoSQL डेटाबेस. मॉंगोडीबीमध्ये प्रत्येक गोष्ट संग्रह किंवा दस्तऐवज असते.
मोंगोडीबी संज्ञा समजण्यासाठी, संग्रह हा टेबलसाठी पर्यायी शब्द आहे, तर दस्तऐवज पंक्तींसाठी वैकल्पिक शब्द आहे.
MongoDB क्रॉस-प्लॅटफॉर्म, दस्तऐवज-आधारित, मुक्त स्रोत डेटाबेस आहे. हे मुख्यतः सी ++ मध्ये लिहिलेले आहे.
हे उच्च कार्यक्षमता, उच्च उपलब्धता आणि सोपे स्केलेबिलिटी ऑफर करणारे आघाडीचे NoSQL डेटाबेस देखील आहे.
MongoDB स्कीमा सह JSON सारखी दस्तऐवज वापरते आणि उत्कृष्ट क्वेरी समर्थन प्रदान करते. त्याच्या काही मुख्य कार्यांमध्ये अनुक्रमणिका, प्रतिकृती, लोड बॅलेंसिंग, एकत्रीकरण आणि फाइल संचयन समाविष्ट आहे.
शरिरासाठी चांगलं असतं,
कॅसॅन्ड्रा आहे NoSQL डेटाबेस व्यवस्थापित करण्यासाठी डिझाइन केलेला मुक्त स्रोत अपाचे प्रकल्प.
कॅसँड्राच्या पंक्ती सारण्यांमध्ये आयोजित केल्या आहेत आणि त्याद्वारे की अनुक्रमित केल्या आहेत. हे केवळ एक परिशिष्ट, रेकॉर्ड-आधारित स्टोरेज इंजिन वापरते.
कॅसँड्रा मधील डेटा एकाधिक मास्टर नोड्समध्ये वितरीत केला जातो, एकाच अपयशाशिवाय. हा एक उच्च-स्तरीय अपाचे प्रकल्प आहे आणि सध्याच्या विकासाची देखरेख अपाचे सॉफ्टवेअर फाऊंडेशन (एएसएफ) ने केली आहे.
कॅसॅन्ड्रा आहे मोठ्या प्रमाणावर (वेब) ऑपरेशनशी संबंधित समस्या सोडविण्यासाठी डिझाइन केलेले.
कॅसँड्राची मुख्य आर्किटेक्चर दिलेली असल्यास, हार्डवेअरच्या विफलतेची संख्या (परंतु महत्त्वपूर्ण) असूनही ते कार्य करणे सुरू ठेवू शकते. एकाधिक डेटा सेंटरमध्ये कॅसॅन्ड्रा एकाधिक नोड्सवर चालते.
अपयश किंवा डाउनटाइम टाळण्यासाठी या डेटा सेंटरमधील डेटाची प्रत बनवा. यामुळे ती अत्यंत दोष सहन करणारी प्रणाली बनते.
मला बिगडाटाबद्दल अधिक जाणून घेण्यास आवड आहे, सध्या माझ्याकडे आयबीएम क्लाऊडमध्ये खाते आहे, मी तेथे अपाचे स्पार्कबरोबर काम करण्यास आवडेल परंतु मला माझ्या संघाशी चांगला संबंध जोडता आले नाही, मी तुमच्या समर्थनाचे कौतुक करीन