பெரிய தரவு என்பது பெரிய தரவுகளின் தொகுப்பை விவரிக்கப் பயன்படும் சொல் அது காலப்போக்கில் அதிவேகமாக வளர்கிறது.
தரவு மிகவும் பெரியது மற்றும் பாரம்பரிய தரவு மேலாண்மை கருவிகளை விட சிக்கலானது நீங்கள் அவற்றை திறமையாக சேமிக்கலாம் அல்லது செயலாக்கலாம்.
ஆனால் எல்லோரும் அதை நாம் புரிந்து கொள்ள வேண்டும் ஒரு நிலையான வடிவத்தில் சேமிக்கக்கூடிய, அணுகக்கூடிய மற்றும் செயலாக்கக்கூடிய தரவு 'கட்டமைக்கப்பட்ட' தரவு என அழைக்கப்படுகிறது.
என்று பெரிய அளவுகளில் நிர்வகிக்கப்படுகின்றன, இதில் தீர்வுகள் செயல்படுத்தப்பட வேண்டும் அவை குறுகிய காலத்தில் பெரிய அளவிலான தரவைக் கையாளவும், சேமிக்கவும், பகுப்பாய்வு செய்யவும் முடியும்
பெரிய அளவில் கையாளப்படும் புள்ளிவிவரங்களைப் பார்க்கும்போது, 'பிக் டேட்டா' என்ற பெயர் ஏன் கொடுக்கப்பட்டுள்ளது என்பதை ஒருவர் எளிதாக புரிந்து கொள்ள முடியும் மற்றும் சேமித்தல் மற்றும் செயலாக்க சவால்களை கற்பனை செய்து பாருங்கள்.
அதனால்தான் இன்று தரவு பகுப்பாய்வு தளத்தை உருவாக்கப் பயன்படுத்தக்கூடிய சில பிரபலமான திறந்த மூல கருவிகளைப் பற்றி அறியப் போகிறோம்.
அப்பாச்சி ஹடூப்
அப்பாச்சி ஹடூப் விநியோகிக்கப்பட்ட சூழலில் மிகப் பெரிய தரவுத் தொகுப்புகளை செயலாக்கும் திறந்த மூல மென்பொருள் தளம்.
இந்த கருவி சேமிப்பு, கணக்கீட்டு சக்தி மற்றும் முக்கியமாக குறைந்த விலை அடிப்படை வன்பொருளில்.
அப்பாச்சி ஹடூப் சில முதல் ஆயிரக்கணக்கான சேவையகங்களை எளிதாக அளவிட வடிவமைக்கப்பட்டுள்ளது.
உள்நாட்டில் சேமிக்கப்பட்ட தரவை பொதுவான இணையான செயலாக்க உள்ளமைவில் செயலாக்க இது உதவுகிறது.
ஹடூப்பின் நன்மைகளில் ஒன்று, இது மென்பொருள் மட்டத்தில் தோல்வியைக் கையாளுகிறது. அப்பாச்சி ஹடூப் கோப்பு முறைமை அடுக்கு, கிளஸ்டர் மேலாண்மை அடுக்கு மற்றும் செயலாக்க அடுக்கு ஆகியவற்றிற்கான கட்டமைப்பை வழங்குகிறது.
இது மற்ற திட்டங்கள் மற்றும் கட்டமைப்பிற்கு வந்து ஹடூப் சுற்றுச்சூழல் அமைப்புடன் இணைந்து செயல்படுவதற்கும் கணினியில் கிடைக்கும் எந்த அடுக்குகளுக்கும் அவற்றின் சொந்த கட்டமைப்பை உருவாக்குவதற்கும் ஒரு விருப்பத்தை விட்டுச்செல்கிறது.
Elasticsearch
மீள் தேடல் முழு உரை அடிப்படையிலான தேடல் மற்றும் பகுப்பாய்வு இயந்திரம். இது ஒரு அமைப்பு மிகவும் அளவிடக்கூடிய மற்றும் விநியோகிக்கப்பட்ட, குறிப்பாக வடிவமைக்கப்பட்டுள்ளது பெரிய தரவு அமைப்புகளுடன் திறமையாகவும் விரைவாகவும் செயல்பட, அதன் முக்கிய பயன்பாட்டு நிகழ்வுகளில் ஒன்று பதிவு பகுப்பாய்வு ஆகும்.
இது மேம்பட்ட மற்றும் சிக்கலான தேடல்களுக்கும் மேம்பட்ட பகுப்பாய்வு மற்றும் செயல்பாட்டு நுண்ணறிவுக்கான நிகழ்நேர செயலாக்கத்திற்கும் திறன் கொண்டது.
Elasticsearch ஜாவாவில் எழுதப்பட்டுள்ளது மற்றும் அப்பாச்சி லூசீனை அடிப்படையாகக் கொண்டது, மீள் தேடல் ஒரு திட்டமில்லாத கட்டமைப்பைக் கொண்ட ஒரு JSON ஆவணத்தை அடிப்படையாகக் கொண்டது, இது எளிதாகவும் எளிதாகவும் ஏற்றுக்கொள்ளும்.
இது முன்னணி வணிக தர தேடுபொறிகளில் ஒன்றாகும். உங்கள் நிரலாக்க மொழியில் உங்கள் வாடிக்கையாளரை எழுதலாம்; ஜாவா, .நெட், பி.எச்.பி, பைதான், பெர்ல் போன்றவற்றுடன் மீள் தேடல் அதிகாரப்பூர்வமாக வேலை செய்கிறது.
MongoDB
மோங்கோடிபி ஆவண தரவு மாதிரியை அடிப்படையாகக் கொண்ட ஒரு NoSQL தரவுத்தளம். மோங்கோடிபியில் எல்லாம் ஒரு தொகுப்பு அல்லது ஆவணம்.
மோங்கோடிபி சொற்களைப் புரிந்து கொள்ள, சேகரிப்பு என்பது அட்டவணைக்கான மாற்று வார்த்தையாகும், அதே சமயம் ஆவணம் என்பது வரிசைகளுக்கான மாற்று வார்த்தையாகும்.
MongoDB ஒரு திறந்த மூல, ஆவணம் சார்ந்த, குறுக்கு-தளம் தரவுத்தளமாகும். இது முக்கியமாக சி ++ இல் எழுதப்பட்டுள்ளது.
இது அதிக செயல்திறன், அதிக கிடைக்கும் தன்மை மற்றும் எளிதான அளவிடுதல் ஆகியவற்றை வழங்கும் முன்னணி NoSQL தரவுத்தளமாகும்.
MongoDB JSON போன்ற ஆவணங்களை ஸ்கீமாவுடன் பயன்படுத்துகிறது மற்றும் சிறந்த வினவல் ஆதரவை வழங்குகிறது. அதன் முக்கிய செயல்பாடுகளில் சில அட்டவணைப்படுத்தல், பிரதி, சுமை சமநிலை, திரட்டுதல் மற்றும் கோப்பு சேமிப்பு ஆகியவை அடங்கும்.
கசண்டிரா
கசாண்ட்ரா NoSQL தரவுத்தளங்களை நிர்வகிக்க வடிவமைக்கப்பட்ட ஒரு திறந்த மூல அப்பாச்சி திட்டம்.
கசாண்ட்ராவின் வரிசைகள் அட்டவணையில் ஒழுங்கமைக்கப்பட்டு ஒரு விசையால் குறியிடப்படுகின்றன. இது இணைப்பு-மட்டும், பதிவு அடிப்படையிலான சேமிப்பக இயந்திரத்தைப் பயன்படுத்துகிறது.
கசாண்ட்ராவில் உள்ள தரவு பல முதன்மை முனைகளில் விநியோகிக்கப்படுகிறது, தோல்வி ஒரு புள்ளி இல்லாமல். இது ஒரு உயர் மட்ட அப்பாச்சி திட்டம், அதன் வளர்ச்சியை தற்போது அப்பாச்சி மென்பொருள் அறக்கட்டளை (ASF) மேற்பார்வையிடுகிறது.
கசாண்ட்ரா பெரிய அளவில் (வலை) செயல்பாட்டுடன் தொடர்புடைய சிக்கல்களைத் தீர்க்க வடிவமைக்கப்பட்டுள்ளது.
கசாண்ட்ராவின் முதன்மை கட்டமைப்பைப் பொறுத்தவரை, சிறிய (குறிப்பிடத்தக்க) வன்பொருள் தோல்விகள் இருந்தபோதிலும் இது தொடர்ந்து செயல்பட முடியும். கசாண்ட்ரா பல தரவு மையங்களில் பல முனைகளில் இயங்குகிறது.
தோல்விகள் அல்லது வேலையில்லா நேரத்தைத் தவிர்க்க இந்த தரவு மையங்களில் தரவைப் பிரதிபலிக்கவும். இது மிகவும் தவறு தாங்கும் அமைப்பாக அமைகிறது.
பிக் டேட்டாவைப் பற்றி அறிய நான் அதிக ஆர்வம் காட்டுகிறேன், தற்போது நான் ஐபிஎம் கிளவுட்டில் ஹோஸ்ட் செய்துள்ளேன், அப்பாச்சி ஸ்பார்க்குடன் நான் அங்கு பணியாற்ற விரும்புகிறேன், ஆனால் எனது அணியுடன் நான் நன்றாக இணைக்க முடியவில்லை, உங்கள் ஆதரவை நான் பாராட்டுகிறேன்