Big Data เป็นคำที่ใช้อธิบายการรวบรวมข้อมูลขนาดใหญ่ และเพิ่มขึ้นอย่างทวีคูณเมื่อเวลาผ่านไป
ข้อมูลมีขนาดใหญ่มาก และซับซ้อนกว่าเครื่องมือการจัดการข้อมูลแบบเดิม ๆ คุณสามารถจัดเก็บหรือประมวลผลได้อย่างมีประสิทธิภาพ
แต่เราต้องเข้าใจว่าทุกคน ข้อมูลที่สามารถจัดเก็บเข้าถึงและประมวลผลในรูปแบบคงที่เรียกว่าข้อมูล 'ที่มีโครงสร้าง'
นี้ ได้รับการจัดการบนเครื่องชั่งขนาดใหญ่ ซึ่งใน จะต้องดำเนินการแก้ไข ที่สามารถจัดการจัดเก็บและวิเคราะห์ข้อมูลจำนวนมากได้ในเวลาอันสั้น
เมื่อดูตัวเลขที่ได้รับการจัดการในระดับใหญ่ เราสามารถเข้าใจได้อย่างง่ายดายว่าเหตุใดจึงมีการตั้งชื่อ 'ข้อมูลขนาดใหญ่' และจินตนาการถึงความท้าทายในการจัดเก็บและประมวลผล
นั่นคือเหตุผลที่วันนี้เราจะมาเรียนรู้เกี่ยวกับเครื่องมือโอเพนซอร์สยอดนิยมที่สามารถใช้ในการสร้างแพลตฟอร์มการวิเคราะห์ข้อมูล
อาปาเช่ ฮาดูป
Apache Hadoop คือ แพลตฟอร์มซอฟต์แวร์โอเพ่นซอร์สที่ประมวลผลชุดข้อมูลขนาดใหญ่มากในสภาพแวดล้อมแบบกระจาย
เครื่องมือนี้ ขึ้นอยู่กับพื้นที่จัดเก็บกำลังการคำนวณและ ส่วนใหญ่ ในฮาร์ดแวร์พื้นฐานราคาประหยัด
Apache Hadoop คือ ออกแบบมาเพื่อปรับขนาดได้อย่างง่ายดายจากเซิร์ฟเวอร์ไม่กี่เครื่องถึงหลายพันเครื่อง
ช่วยให้คุณประมวลผลข้อมูลที่จัดเก็บไว้ในเครื่องในการกำหนดค่าการประมวลผลแบบขนานทั่วไป
ข้อดีอย่างหนึ่งของ Hadoop คือจัดการกับความล้มเหลวในระดับซอฟต์แวร์ Apache Hadoop จัดเตรียมเฟรมเวิร์กสำหรับเลเยอร์ระบบไฟล์เลเยอร์การจัดการคลัสเตอร์และเลเยอร์การประมวลผล
ทำให้เป็นทางเลือกสำหรับโครงการและกรอบงานอื่น ๆ ที่จะเข้ามาและทำงานร่วมกับ Hadoop Ecosystem และพัฒนากรอบของตนเองสำหรับเลเยอร์ใด ๆ ที่มีอยู่ในระบบ
ElasticSearch
Elasticsearch คือ เครื่องมือค้นหาและวิเคราะห์แบบข้อความเต็ม มันเป็นระบบ ปรับขนาดและกระจายได้สูง ออกแบบมาโดยเฉพาะ เพื่อให้ทำงานได้อย่างมีประสิทธิภาพและรวดเร็วด้วยระบบข้อมูลขนาดใหญ่โดยที่หนึ่งในกรณีการใช้งานหลักคือการวิเคราะห์บันทึก
มีความสามารถในการค้นหาขั้นสูงและซับซ้อนและการประมวลผลแบบเรียลไทม์สำหรับการวิเคราะห์ขั้นสูงและข้อมูลเชิงปฏิบัติการ
ElasticSearch เขียนด้วยภาษาจาวาและอ้างอิงจาก Apache LuceneElasticsearch ใช้เอกสาร JSON ที่มีโครงสร้างแบบไม่ต้องใช้สคีมาซึ่งทำให้ง่ายและง่ายต่อการนำไปใช้
เป็นหนึ่งในเครื่องมือค้นหาระดับธุรกิจชั้นนำ คุณสามารถเขียนไคลเอนต์ของคุณในภาษาโปรแกรมใดก็ได้ Elasticsearch ทำงานอย่างเป็นทางการกับ Java, .NET, PHP, Python, Perl และอื่น ๆ
MongoDB
MongoDB คือ ฐานข้อมูล NoSQL ตามแบบจำลองข้อมูลเอกสาร ใน MongoDB ทุกอย่างเป็นคอลเลคชันหรือเอกสาร
เพื่อให้เข้าใจคำศัพท์ MongoDB คอลเลกชันเป็นคำอื่นสำหรับตารางในขณะที่เอกสารเป็นคำอื่นสำหรับแถว
MongoDB เป็นฐานข้อมูลแบบโอเพ่นซอร์สที่เน้นเอกสารข้ามแพลตฟอร์ม ส่วนใหญ่เขียนด้วยภาษา C ++
นอกจากนี้ยังเป็นฐานข้อมูล NoSQL ชั้นนำที่มีประสิทธิภาพสูงพร้อมใช้งานสูงและปรับขนาดได้ง่าย
MongoDB ใช้เอกสารคล้าย JSON พร้อมสคีมาและให้การสนับสนุนการสืบค้นที่ยอดเยี่ยม. ฟังก์ชันหลักบางอย่าง ได้แก่ การสร้างดัชนีการจำลองแบบการทำโหลดบาลานซ์การรวมและการจัดเก็บไฟล์
คาสซานดรา
Cassandra คือ โครงการ Apache แบบโอเพนซอร์สที่ออกแบบมาสำหรับการดูแลระบบฐานข้อมูล NoSQL
แถวของ Cassandra จัดเป็นตารางและจัดทำดัชนีด้วยคีย์ มันใช้เอ็นจิ้นการจัดเก็บแบบบันทึกตามผนวกเท่านั้น
ข้อมูลใน Cassandra ถูกกระจายไปตามโหนดหลักหลายโหนดโดยไม่มีจุดล้มเหลวแม้แต่จุดเดียว เป็นโครงการ Apache ระดับสูงและการพัฒนาอยู่ภายใต้การดูแลของ Apache Software Foundation (ASF)
Cassandra คือ ออกแบบมาเพื่อแก้ปัญหาที่เกี่ยวข้องกับการทำงานในขนาดใหญ่ (เว็บ)
ด้วยสถาปัตยกรรมหลักของ Cassandra ทำให้สามารถทำงานต่อไปได้แม้จะมีความล้มเหลวของฮาร์ดแวร์เพียงเล็กน้อย (แม้ว่าจะมีนัยสำคัญ) ก็ตาม Cassandra ทำงานบนหลายโหนดในศูนย์ข้อมูลหลายแห่ง
จำลองข้อมูลในศูนย์ข้อมูลเหล่านี้เพื่อหลีกเลี่ยงความล้มเหลวหรือการหยุดทำงาน ทำให้ระบบนี้มีความทนทานต่อความผิดพลาดสูง
ฉันสนใจที่จะเรียนรู้เกี่ยวกับ BigData มากขึ้นขณะนี้ฉันมีบัญชีที่โฮสต์ใน ibm cloud ฉันต้องการทำงานที่นั่นกับ Apache Spark แต่ฉันไม่สามารถเชื่อมโยงกับทีมได้ดีฉันขอขอบคุณการสนับสนุนของคุณ