Big Data adalah istilah yang digunakan untuk menggambarkan kumpulan data besar dan itu tumbuh secara eksponensial dari waktu ke waktu.
Datanya sangat besar dan kompleks daripada alat manajemen data tradisional mana pun Anda dapat menyimpan atau memprosesnya secara efisien.
Tapi kita harus mengerti itu setiap orang data yang dapat disimpan, diakses dan diolah dalam format tetap disebut data 'terstruktur'.
Ini dikelola dalam skala besar, di mana solusi harus diterapkan yang mampu menangani, menyimpan, dan menganalisis data dalam jumlah besar dalam waktu singkat
Saat melihat angka yang ditangani dalam skala besar, orang dapat dengan mudah memahami mengapa nama 'Big Data' diberikan dan bayangkan tantangan penyimpanan dan pemrosesan.
Itulah mengapa hari ini kita akan belajar tentang beberapa alat open source populer yang dapat digunakan untuk membuat platform analisis data.
Apache Hadoop
Apache Hadoop adalah platform perangkat lunak sumber terbuka yang memproses kumpulan data yang sangat besar dalam lingkungan terdistribusi.
Alat ini didasarkan pada penyimpanan, daya komputasi, dan kebanyakan dalam perangkat keras dasar berbiaya rendah.
Apache Hadoop adalah dirancang untuk dengan mudah menskalakan dari beberapa hingga ribuan server.
Ini membantu Anda memproses data yang disimpan secara lokal dalam konfigurasi pemrosesan paralel umum.
Salah satu manfaat Hadoop adalah menangani kegagalan di tingkat perangkat lunak. Apache Hadoop menyediakan kerangka kerja untuk lapisan sistem file, lapisan manajemen cluster, dan lapisan pemrosesan.
Ini meninggalkan pilihan untuk proyek dan kerangka kerja lain untuk masuk dan bekerja sama dengan Ekosistem Hadoop dan mengembangkan kerangka mereka sendiri untuk setiap lapisan yang tersedia di sistem.
Elasticsearch
Elasticsearch adalah mesin pencari dan analitik berbasis teks lengkap. Itu adalah sebuah sistem sangat terukur dan terdistribusi, dirancang khusus untuk bekerja secara efisien dan cepat dengan sistem data besar, dengan salah satu kasus penggunaan utamanya adalah analisis log.
Ia mampu melakukan pencarian lanjutan dan kompleks serta pemrosesan hampir real-time untuk analisis lanjutan dan intelijen operasional.
Elasticsearch ditulis dalam Java dan didasarkan pada Apache Lucene, Elasticsearch didasarkan pada dokumen JSON dengan struktur bebas skema, membuatnya mudah dan mudah diadopsi.
Ini adalah salah satu mesin pencari kelas bisnis terkemuka. Anda dapat menulis klien Anda dalam bahasa pemrograman apa pun; Elasticsearch secara resmi bekerja dengan Java, .NET, PHP, Python, Perl, dll.
MongoDB
MongoDB adalah database NoSQL berdasarkan model data dokumen. Di MongoDB semuanya adalah koleksi atau dokumen.
Untuk memahami terminologi MongoDB, koleksi adalah kata alternatif untuk tabel, sedangkan dokumen adalah kata alternatif untuk baris.
MongoDB adalah database sumber terbuka, berorientasi dokumen, lintas platform. Ini ditulis terutama dalam C ++.
Ini juga merupakan database NoSQL terkemuka yang menawarkan kinerja tinggi, ketersediaan tinggi, dan skalabilitas mudah.
MongoDB menggunakan dokumen seperti JSON dengan skema dan memberikan dukungan kueri yang hebat. Beberapa fungsi utamanya meliputi pengindeksan, replikasi, load balancing, agregasi, dan penyimpanan file.
Cassandra
Cassandra adalah proyek Apache open source yang dirancang untuk mengelola database NoSQL.
Baris Cassandra diatur dalam tabel dan diindeks oleh sebuah kunci. Ini menggunakan mesin penyimpanan berbasis catatan append-only.
Data di Cassandra didistribusikan di beberapa node master, tanpa satu titik kegagalan. Ini adalah proyek Apache tingkat tinggi, dan pengembangannya saat ini diawasi oleh Apache Software Foundation (ASF).
Cassandra adalah dirancang untuk memecahkan masalah yang terkait dengan operasi dalam skala besar (web).
Mengingat arsitektur master Cassandra, ia dapat terus beroperasi meskipun ada sejumlah kecil (tapi signifikan) kegagalan perangkat keras. Cassandra berjalan di banyak node di beberapa pusat data.
Replikasi data di pusat data ini untuk menghindari kegagalan atau waktu henti. Ini membuatnya menjadi sistem yang sangat toleran terhadap kesalahan.
Saya lebih tertarik mempelajari BigData, saat ini saya memiliki akun yang dihosting di ibm cloud, saya ingin langsung bekerja di sana dengan Apache Spark tetapi saya belum dapat terhubung dengan baik dengan tim saya, saya akan menghargai dukungan Anda