4 platform open source untuk Big data

Data besar

Big Data adalah istilah yang digunakan untuk menggambarkan kumpulan data besar dan itu tumbuh secara eksponensial dari waktu ke waktu.

Datanya sangat besar dan kompleks daripada alat manajemen data tradisional mana pun Anda dapat menyimpan atau memprosesnya secara efisien.

Tapi kita harus mengerti itu setiap orang data yang dapat disimpan, diakses dan diolah dalam format tetap disebut data 'terstruktur'.

Ini dikelola dalam skala besar, di mana solusi harus diterapkan yang mampu menangani, menyimpan, dan menganalisis data dalam jumlah besar dalam waktu singkat

Saat melihat angka yang ditangani dalam skala besar, orang dapat dengan mudah memahami mengapa nama 'Big Data' diberikan dan bayangkan tantangan penyimpanan dan pemrosesan.

Itulah mengapa hari ini kita akan belajar tentang beberapa alat open source populer yang dapat digunakan untuk membuat platform analisis data.

Apache Hadoop

hadoop apache

Apache Hadoop adalah platform perangkat lunak sumber terbuka yang memproses kumpulan data yang sangat besar dalam lingkungan terdistribusi.

Alat ini didasarkan pada penyimpanan, daya komputasi, dan kebanyakan dalam perangkat keras dasar berbiaya rendah.

Apache Hadoop adalah dirancang untuk dengan mudah menskalakan dari beberapa hingga ribuan server.

Ini membantu Anda memproses data yang disimpan secara lokal dalam konfigurasi pemrosesan paralel umum.

Salah satu manfaat Hadoop adalah menangani kegagalan di tingkat perangkat lunak. Apache Hadoop menyediakan kerangka kerja untuk lapisan sistem file, lapisan manajemen cluster, dan lapisan pemrosesan.

Ini meninggalkan pilihan untuk proyek dan kerangka kerja lain untuk masuk dan bekerja sama dengan Ekosistem Hadoop dan mengembangkan kerangka mereka sendiri untuk setiap lapisan yang tersedia di sistem.

Elasticsearch

Elasticsearch

Elasticsearch adalah mesin pencari dan analitik berbasis teks lengkap. Itu adalah sebuah sistem sangat terukur dan terdistribusi, dirancang khusus untuk bekerja secara efisien dan cepat dengan sistem data besar, dengan salah satu kasus penggunaan utamanya adalah analisis log.

Ia mampu melakukan pencarian lanjutan dan kompleks serta pemrosesan hampir real-time untuk analisis lanjutan dan intelijen operasional.

Elasticsearch ditulis dalam Java dan didasarkan pada Apache Lucene, Elasticsearch didasarkan pada dokumen JSON dengan struktur bebas skema, membuatnya mudah dan mudah diadopsi.

Ini adalah salah satu mesin pencari kelas bisnis terkemuka. Anda dapat menulis klien Anda dalam bahasa pemrograman apa pun; Elasticsearch secara resmi bekerja dengan Java, .NET, PHP, Python, Perl, dll.

MongoDB

MongoDB

MongoDB adalah database NoSQL berdasarkan model data dokumen. Di MongoDB semuanya adalah koleksi atau dokumen.

Untuk memahami terminologi MongoDB, koleksi adalah kata alternatif untuk tabel, sedangkan dokumen adalah kata alternatif untuk baris.

MongoDB adalah database sumber terbuka, berorientasi dokumen, lintas platform. Ini ditulis terutama dalam C ++.

Ini juga merupakan database NoSQL terkemuka yang menawarkan kinerja tinggi, ketersediaan tinggi, dan skalabilitas mudah.

MongoDB menggunakan dokumen seperti JSON dengan skema dan memberikan dukungan kueri yang hebat. Beberapa fungsi utamanya meliputi pengindeksan, replikasi, load balancing, agregasi, dan penyimpanan file.

Cassandra

Cassandra adalah proyek Apache open source yang dirancang untuk mengelola database NoSQL.

Baris Cassandra diatur dalam tabel dan diindeks oleh sebuah kunci. Ini menggunakan mesin penyimpanan berbasis catatan append-only.

Data di Cassandra didistribusikan di beberapa node master, tanpa satu titik kegagalan. Ini adalah proyek Apache tingkat tinggi, dan pengembangannya saat ini diawasi oleh Apache Software Foundation (ASF).

Cassandra adalah dirancang untuk memecahkan masalah yang terkait dengan operasi dalam skala besar (web).

Mengingat arsitektur master Cassandra, ia dapat terus beroperasi meskipun ada sejumlah kecil (tapi signifikan) kegagalan perangkat keras. Cassandra berjalan di banyak node di beberapa pusat data.

Replikasi data di pusat data ini untuk menghindari kegagalan atau waktu henti. Ini membuatnya menjadi sistem yang sangat toleran terhadap kesalahan.


tinggalkan Komentar Anda

Alamat email Anda tidak akan dipublikasikan. Bidang yang harus diisi ditandai dengan *

*

*

  1. Bertanggung jawab atas data: AB Internet Networks 2008 SL
  2. Tujuan data: Mengontrol SPAM, manajemen komentar.
  3. Legitimasi: Persetujuan Anda
  4. Komunikasi data: Data tidak akan dikomunikasikan kepada pihak ketiga kecuali dengan kewajiban hukum.
  5. Penyimpanan data: Basis data dihosting oleh Occentus Networks (UE)
  6. Hak: Anda dapat membatasi, memulihkan, dan menghapus informasi Anda kapan saja.

  1.   Sant Isido dijo

    Saya lebih tertarik mempelajari BigData, saat ini saya memiliki akun yang dihosting di ibm cloud, saya ingin langsung bekerja di sana dengan Apache Spark tetapi saya belum dapat terhubung dengan baik dengan tim saya, saya akan menghargai dukungan Anda