4 atvērtā pirmkoda platformas lieliem datiem

Lielie dati

Lielie dati ir termins, ko lieto, lai aprakstītu lielu datu vākšanu un tas laika gaitā pieaug eksponenciāli.

Dati ir tik lieli un sarežģīts nekā jebkurš no tradicionālajiem datu pārvaldības rīkiem tos var efektīvi uzglabāt vai apstrādāt.

Bet mums tas jāsaprot visiem datus, kurus var saglabāt, piekļūt un apstrādāt fiksētā formātā, sauc par “strukturētiem” datiem.

Ka tiek pārvaldīti lielos apjomos, kurā jāievieš risinājumi kas īsā laikā spēj apstrādāt, uzglabāt un analizēt lielu datu apjomu

Aplūkojot skaitļus, kas tiek apstrādāti plašā mērogā, var viegli saprast, kāpēc tiek dots nosaukums “Big Data” un iedomājieties uzglabāšanas un apstrādes problēmas.

Tāpēc šodien mēs uzzināsim par dažiem populāriem atvērtā koda rīkiem, kurus var izmantot, lai izveidotu datu analīzes platformu.

Apache Hadoop

hadoop apache

Apache Hadoop ir atvērtā pirmkoda programmatūras platforma, kas izplata vidē apstrādā ļoti lielas datu kopas.

Šis rīks balstās uz uzglabāšanu, skaitļošanas jaudu un galvenokārt zemu izmaksu pamata aparatūrā.

Apache Hadoop ir paredzēts viegli mērogot no dažiem līdz tūkstošiem serveru.

Tas palīdz apstrādāt lokāli saglabātos datus vispārējā paralēlās apstrādes konfigurācijā.

Viena no Hadoop priekšrocībām ir tā, ka tā rīkojas ar kļūmēm programmatūras līmenī. Apache Hadoop nodrošina sistēmu failu sistēmas slānim, kopu pārvaldības slānim un apstrādes slānim.

Tas atstāj iespēju citiem projektiem un ietvariem ienākt un strādāt kopā ar Hadoop ekosistēmu un izstrādāt savu sistēmu jebkuram no sistēmā pieejamiem slāņiem.

Elastikas meklēšana

Elastikas meklēšana

Elasticsearch ir pilnteksta meklēšanas un analīzes dzinējs. Tā ir sistēma ļoti mērogojams un izplatīts, īpaši izstrādātas efektīvi un ātri strādāt ar lielo datu sistēmām, kur viens no galvenajiem lietošanas gadījumiem ir žurnāla analīze.

Tas spēj veikt sarežģītus un sarežģītus meklējumus un gandrīz reāllaika apstrādi uzlabotas analīzes un operatīvās informācijas iegūšanai.

Elastikas meklēšana ir rakstīts Java valodā un ir balstīts uz Apache Lucene, Elasticsearch ir balstīts uz JSON dokumentu ar bez shēmas struktūru, padarot to viegli un viegli pieņemamu.

Tā ir viena no vadošajām biznesa klases meklētājprogrammām. Jūs varat rakstīt savu klientu jebkurā programmēšanas valodā; Elasticsearch oficiāli darbojas ar Java, .NET, PHP, Python, Perl utt.

MongoDB

MongoDB

MongoDB ir NoSQL datu bāze, kuras pamatā ir dokumenta datu modelis. MongoDB viss ir kolekcija vai dokuments.

Lai saprastu MongoDB terminoloģiju, kolekcija ir aizstājējs vārds tabulai, bet dokuments ir alternatīvs vārds rindām.

MongoDB ir atvērta pirmkoda, uz dokumentiem orientēta, starpplatformu datu bāze. Tas ir rakstīts galvenokārt C ++.

Tā ir arī vadošā NoSQL datu bāze, kas piedāvā augstu veiktspēju, augstu pieejamību un ērtu mērogojamību.

MongoDB izmanto JSON līdzīgus dokumentus ar shēmu un nodrošina lielisku vaicājumu atbalstu. Dažas no tās galvenajām funkcijām ietver indeksēšanu, replikāciju, slodzes līdzsvarošanu, apkopošanu un failu glabāšanu.

Cassandra

Kasandra ir atvērtā koda Apache projekts, kas paredzēts NoSQL datu bāzes administrēšanai.

Kasandras rindas ir sakārtotas tabulās un indeksētas ar atslēgu. Tas izmanto tikai pievienotu, uz ierakstiem balstītu krātuves motoru.

Kasandras dati tiek sadalīti vairākos galvenajos mezglos, bez viena neveiksmes punkta. Tas ir augsta līmeņa Apache projekts, un tā izstrādi šobrīd uzrauga Apache programmatūras fonds (ASF).

Kasandra ir paredzēti, lai atrisinātu problēmas, kas saistītas ar darbību lielā apjomā (tīmeklī).

Ņemot vērā Kasandras galveno arhitektūru, tā var turpināt darboties, neskatoties uz nelielu (bet ievērojamu) aparatūras kļūmju skaitu. Kasandra darbojas uz vairākiem mezgliem vairākos datu centros.

Lai izvairītos no kļūmēm vai dīkstāves, šajos datu centros atkārtojiet datus. Tas padara to par ļoti izturīgu pret kļūdām.


Atstājiet savu komentāru

Jūsu e-pasta adrese netiks publicēta. Obligātie lauki ir atzīmēti ar *

*

*

  1. Atbildīgais par datiem: AB Internet Networks 2008 SL
  2. Datu mērķis: SPAM kontrole, komentāru pārvaldība.
  3. Legitimācija: jūsu piekrišana
  4. Datu paziņošana: Dati netiks paziņoti trešām personām, izņemot juridiskus pienākumus.
  5. Datu glabāšana: datu bāze, ko mitina Occentus Networks (ES)
  6. Tiesības: jebkurā laikā varat ierobežot, atjaunot un dzēst savu informāciju.

  1.   Sant Isids teica

    Mani vairāk interesē uzzināt par BigData. Pašlaik man ir konts, kas mitināts ibm mākonī. Es vēlētos tur strādāt ar Apache Spark, bet man nav izdevies izveidot labu saiti ar savu komandu, es pateicos par jūsu atbalstu