빅 데이터를위한 4 가지 오픈 소스 플랫폼

빅 데이터

빅 데이터는 대규모 데이터의 수집을 설명하는 데 사용되는 용어입니다. 시간이 지남에 따라 기하 급수적으로 증가합니다.

데이터가 너무 큽니다 기존 데이터 관리 도구보다 복잡합니다. 효율적으로 저장하거나 처리 할 수 ​​있습니다.

하지만 우리는 모두가 고정 된 형식으로 저장, 액세스 및 처리 할 수있는 데이터를 '구조화 된'데이터라고합니다.

대규모로 관리되고 어느 솔루션을 구현해야합니다. 단시간에 대량의 데이터를 처리, 저장 및 분석 할 수있는

대규모로 취급되는 수치를 보면 '빅 데이터'라는 이름이 붙은 이유를 쉽게 이해할 수 있습니다. 저장 및 처리의 어려움을 상상해보십시오.

그래서 오늘 우리는 데이터 분석 플랫폼을 만드는 데 사용할 수있는 몇 가지 인기있는 오픈 소스 도구에 대해 알아 보려고합니다.

아파치 하둡

하둡-아파 체

Apache Hadoop은 분산 환경에서 매우 큰 데이터 세트를 처리하는 오픈 소스 소프트웨어 플랫폼입니다.

이 도구 스토리지, 계산 능력 및 주로 저렴한 기본 하드웨어에서.

Apache Hadoop은 몇 대에서 수천 대의 서버로 쉽게 확장 할 수 있도록 설계되었습니다.

일반 병렬 처리 구성에서 로컬로 저장된 데이터를 처리하는 데 도움이됩니다.

Hadoop의 장점 중 하나는 소프트웨어 수준에서 장애를 처리한다는 것입니다. Apache Hadoop은 파일 시스템 계층, 클러스터 관리 계층 및 처리 계층에 대한 프레임 워크를 제공합니다.

다른 프로젝트와 프레임 워크가 Hadoop 에코 시스템과 함께 작업하고 시스템에서 사용 가능한 모든 계층에 대한 자체 프레임 워크를 개발할 수있는 옵션이 남습니다.

탄성 검색

탄성 검색

Elasticsearch는 전체 텍스트 기반 검색 및 분석 엔진. 시스템입니다 확장 성이 뛰어나고 분산되어 있으며 특별히 고안된 빅 데이터 시스템으로 효율적이고 빠르게 작업, 여기서 주요 사용 사례 중 하나는 로그 분석입니다.

고급 분석 및 운영 인텔리전스를 위해 고급 및 복잡한 검색과 거의 실시간 처리가 가능합니다.

탄성 검색 Java로 작성되었으며 Apache Lucene을 기반으로합니다., Elasticsearch는 스키마가없는 구조의 JSON 문서를 기반으로하므로 채택이 쉽고 쉽습니다.

최고의 비즈니스 등급 검색 엔진 중 하나입니다. 모든 프로그래밍 언어로 클라이언트를 작성할 수 있습니다. Elasticsearch는 공식적으로 Java, .NET, PHP, Python, Perl 등에서 작동합니다.

MongoDB의

MongoDB의

MongoDB는 문서 데이터 모델을 기반으로하는 NoSQL 데이터베이스. MongoDB에서는 모든 것이 컬렉션 또는 문서입니다.

MongoDB 용어를 이해하기 위해 collection은 테이블의 대체 단어이고 document는 행의 대체 단어입니다.

MongoDB의 오픈 소스, 문서 지향, 크로스 플랫폼 데이터베이스입니다. 주로 C ++로 작성되었습니다.

또한 고성능, 고 가용성 및 쉬운 확장 성을 제공하는 선도적 인 NoSQL 데이터베이스입니다.

MongoDB의 스키마와 함께 JSON과 유사한 문서를 사용하고 훌륭한 쿼리 지원을 제공합니다.. 주요 기능 중 일부에는 인덱싱, 복제,로드 밸런싱, 집계 및 파일 스토리지가 포함됩니다.

카산드 라

카산드라는 NoSQL 데이터베이스 관리를 위해 설계된 오픈 소스 Apache 프로젝트입니다.

Cassandra의 행은 테이블로 구성되고 키로 인덱싱됩니다. 추가 전용, 레코드 기반 스토리지 엔진을 사용합니다.

Cassandra의 데이터는 여러 마스터 노드에 분산됩니다., 단일 장애 지점없이. 이는 고수준 Apache 프로젝트이며 현재 ASF (Apache Software Foundation)에서 개발을 감독합니다.

카산드라는 대규모 (웹) 작업과 관련된 문제를 해결하도록 설계되었습니다.

Cassandra의 마스터 아키텍처를 고려할 때 적은 수의 (그러나 상당한) 하드웨어 오류에도 불구하고 계속 작동 할 수 있습니다. Cassandra는 여러 데이터 센터의 여러 노드에서 실행됩니다.

이러한 데이터 센터에서 데이터를 복제하여 장애 나 다운 타임을 방지하십시오. 따라서 내결함성이 높은 시스템이됩니다.


코멘트를 남겨주세요

귀하의 이메일 주소는 공개되지 않습니다. 필수 필드가 표시되어 있습니다 *

*

*

  1. 데이터 책임자: AB Internet Networks 2008 SL
  2. 데이터의 목적 : 스팸 제어, 댓글 관리.
  3. 합법성 : 귀하의 동의
  4. 데이터 전달 : 법적 의무에 의한 경우를 제외하고 데이터는 제 XNUMX 자에게 전달되지 않습니다.
  5. 데이터 저장소 : Occentus Networks (EU)에서 호스팅하는 데이터베이스
  6. 권리 : 귀하는 언제든지 귀하의 정보를 제한, 복구 및 삭제할 수 있습니다.

  1.   산트이 시드

    BigData에 대해 더 배우고 싶습니다. 현재 ibm 클라우드에 호스팅 된 계정이 있습니다. Apache Spark와 함께 작업하고 싶지만 팀과 잘 연결하지 못했습니다. 지원해 주셔서 감사합니다.