본문 바로가기
IT 지식/빅데이터 & 분석

[빅데이터] 빅데이터와 하둡

by 이민우 2021. 7. 29.
728x90
반응형

입사 후 첫 프로젝트로 빅데이터 플랫폼 구축 프로젝트에 참가되었다.

빅데이터는 그저 큰 데이터일 뿐이고, 이에 대한 플랫폼은 그저 하둡과, 연관된 오픈 소스 프로그램들만 깔면 된다고 생각했다.

하지만 생각보다 빅데이터의 세계는 심오했고, 무지한 상태에서 무언가를 하려니 잘 되지 않았다.

그래서 프로젝트에 도움이 되기 위해 빅데이터를 공부하고자 한다.

 

 

빅데이터란?

SNS와 사물 인터넷 등의 기술 발달로 인해 인류는 이전과 달리 엄청난 양의 데이터를 생성하기 시작했다.

 

이렇게 증가한 데이터양은 기존의 데이터베이스 관리도구로 수용하지 못할 정도로 큰 양을 갖게 되었다.

 

빅데이터의 개념은 여기서 등장했다. 기존의 데이터베이스로 처리할 수 없을 정도로 방대한 양의 데이터를 바로 빅데이터라 한다.

 

빅데이터의 3V

빅데이터의 요소로는 NV가 있다. 3V부터 7V 까지 다양하게 보았는데, 일단 3V가 가장 대중적인 것 같다.

3V는 크기 (Volumn), 속도 (Velocity), 다양성 (Variety)를 뜻한다.

 

크기는 당연히 데이터의 양이 크게 증가했음을 의미한다.

속도는 데이터가 생성부터 저장, 시각화까지의 과정이 얼마나 빠르게 처리되어야 함을 의미한다.

다양성은 기존의 정형, 반정형, 비정형 데이터를 모두 포함하고 있음을 의미한다.

 

 

하둡 (Hadoop)

 

하둡은 빅데이터의 처리를 위한 자바 기반의 오픈소스 프레임워크로,

야후의 더그 커팅이 '넛치' 라는 검색 엔진을 개발하는 과정에서 대용량의 비정형 데이터를 철이하기 위해 구글의 GFS와 MapReduce 관련 논문을 참고하여 개발한 기술이다.

 

기존에는 데이터 처리를 하나의 고사양 컴퓨터에서 수행했다.

하지만 하둡은 빅데이터의 처리를 위해 하나의 컴퓨터가 아닌, 여러 컴퓨터를 사용하는 방식을 채택했다.

상세하게 말하자면 여러 대의 컴퓨터를 클러스터화 시켜 병렬로 연결하고, 이를 토대로 동시 처리 속도를 높이는 기술을 채택했다고 볼 수 있다.

 

하둡의 장점으로는 시스템을 중단하지 않고도 장비 추가가 가능하다. 병렬적으로 컴퓨터들을 이어놓았으니 당연한 일이다. 그리고 이러한 특징으로 인해 일부 장비에 장애가 발성하더라도 전체 시스템에 큰 영향을 끼치지 않는다.

 

하지만 동시에 HDFS에 저장된 데이터를 변경할 수 없고, 실시간 데이터 처리에는 적합하지 못하며, 설정이 어렵다는 단점이 있다.

 

 

하둡의 에코 시스템

하둡은 여러 가지의 에코 시스템으로 이루어져 있다. 대표적인 4개의 에코 시스템은 다음과 같다.

 

1) Hadoop Common : 하둡의 다른 모듈을 지원하기 위한 공통 컴포넌트 모듈

2) Hadoop HDFS : 분산저장을 처리하기 위한 모듈. 여러 서버를 하나처럼 묶어 저장한다.

3) Hadoop Yarn : 병렬처리를 위한 클러스터 자원관리 및 스케줄러

4) Hadoop MapReduce : 분산되어 저장된 데이터를 병렬 처리할 수 있게 해주는 분산처리 모듈

 

728x90
반응형