본문 바로가기

IT 지식/빅데이터 & 분석17

[빅데이터] 하이브 데이터 웨어하우스는 의사결정 지원에 효과적으로 사용될 수 있도록 다양한 시스템에서 추출, 변환, 통합, 요약된 읽기 전용의 데이터베이스이다. 그리고 하이브는 하둡에서의 데이터 웨어하우스로 볼 수 있다. 하이브는 HDFS와 연계되어 작동하는데, 작동 순서는 다음과 같다. HDFS에 테이블 생성 HDFS에 테이블 저장 메타스토어에 테이블 정보 저장 테이블에 데이터 로드 HiveQL 실행 MapReduce 형태로 변환되어 실행 결과 반환 *HiveQL : Hive에서 사용되는 SQL로, 사용법은 일반 RDBMS의 SQL과 유사. 하이브를 구성하는 아키텍처는 다음과 같다. User Interface : 사용자에 HDFS를 사용하기 위한 인터페이스 제공 (Web UI, CLI) Meta Store : DB의 메타.. 2021. 7. 29.
[빅데이터] 하둡2와 얀(YARN) 기존의 하둡에서는 에코 시스템에 대한 적절한 리소스 관리 방안이 없었다. 또한 SPOF(Single point of failure, 단일 고장점) 라는, 시스템의 구성 요소 중 고장나서는 안되는 요소가 고장나는 일이 발생했다. 하둡에서는 네임노드가 SPOF에 해당되는데, 이 문제의 극복을 위해 네임노드의 이중화가 필요해졌다. 또한 데이터노드 블록들의 단일 네임스페이스 문제도 발생했다. 이러한 여러 문제점을 개선하기 위해 하둡2와 YARN이 등장했다. 하둡2의 특징은 다음과 같다. 1) YARN을 포함 2) 네임노드의 고가용성 3) HDFS 페더레이션, 스냅샷 지원 4) NFSv3 파일 시스템 지원 5) 성능 개선 이 중 가장 눈여겨 볼 만한 점은 바로 YARN이다. YARN은 (Yet Another Re.. 2021. 7. 29.
[빅데이터] 맵리듀스 맵리듀스 (MapReduce) 맵리듀스는 구글에서 대용량 데이터 처리를 분산 병렬 컴퓨팅에서 처리하기 위한 목적으로 개발한 프레임워크이다. 성능이 낮은 컴퓨터로 구성된 클러스터 환경에서 병렬 처리를 지원하기 위해 개발되었다. HDFS가 하둡의 저장소를 담당했다면, 맵리듀스는 하둡에서 연산을 담당한다. 정렬된 데이터를 한 줄씩 읽어 데이터를 변형하는 Map 단계와, 그 결과를 집계하는 Reduce 단계로 구성된다. 맵리듀스를 사용하면 대규모 분산 컴퓨팅 환경에서 대량의 데이터를 병렬 처리할 수 있다. 맵리듀스 예시 - WordCount 다음의 텍스트가 있다고 해보자. I am a boy You are a girl We love each other 맵 단계에서는 데이터를 한 줄, 즉 레코드 단위로 입력을 받.. 2021. 7. 29.
[빅데이터] Hadoop Distributed File Syste (HDFS) HDFS (Hadoop Distributed File System) HDFS는 하둡의 파일 시스템으로, 대용량 파일을 분산된 서버에 저장하고 그 데이터를 빠르게 처리할 수 있도록 만들어진 파일 시스템이다. 하둡의 특성 상 여러 컴퓨터를 병렬적으로 연결하여 데이터를 저장하는데, 이를 위해 만들어진 파일 시스템으로 볼 수 있다. 즉 기존의 DAS, NAS, SAN 등의 대용량 파일 시스템이 하나의 컴퓨터에 파일들을 저장했다면, HDFS는 여러개의 컴퓨터를 이용해 스토리지를 구성하게 된다. HDFS의 특징 1) 블록 구조의 파일 시스템 HDFS는 대용량인 하나의 파일을 특정 크기의 블록으로 나누어 분산된 서버에 저장한다. 블록은 기본적으로 64MB, 하둡2에서는 128MB의 크기를 가진다. 물론 이러한 설정은.. 2021. 7. 29.
[빅데이터] 빅데이터와 하둡 입사 후 첫 프로젝트로 빅데이터 플랫폼 구축 프로젝트에 참가되었다. 빅데이터는 그저 큰 데이터일 뿐이고, 이에 대한 플랫폼은 그저 하둡과, 연관된 오픈 소스 프로그램들만 깔면 된다고 생각했다. 하지만 생각보다 빅데이터의 세계는 심오했고, 무지한 상태에서 무언가를 하려니 잘 되지 않았다. 그래서 프로젝트에 도움이 되기 위해 빅데이터를 공부하고자 한다. 빅데이터란? SNS와 사물 인터넷 등의 기술 발달로 인해 인류는 이전과 달리 엄청난 양의 데이터를 생성하기 시작했다. 이렇게 증가한 데이터양은 기존의 데이터베이스 관리도구로 수용하지 못할 정도로 큰 양을 갖게 되었다. 빅데이터의 개념은 여기서 등장했다. 기존의 데이터베이스로 처리할 수 없을 정도로 방대한 양의 데이터를 바로 빅데이터라 한다. 빅데이터의 3V .. 2021. 7. 29.