728x90
반응형
출처 : https://book.naver.com/bookdb/book_detail.nhn?bid=20885185
*해당 글은 학습을 목적으로 위의 도서 내용 중 일부 내용만을 요약하여 작성한 포스팅입니다.
상세한 내용 및 전체 내용 확인을 원하신다면 도서 구매를 추천드립니다.
데이터 분석
- 데이터 분석이란 데이터로부터 정보를 찾고 결과를 예측하기 위해 목적에 따라 분석기술과 방법론을 기반으로 정형, 비정형 대용량 데이터를 구축, 탐색, 분석하고 시각화를 수행하는 업무이다.
- 하지만 아직 데이터 분석을 수행하기 위한 분석적 방법과 성과에 대한 이해 부족으로 빅데이터를 활용하기 어려운 장애물로 남아있다.
데이터 분석의 지향점
- 전략적 통찰이 없는 데이터 분석을 배제한다.
- 일차원적인 데이터 분석을 지양한다.
- 전략 도출을 위한 가치 기반 데이터 분석을 지향한다.
- 데이터 분석은 규모가 아니라 어떤 시각과 통찰을 얻을 수 있는가의 문제이다.
- 그렇기에 전략과 비즈니스의 핵심 가치에 집중하고 관련된 분석 평가지표를 개발하여 시장과 고객 변화에 효과적으로 대응하는 것이 중요하다.
데이터 분석 기획
- 분석 기획은 실제 분석 수행에 앞서, 과제의 정의 및 결과 도출을 위한 관리 방안을 사전에 계획하는 작업이다.
- 어떠한 목표(What)를 달성하기 위해(Why) 어떤 데이터를 가지고 어떤 방식으로(How) 수행할 것인지 계획을 수립한다.
- 분석은 대상과 방법에 따라 아래와 같이 네 가지로 분류가 가능하다.
또한 목표 시점에 따른 분류도 가능하다.
단기적 접근 방식 (과제 중심적 접근) |
당면한 과제를 빠르게 해결한다. Quick-Win 방식으로 분석한다. |
중장기적 접근 방식 (마스터 플랜 접근) |
지속적인 분석 문화를 내제화한다. |
혼합 방식 (분석 기획 시 적합) |
마스터 플랜을 수립하고 장기적 관점에서 접근한다. |
분석 기획 시 필요 역량
- 분석 기획을 위한 기본적인 소양으로는 균형 잡힌 시각을 통한 분석의 방향성과 계획의 수립이 필수이다.
- 또한 프로젝트 관리 역량과 리더십도 요구된다.
분석 기획 시 고려사항
- 먼저 사용 가능한 데이터를 확인하고, 확보 가능 여부 등을 판단한다.
- 적합한 사례를 탐색하여 유사 분석 시나리오나 솔루션이 있다면 활용한다.
- 분석 수행 시 발생 가능한 요소 (기간, 투입 자원 증가, 비용 상승 등)을 고려한다.
분석 마스터 플랜과 로드맵 설정
분석 마스터 플랜
- 분석 과제의 목적이나 목표에 따른 전체적인 방향성을 제시하는 기본적인 계획이다.
- 분석 마스터 플랜 시 일반적인 정보전략계획 (ISP) 방법론을 사용할 수 있다. 다만 이 경우 데이터 분석 기획의 특성을 고려하며 수행해야 한다.
- 정보전략계획 (ISP) : 정보기술 및 시스템을 전략적으로 활용하기 위한 중장기 마스터 플랜을 수립하는 절차.
분석 과제 우선순위 평가 기준
- 데이터 분석 프로젝트의 우선순위 평가 기준 기업의 상황에 따라 달라질 수 있다.
- 빅데이터의 특징을 고려한 분석 ROI의 네 가지 요소는 아래와 같다.
ROI 요소 | 특징 | |
투자비용 요소 | 데이터 크기 (Volume) | 3V |
데이터 형태 (Variety) | ||
데이터 속도 (Velocity) | ||
비즈니스 효과 | 새로운 가치 (Value) | 4V |
분석 과제 우선순위 선정 및 조정
- 난이도와 시급성을 기준으로 위와 같이 분석 과제 유형을 분류하여 4분면에 배치한다.
- 어떤 경우에도 가장 우선적인 영역은 3사분면 영역이고, 가장 우선순위가 낮은 영역은 2사분면 영역이다.
- 또한 시급성, 난이도 중 어떤 기준을 사용하느냐에 따라 우선순위 순서는 달라진다.
- 시급성 우선 : III > IV > I > II
- 난이도 우선 : III > I > IV > II
- 시급성이 높고 난이도가 높은 제 1사분면은 의사결정을 통해 적용 우선순위를 조절할 수 있다.
*난 일시불로 사 : 난이도 1 시급성 4
분석 로드맵 설정
- 분석 로드맵은 마스터 플랜에서 정의한 목표를 기반으로 분석 과제를 수행하기 위해 필요한 기준 등을 담아 만든 종합적인 계획이다.
- 수립 절차는 아래의 표와 같다.
데이터 분석체계 도입 | 데이터 분석 유효성 검증 | 데이터 분석 확산 및 고도화 |
- 이후 순차형과 반복형을 혼합하여 반복적인 정련 과정을 통해 프로젝트의 완성도를 높여나간다.
분석 문제 정의
- 분석 문제를 정의하기 위해서는 과제정의서 형태로 분석 과제를 도출해야 한다.
- 대표적인 분석 과제 도출 방법으로는 하향식 접근 방식과 상향식 접근 방식이 있다.
- 하향식 접근 방식은 문제가 주어지면 해법을 찾기 위한 과정이 체계적으로 단계화되어 수행된다.
- 이 때 하향식 접근 방식의 문제 탐색 방법으로 비즈니스 모델 캔버스 방식이 사용된다.
- 비즈니스 모델 캔버스 방식은 규제/감사, 업무, 제품, 고객, 지원 인프라로 구성된다.
*야 고제규. 너 이거 업지?
- 하향식 접근 방식은 새로운 문제 탐색에는 어렵고, 복잡하고 다양한 환경에서 발생한 문제에도 부적합했다.
- 이를 해결하기 위해 상향식 접근 방식이 등장했다.
- 상향식 접근 방식은 디자인 사고 접근법으로, Why보다 What을 중요한 관점으로 여기며, 데이터를 기반으로 문제와 해결책을 탐색하고 개선한다.
- 추가로 혼합 방식도 사용되는데, 상향식 접근 방식의 발산과, 하향식 접근 방식의 수렴을 반복적으로 수행하며 상호 보완한다.
*하수가 상을 발로 찼다.
데이터 분석 방안
분석 방법론
- 데이터 분석 시 품질 확보를 위해 단계별로 수행해야 하는 활동, 작업, 산출물을 정의한다.
- 구성 요건으로는 상세한 절차, 방법, 도구와 기법, 템플릿과 산출물, 지식과 난이도가 있다.
- 생성 과정은 형식화, 체계화, 내재화로 나뉜다.
계층적 프로세스 모델 구성
- 분석 방법론은 일반적으로 계층적 프로세스 모델 형태로 구성 가능하며, 단계, 태스크, 스텝 3계층으로 구성된다.
- 단계는 최상위 계층으로 프로세스 그룹을 통해 완성된 단계별 산출물을 생성한다.
- 태스크는 중간 계층으로 단계를 구성하는 단위 활동이다. 품질 검토가 가능하다.
- 스텝은 WBS의 워크패키지이다. 입력자료, 처리 및 도구, 출력자료로 구성된 단위 프로세스이다.
- 또한 소프트웨어개발생명주기를 활용하여 구성할 수도 있다.
- 소프트웨어개발생명주기(SDLC)는 요구분석부터 폐기까지 전 과정을 가시적으로 표현한 것이다.
- 대표적인 예시로 폭포수 모형, 프로토타입 모형, 나선형 모형, 반복적 모형(증분형, 진화형)이 있다.
- KDD(Knowledge Discovery In Database)도 사용 가능하다.
- KDD는 통계적인 패턴이나 지식을 탐색하는데 활용하고자 체계적으로 정리한 프로파일링 기술 기반의 데이터 마이닝 프로세스이다.
- 데이터에서 패턴을 찾는 과정을 9개의 프로세스로 제시한다.
- 분석 절차는 데이터 셋 선택 > 전처리 > 변환 > 마이닝 > 평가 총 다섯 단계로 구성된다.
- CRISP-DM 분석 방법론은 계층적 프로세스 모델로 4계층으로 구성된 데이터 마이닝 프로세스이다.
- 비즈니스 요구사항에 맞게 데이터 마이닝을 반복적으로 수행할 수 있다.
- 계층은 최상위 레벨, 일반화 태스크, 세분화 태스크, 프로세스 실행 으로 나뉜다.
- 분석 절차는 업무 이해 > 데이터 이해 > 데이터 준비 > 모델링 > 평가 > 전개 순서로 진행된다.
- KDD 분석 방법론과 비교될 수 있는데, 이는 아래와 같다.
CRISP-DM | KDD |
업무 이해 | - |
데이터 이해 | 데이터 셋 선택 |
데이터 전처리 | |
데이터 준비 | 데이터 변환 |
모델링 | 데이터 마이닝 |
평가 | 데이터 마이닝 결과 평가 |
전개 | - |
- SEMMA (Sample, Explore, Modify, Model and Assess)는 SAS Institute의 주도로 만들어진 기술, 통계 중심의 마이닝 프로세스이다.
- 데이터 마이닝 도구와 손쉽게 접목하여 활용될 수 있고, 모델링 작업에 중점을 둔다.
- 절차는 추출 > 탐색 > 수정 > 모델링 > 평가 순서로 진행된다.
빅데이터 분석 방법론
- 빅데이터 분석 방법론은 응용 서비스 개발을 위한 3계층으로 구성된다. (단계, 태스크, 스텝)
- 그리고 단계는 아래와 같다.
데이터 분석 거버넌스
- 데이터 분석 업무를 하나의 기업 문화로 정착하고 지속적으로 고도화하기 위해 데이터 분석 거버넌스는 필요하다.
- 데이터 분석 거버넌스는 조직, 기획과 운영 프로세스, 지원 인프라, 데이터 거버넌스, 교육 및 마인드 육성 체계로 구성된다.
데이터 분석 수준진단
- 조직 경쟁력 강화를 위해 현 상태에 대한 명확한 점검이 필요하다.
- 분석 수준진단은 6개의 분석 준비도와 3개의 영역 분석 성숙도를 동시에 평가할 수 있다.
분석 준비도 | |||||
분석 업무 | 분석 인력, 조직 | 분석 기법 | 분석 데이터 | 분석 문화 | 분석 인프라 |
분석 성숙도 | |||||
비즈니스 | 조직 및 역량 | IT |
분석 성숙도 모델
- 분석 성숙도 모델은 데이터 분석 능력 및 데이터 분석 결과 활용에 대한 조직의 성숙도 수준을 평가하여 현재의 상태를 점검하는 방법이다.
- 비즈니스 부문, 조직 및 역량부문, IT 부문 총 3개 부문을 대상으로 실시한다.
- 성숙도 수준에 따라 도입, 활용, 확산, 최적화 단계로 진행되며, 위의 3개 부문에 각자 실시한다.
- 분석 수준진단 결과는 4분면 분석으로 나뉠 수 있다.
- 정착형 : 분석 업무를 제한적으로 사용해 1차적으로 정착이 필요
- 확산형 : 부분적으로 도입되어 지속적인 확산 필요
- 준비형 : 사전 준비가 필요
- 도입형 : 분석업무, 기법등은 부족하나 준비도가 높아 바로 도입 가능
1. 분석 기획 시 분석 주제와 방법에 따른 분류 유형으로 옳지 않은 것은?
1) Optimization은 분석주제와 방법을 모두 알고 있을 때 가능하다.
2) Insight는 분석 주제와 방법 모두 모르고 있더라도 가능하다.
3) Solution은 분석 주제는 알지만 방법은 알지 못한 경우에도 찾을 수 있다.
4) Discovery는 분석 주제와 방법 모두 모르고 있더라도 가능하다.
2
2. 분석 마스터 플랜 수립 시 ROI의 투자비용 요소로 적합하지 않은 것은?
1) 데이터 크기
2) 데이터 가치
3) 데이터 형태
4) 데이터 속도
2
3. 분석 ROI를 고려한 과제 우선순위 평가기준으로 난이도의 평가요소가 아닌 것은?
1) 데이터 획득 비용
2) 데이터 가공 비용
3) 분석 목표 가치 (KPI)
4) 분석 수준
3
4. 상향식 접근 방식에 대한 설명으로 옳은 것은?
1) 데이터를 기반으로 문제의 재정의 및 해결방안을 탐색한다.
2) 신상품 개발이나 전략 수립 등 중요한 의사결정이 필요할 때 사용한다.
3) 문제가 먼저 주어지고 이에 대한 해법을 찾아간다.
4) 동적인 환경에서 발산과 수렴을 반복적으로 수행한다.
1
5. 계층적 프로세스 모델은 ( ), ( ), ( ) 총 세 가지로 구성된다.
단계, 태스크, 스텝
6. SEMMA 분석 방법론은 다음의 절차로 이루어진다.
( ) > 탐색 > 수정 > ( ) > 평가
추출, 모델링
728x90
반응형
'자격증 > 빅데이터 분석기사' 카테고리의 다른 글
1-3. 데이터 수집 및 저장 계획_데이터 적재 및 저장 (0) | 2022.03.17 |
---|---|
1-3. 데이터 수집 및 저장 계획_데이터 수집 및 전환 (0) | 2022.03.16 |
1-2. 데이터 분석 계획_분석 작업 계획 (0) | 2022.03.13 |
1-1. 빅데이터의 이해_빅데이터 기술 및 제도 (0) | 2022.03.12 |
1-1. 빅데이터의 이해_빅데이터 개요 및 활용 (0) | 2022.02.28 |