본문 바로가기
자격증/빅데이터 분석기사

4_2. 분석결과 해석 및 적용_분석결과 해석

by 이민우 2022. 3. 20.
728x90
반응형

출처 : https://book.naver.com/bookdb/book_detail.nhn?bid=20885185 

 

이기적 빅데이터분석기사 필기 기본서

본 도서는 최신 출제기준을 적용한 도서로, 빅데이터분석기사 필기 시험의 출제 경향을 철저히 분석하여 수험생들이 혼자서도 학습할 수 있도록 한 완벽 대비서입니다. 시행처에서 공개한 출제

book.naver.com

*해당 글은 학습을 목적으로 위의 도서 내용 중 일부 내용만을 요약하여 작성한 포스팅입니다.

 상세한 내용 및 전체 내용 확인을 원하신다면 도서 구매를 추천드립니다.


 

분석모형 해석

  • 분석 후 적합한 모형을 도출하는 데 지표가 사용되며 각 모델별 평가되는 해석 지표들이 다른다.
  • 회귀모델의 경우 잔차와 결정계수를 사용할 수 있다.
  • 잔차는 회귀모형으로 실제 값과 예측 값의 차이를 의미하며, 패턴이나 추세가 존재하지 않는다.
  • 결정계수는 추정된 회귀식이 변동을 얼마나 잘 설명했는가에 대한 지표로, 값이 1에 가까울수록 실제 관측값이 회귀선상에 정확히 일치함을 의미한다.
  • 잔차의 경우 MAE, MSE, MAPE, RMSE, RMSLE 등을 사용할 수 있다.
  • 결정계수의 결루 R^2, 수정된 R^2를 사용할 수 있다.

 

  • 분류모델의 경우 각 경우에 따라 클래스 별로 속할 확률의 정확도를 살펴본다.

  • 정확도예측값이 실제값과 동일한 비율이다.
  • 정밀도 True로 분류한 것 중 실제로도 True인 비율이다.
  • 재현율 실제값이 True인 것 중 True로 예측된 비율이다.
  • F1-Score정밀도와 재현도의 조화평균이다.
  • ROC도 FPR의 변화에 따른 TPR의 변화를 보여준다.

 

  • 군집분석 모델은 통계량을 요약하고 관측치의 공통점과 변동성을 확인한다.
  • 연속형 변수의 경우 평균 또는 중앙값을 계산하고 범주형 변수가 있는 경우 범주별로 각 군집의 분포를 사용한다.

 

  • 연관분석 모델은 두 개 이상의 품목들 사이의 상호 관련성으로 해석한다.
  • 지지도, 신뢰도, 향상도가 높은 규칙들을 찾되 최소 기준점을 적용해 빈발집합을 고려하여 연관규칙을 생성하는 Apriori 알고리즘을 사용한다.
  • 지지도전체 거래에서 품목 a, b가 포함된 거래의 수이다.
  • 신뢰도a가 구매되었을 때 b가 함께 구매될 확률이다.
  • 향상도a를 구매할 때 b도 추가로 구매하는 지의 연관성을 파악하는 비율이다.

 

  • 데이터 분석은 비즈니스에 도입하여 활용함으로써 의사결정, 운영 프로세스의 효율화, 개선을 도출하게 된다.
  • 그래서 이에 대한 기여도 평가도 필요하다.

 

  • 분석 결과의 기여도 평가는 ROI 또는 업무 효율성 향상에 대한 비율로 측정한다.
  • ROI 투자수익률로, 투자한 자본에 대한 수익/손실 비율이다.
  • (이익 - 소모한 비용) / 소한 비용 * 100 으로 측정한다.
  • 업무효율성 향상에 대한 비율은 업무효율성 향상 항목의 측정지표 기준 수립을 통해 산정된다.

 

 

분석 모델별 시각화

  • 회귀모델은 변수 간 관계 분석을 위해 히트맵과 산점도를 활용한다.

 

  • 분류모델은 다양한 방법으로 시각화가 가능하다.
  • SVM(서포트벡터머신)으로 산점도와 구분선을 통한 비교시각화 기법을 사용할 수 있다.
  • KNN은 비교시각화의 평행좌표계로써 변수들간의 연관성 및 그룹데이터의 경향성을 파악한다.
  • 의사결정나무를 통해 트리 다이어그램으로 시각화할 수도 있다.

 

  • 딥러닝 모델은 모델 아키텍처에서 파라미터, 가중치 시각화, 특징 차원감소를 통해 시각화가 가능하다.
  • Node-link Diagrams for Network Architectures : 뉴런과 연결 가중치를 표현하는 노드로 시각화한다.
  • Dimensional Reduction & Scatter Plots (산포도) : t-SNE 또는 PCA를 이용해 차원을 축소하여 2차원으로 표현한다.
  • Line Charts for Temporal Metrics : 진행상황에 따른 결과를 선도표로 나타낸다.
  • Instance-based Analysus & Exploration : 객체 그룹을 분석하고 분류 정확도를 확인한다.

 

  • 군집분석모델은 그룹클러스터별 단위로 산점도를 작성해 시각화한다.

 

  • 연관분석모델은 각 연관규칙별로 연관성 있는 항목들을 묶어 네트워크 그래프를 그려 시각화한다.

 


 

1. 빅데이터 분석의 주요 목적과 거리가 먼 항목은?

1) 제품 및 절차 효율성
2) 고객 인사이트
3) 위기 관리시스템
4) 서비스 가이드라인 제정

4

 

2. 딥러닝 모델에 대한 시각화 방법이 아닌 것은?

1) 산포도
2) 차원축소
3) 노드-링크 다이어그램
4) 산점도

4

 

3. 다수의 객체를 군집으로 나누어 그룹 클러스터별 단위로 분석하는 군집분석에서 적용되는 시각화 기법은?

1) 히트맵
2) 막대그래프
3) 다이어그램
4) 산점도

4

728x90
반응형