본문 바로가기
자격증/빅데이터 분석기사

4_1. 빅데이터 결과 해석_분석모형 평가 및 개선

by 이민우 2022. 3. 20.
728x90
반응형

출처 : https://book.naver.com/bookdb/book_detail.nhn?bid=20885185 

 

이기적 빅데이터분석기사 필기 기본서

본 도서는 최신 출제기준을 적용한 도서로, 빅데이터분석기사 필기 시험의 출제 경향을 철저히 분석하여 수험생들이 혼자서도 학습할 수 있도록 한 완벽 대비서입니다. 시행처에서 공개한 출제

book.naver.com

*해당 글은 학습을 목적으로 위의 도서 내용 중 일부 내용만을 요약하여 작성한 포스팅입니다.

 상세한 내용 및 전체 내용 확인을 원하신다면 도서 구매를 추천드립니다.


평가 지표

  • 분석모형의 답과 실제 답 사이의 관계는 오차행렬을 통해 평가한다.

  • 오차행렬훈련을 통한 예측 성능을 측정하기 위해 예측 값과 실제 값을 비교하기 위한 표이다.
  • 정확도는 실제 데이터와 예측 데이터를 비교하여 같은지 판단한다.
  • 정밀도는 긍정으로 예측한 데이터를 비교해 같은지 판단한다.
  • 재현율은 실제 긍정인 대상 중 실제와 예측 값이 일치하는 비율이다.
  • F1 Score은 정밀도와 재현율을 결합한 조화평균 지표로 값이 클수록 모형이 정확하다.

 

  • ROC 곡선FPR(False Positive Rate)이 변할 때 민감도인 TPR (True Positive Rate)이 어떻게 변화하는지 나타낸 곡선이다.
  • 임계값은 0~1 범주 이내 값으로 조정하며 FPR에 따른 TPR을 계산하며 곡선을 그린다.
  • TPR 값과 FPR 값이 0.5인 기본 모델 위에 ROC가 위치할 경우 성능이 기본 모델보다 나음을 뜻한다.

  • AUC는 평가모델의 ROC 곡선의 하단 면적으로, 랜덤일 때 0.5 값이고 직선에서 멀어질수록 성능이 뛰어난 것으로 해석한다.

 

  • 회귀모델 평가의 지표는 실제값과 회귀 예측값의 차이를 기반으로 성능지표를 수립하고 활용한다.
  • SSE는 실제값과 예측차의 차이를 제곱하며 더한다.
  • MSE실제값과 예측값의 차이의 제곱에 대한 평균을 취한 것으로, 평균제곱오차 라고 한다.
  • RMSEMSE에 루트를 취한 값으로, 평균제곱근오차 라고 한다.
  • MAE실제값과 예측값의 차이의 절대값을 합한 평균값이다.
  • 결정계수 R^2는 회귀모형이 실제값에 대해 얼마나 잘 적합하는 지에 대한 비율이다.
  • 수정된 결정계수는 다변량 회귀분석에서 독립변수가 많아질수록 결정계수가 높아지는 것을 보완한 결정계수이다.
  • 표분크기와 독립변수의 개수를 추가적으로 고려하여 분모에 위치시켜 결정계수 값의 증가도를 보정한다.
  • MSPEMSE를 퍼센트로 변환한 값이다.
  • MAPEMAE를 퍼센트로 변환한 값이다.
  • RMSLE는 RMSE에 로그를 취한 값으로 이상치에 덜 민감하다.
  • AIC는 최대 우도에 독립변수의 개수에 대한 손실분을 반영하는 것을 목적으로 모형과 데이터의 확률 분포 차이를 측정한다.
  • AIC 값은 낮을수록 모형의 적합도가 높다.
  • BIC는 AIC와 동일한 목적을 지니나 주어진 데이터에서 모형의 우도를 측정하기 위한 값에서 유도된 지표로 변수 개수가 많을수록 AIC보다 더 패널티를 가한다.

 

  • 비지도학습은 지도학습과 달리 실측자료에 라벨링이 없어 성능평가가 어렵다.
  • 그래서 군집분석에 한해 다음의 성능 평가 지표를 사용한다.
  • 실루엣 계수a(i)는 i번째 개체와 같은 군집에 속한 요소들 간의 평균이며, b(i)는 개체가 속한 군집과 가장 가까운 이웃 군집을 선택 계산한 값이다.
  • a(i)가 0이면 하나의 군집에서 모든 개체들이 붙어있는 경우로, 실루엣 지표가 0.5보다 크면 적절한 군집 모델로 볼 수 있다.
  • Dunn Index는 군집간 거리의 최소값을 분자, 군집 내 요소 간 거리의 최대값을 분모로 하는 지표이다.
  • 군집간 거리는 멀고, 군집내 분산은 작을수록 좋기에 Dunn Index는 클수록 좋다.

 

 

분석모형 진단

  • 정규성 가정이란 통계적 검정, 회귀분석 등 분석을 진행하기 전에 데이터가 정규분포를 따르는지 검정하는 것이다.
  • 즉 데이터 자체의 정규성을 확인한다.
  • 중심극한정리는 동일한 확률분포를 가진 독립 확률 변수 n개의 평균의 분포는 n이 적당히 크다면 정규분포에 가까워진다는 이론이다.
  • 정규성 검정 종류는 샤피로-월크 검정, 콜모고르프 스미르노프 검정, Q-Q- 플롯이 있다.
  • 샤피로-윌크 검정은 표본수가 2,000개 미만일 때, 콜모고르프 스미르노프 검정2,000개 초과일 때 적합하다.
  • Q-Q 플롯은 데이터 셋이 정규분포를 따르는지 판단하는 시각적 분석 방법으로, 표본수가 소규모일 경우 적합하다.

 

  • 잔차 진단실제값과 예측값의 차이인 잔차를 가장 작게 해주는 선으로 잔차의 합은 0이며 잔차는 추세나 특정 패턴을 가지고 있지 않다.
  • 잔차의 정규성은 Q-Q Plot 같은 시각화 도표를 사용해 진단할 수 있다.

 

 

K-폴드 교차검증

  • 고정된 훈련 데이터 셋으로 반복하여 수행하는 학습은 과적합이 될 수 있다.
  • k-폴드 교차검증은 전체 데이터 셋을 k개의 서브셋으로 분리하고, 그 중 k-1개를 훈련데이터로, 나머지 1개를 테스트 데이터로 사용한다.
  • 테스트 셋을 중복없이 병행한 후 평균을 내어 최종적 모델의 성능을 평가한다.
  • 이러한 방법은 과적합의 방지에는 좋지만, 평가와 검증시간이 오래걸릴 수 있다.
  • 또한 종류로는 홀드아웃 기법, 리브-윈,아웃 교차검증, 계층별 k-겹 교차검증 등이 있다.

 

  • 홀드아웃 기법은 일반적으로 훈련데이터와 테스트데이터, 검증 데이터를 일정 비율로 지정한 뒤 먼저 훈련데이터로 학습한 후 훈련 데이터 내에서 일정 부문검증 데이터를 두어 학습과정에서 모델 성능을 높이는 검증을 진행하며 최종적으로 테스트데이터를 통해 성능을 평가한다.
  • 데이터 셋 크기가 작을수록 데이터를 나누는 방식에 따라 모델 성능 추정에 영향을 미칠 수 있다.

 

 

적합도 검정

  • 적합도 검정은 데이터가 가정된 확률에 적합하게 따르는지를 판단한다.
  • 즉 데이터 분포가 특정 분포함수와 얼마나 맞는지 검정한다.
  • 카이제곱 검정은 기대값과 관측값을 이용한 방법으로 k개의 범주별로 나누어진 관측치들과, 이와 동일한 범주의 가정된 분포 사이의 적합도를 검정하여 범주형 값 k가 나와야 할 횟수의 기댓값과 실제 나온 횟수의 차이를 이용하여 검정통계량을 구한다.
  • 콜모고르프 스미르노프 검정은 관측된 표본분포와 가정된 분포사이의 적합도를 검사하는 누적분포함수의 차이를 이용한 검정법으로, 연속형 데이터에도 적용할 수 있다.

 

 

분석모형 개선

과대적합 방지

  • 과대적합이란 훈련 시에는 높은 성능을 보이지만 테스트 데이터에 대해서는 낮은 성능을 보이는 것이다.
  • 이를 방지하고 일반화된 모델의 생성을 위해 다음의 방법이 있다.

 

  • 첫째는 정규화, 드롭아웃 등을 통해 모델의 복잡도를 낮추는 것이다.
  • 둘째는 가중치 감소로, L1 규제, L2 규제가 있다.
  • L2 규제(릿지 모델)는 손실함수 가중치에 대한 L2 노름의 제곱을 더한 패널티를 부여한다.
  • L1 규제(라쏘 모델)은 가중치의 제곱을 절개값으로 바꾸는 개념이다. 즉 손실 함수에 절대값인 L1 노름을 추가로 적용한다.

 

 

매개변수 최적화

  • 신경망 학습의 목표는 손실 함수의 값을 최대한 낮추는 매개변수를 찾는 것이다.
  • 이러한 최적화 과정을 매개변수 최적화라고 한다.

 

  • 확률적 경사 하강법(SGD)은 최적의 매개변수 값을 찾기 위해 손실함수의 기울기를 사용한다.
  • 손실함수의 기울기를 따라 조금씩 내려가다 최종적으로 손실합수가 가장 적은 지점에 도달한다.

 

  • SGD미분계수가 0인 지점에서 더 이상 이동하지 않는 한계가 존재했다.
  • 모멘텀은 이러한 단점을 보완해 속도 개념을 도입하여, 기울기 방향으로 힘을 받으면 가속되도록 기울기 값을 누적시켰다.
  • 이러한 방법은 빠른 최적점 수렴이 가능하도록 만들었다.

 

  • AdaGrad개별 매개변수에 적응적으로 학습률을 조정한다.
  • 학습률은 작으면 학습 시간이 길어지고 크면 발산하게 된다.
  • AdaGrad는 처음에는 학습률을 크게 하고 최적점에 다다를수록 조금씩 줄이게 된다.

 

  • Adam모멘텀과 AdaGrad의 결합으로, 학습률, 일차 모멘텀 계수, 이차 모멘텀 계수의 3가지 초매개변수들을 설정한다.

 

 

 

최종모형 선정

  • 회귀모형에 대한 주요 성능지표는 아래와 같이 존재한다.
  • SSE는 실제값과 예측값의 차이를 제곱하여 더한다.
  • 결정계수는 회귀모형이 실제값에 얼마나 적합하는지에 대한 비율을 측정한다.
  • MAE는 실제값과 예측값의 차이의 절대값을 합한 평균이다.
  • MAPE는 MAE 계산시 실제값에 대한 상대적인 비율을 고려한다.

 

  • 분류모형에 대한 성능지표는 아래와 같다.
  • 특이도음성 중 맞춘 음성의 수이다. 
  • TN / (TN+FP)
  • 정밀도 양성 예측 중 실제 양성의 수이다.
  • TP / (TP + FP)
  • 재현율민감도라고도 불리며, 전체 양성 중 검출된 양성의 수이다.
  • TP / (TP + FN)
  • 정확도전체 중 정확하게 맞춘 수이다.
  • (TP + FN) / (TP + TN + FP + FN)

 

  • 비지도학습(군집분석)에 대한 주요 성능평가 지표는 군집타당성지표가 있다.
  • 군집타당성지표는 군집 내 분산과 군집간 분산으로 군집간 거리, 군집의 지름, 군집의 분산을 고려한다.

 

 


 

1. 지도학습의 회귀모델 평가지표에서 실제값과 예측값의 차이의 제곱에 대한 평균을 취한 값은?

1) SSE
2) RMSE
3) MAE
4) MSE

A : Absolute

S : Squared

4

 

2. 회귀분석에서 잔차진단의 유형에 관계없는 진단유형은?

1) 정규성 진단
2) 이상치 진단
3) 독립성 진단
4) 등분산성 진단

2

 

3. 적합도 검정 기법의 종류와 맞지 않는 것은?

1) 정규성 검정
2) 카이제곱 검정
3) T 검정
4) 콜모고로프 스미르노프 검정

3

 

4. 과대적합 방지를 위한 기법이 아닌 것은?

1) 드롭아웃
2) L2 규제
3) L1 규제
4) 매개변수 최적화

4

 

5. 비지도학습 모형인 군집분석에 대한 주요 성능평가지표와 거리가 먼 것은?

1) 군집간 거리
2) 군집의 분산
3) 군집의 지름
4) 군집의 평균

4

728x90
반응형