4_1. 빅데이터 결과 해석_분석모형 평가 및 개선

728x90

출처 : https://book.naver.com/bookdb/book_detail.nhn?bid=20885185

이기적 빅데이터분석기사 필기 기본서

본 도서는 최신 출제기준을 적용한 도서로, 빅데이터분석기사 필기 시험의 출제 경향을 철저히 분석하여 수험생들이 혼자서도 학습할 수 있도록 한 완벽 대비서입니다. 시행처에서 공개한 출제

book.naver.com

*해당 글은 학습을 목적으로 위의 도서 내용 중 일부 내용만을 요약하여 작성한 포스팅입니다.

상세한 내용 및 전체 내용 확인을 원하신다면 도서 구매를 추천드립니다.

평가 지표

분석모형의 답과 실제 답 사이의 관계는 오차행렬을 통해 평가한다.

오차행렬은 훈련을 통한 예측 성능을 측정하기 위해 예측 값과 실제 값을 비교하기 위한 표이다.
정확도는 실제 데이터와 예측 데이터를 비교하여 같은지 판단한다.
정밀도는 긍정으로 예측한 데이터를 비교해 같은지 판단한다.
재현율은 실제 긍정인 대상 중 실제와 예측 값이 일치하는 비율이다.
F1 Score은 정밀도와 재현율을 결합한 조화평균 지표로 값이 클수록 모형이 정확하다.

ROC 곡선은 FPR(False Positive Rate)이 변할 때 민감도인 TPR (True Positive Rate)이 어떻게 변화하는지 나타낸 곡선이다.
임계값은 0~1 범주 이내 값으로 조정하며 FPR에 따른 TPR을 계산하며 곡선을 그린다.
TPR 값과 FPR 값이 0.5인 기본 모델 위에 ROC가 위치할 경우 성능이 기본 모델보다 나음을 뜻한다.

AUC는 평가모델의 ROC 곡선의 하단 면적으로, 랜덤일 때 0.5 값이고 직선에서 멀어질수록 성능이 뛰어난 것으로 해석한다.

회귀모델 평가의 지표는 실제값과 회귀 예측값의 차이를 기반으로 성능지표를 수립하고 활용한다.
SSE는 실제값과 예측차의 차이를 제곱하며 더한다.
MSE는 실제값과 예측값의 차이의 제곱에 대한 평균을 취한 것으로, 평균제곱오차 라고 한다.
RMSE는 MSE에 루트를 취한 값으로, 평균제곱근오차 라고 한다.
MAE는 실제값과 예측값의 차이의 절대값을 합한 평균값이다.
결정계수 R^2는 회귀모형이 실제값에 대해 얼마나 잘 적합하는 지에 대한 비율이다.
수정된 결정계수는 다변량 회귀분석에서 독립변수가 많아질수록 결정계수가 높아지는 것을 보완한 결정계수이다.
표분크기와 독립변수의 개수를 추가적으로 고려하여 분모에 위치시켜 결정계수 값의 증가도를 보정한다.
MSPE는 MSE를 퍼센트로 변환한 값이다.
MAPE는 MAE를 퍼센트로 변환한 값이다.
RMSLE는 RMSE에 로그를 취한 값으로 이상치에 덜 민감하다.
AIC는 최대 우도에 독립변수의 개수에 대한 손실분을 반영하는 것을 목적으로 모형과 데이터의 확률 분포 차이를 측정한다.
AIC 값은 낮을수록 모형의 적합도가 높다.
BIC는 AIC와 동일한 목적을 지니나 주어진 데이터에서 모형의 우도를 측정하기 위한 값에서 유도된 지표로 변수 개수가 많을수록 AIC보다 더 패널티를 가한다.

비지도학습은 지도학습과 달리 실측자료에 라벨링이 없어 성능평가가 어렵다.
그래서 군집분석에 한해 다음의 성능 평가 지표를 사용한다.
실루엣 계수는 a(i)는 i번째 개체와 같은 군집에 속한 요소들 간의 평균이며, b(i)는 개체가 속한 군집과 가장 가까운 이웃 군집을 선택 계산한 값이다.
a(i)가 0이면 하나의 군집에서 모든 개체들이 붙어있는 경우로, 실루엣 지표가 0.5보다 크면 적절한 군집 모델로 볼 수 있다.
Dunn Index는 군집간 거리의 최소값을 분자, 군집 내 요소 간 거리의 최대값을 분모로 하는 지표이다.
군집간 거리는 멀고, 군집내 분산은 작을수록 좋기에 Dunn Index는 클수록 좋다.

분석모형 진단

정규성 가정이란 통계적 검정, 회귀분석 등 분석을 진행하기 전에 데이터가 정규분포를 따르는지 검정하는 것이다.
즉 데이터 자체의 정규성을 확인한다.
중심극한정리는 동일한 확률분포를 가진 독립 확률 변수 n개의 평균의 분포는 n이 적당히 크다면 정규분포에 가까워진다는 이론이다.
정규성 검정 종류는 샤피로-월크 검정, 콜모고르프 스미르노프 검정, Q-Q- 플롯이 있다.
샤피로-윌크 검정은 표본수가 2,000개 미만일 때, 콜모고르프 스미르노프 검정은 2,000개 초과일 때 적합하다.
Q-Q 플롯은 데이터 셋이 정규분포를 따르는지 판단하는 시각적 분석 방법으로, 표본수가 소규모일 경우 적합하다.

잔차 진단은 실제값과 예측값의 차이인 잔차를 가장 작게 해주는 선으로 잔차의 합은 0이며 잔차는 추세나 특정 패턴을 가지고 있지 않다.
잔차의 정규성은 Q-Q Plot 같은 시각화 도표를 사용해 진단할 수 있다.

K-폴드 교차검증

고정된 훈련 데이터 셋으로 반복하여 수행하는 학습은 과적합이 될 수 있다.
k-폴드 교차검증은 전체 데이터 셋을 k개의 서브셋으로 분리하고, 그 중 k-1개를 훈련데이터로, 나머지 1개를 테스트 데이터로 사용한다.
테스트 셋을 중복없이 병행한 후 평균을 내어 최종적 모델의 성능을 평가한다.
이러한 방법은 과적합의 방지에는 좋지만, 평가와 검증시간이 오래걸릴 수 있다.
또한 종류로는 홀드아웃 기법, 리브-윈,아웃 교차검증, 계층별 k-겹 교차검증 등이 있다.

홀드아웃 기법은 일반적으로 훈련데이터와 테스트데이터, 검증 데이터를 일정 비율로 지정한 뒤 먼저 훈련데이터로 학습한 후 훈련 데이터 내에서 일정 부문검증 데이터를 두어 학습과정에서 모델 성능을 높이는 검증을 진행하며 최종적으로 테스트데이터를 통해 성능을 평가한다.
데이터 셋 크기가 작을수록 데이터를 나누는 방식에 따라 모델 성능 추정에 영향을 미칠 수 있다.

적합도 검정

적합도 검정은 데이터가 가정된 확률에 적합하게 따르는지를 판단한다.
즉 데이터 분포가 특정 분포함수와 얼마나 맞는지 검정한다.
카이제곱 검정은 기대값과 관측값을 이용한 방법으로 k개의 범주별로 나누어진 관측치들과, 이와 동일한 범주의 가정된 분포 사이의 적합도를 검정하여 범주형 값 k가 나와야 할 횟수의 기댓값과 실제 나온 횟수의 차이를 이용하여 검정통계량을 구한다.
콜모고르프 스미르노프 검정은 관측된 표본분포와 가정된 분포사이의 적합도를 검사하는 누적분포함수의 차이를 이용한 검정법으로, 연속형 데이터에도 적용할 수 있다.

분석모형 개선

과대적합 방지

과대적합이란 훈련 시에는 높은 성능을 보이지만 테스트 데이터에 대해서는 낮은 성능을 보이는 것이다.
이를 방지하고 일반화된 모델의 생성을 위해 다음의 방법이 있다.

첫째는 정규화, 드롭아웃 등을 통해 모델의 복잡도를 낮추는 것이다.
둘째는 가중치 감소로, L1 규제, L2 규제가 있다.
L2 규제(릿지 모델)는 손실함수 가중치에 대한 L2 노름의 제곱을 더한 패널티를 부여한다.
L1 규제(라쏘 모델)은 가중치의 제곱을 절개값으로 바꾸는 개념이다. 즉 손실 함수에 절대값인 L1 노름을 추가로 적용한다.

매개변수 최적화

신경망 학습의 목표는 손실 함수의 값을 최대한 낮추는 매개변수를 찾는 것이다.
이러한 최적화 과정을 매개변수 최적화라고 한다.

확률적 경사 하강법(SGD)은 최적의 매개변수 값을 찾기 위해 손실함수의 기울기를 사용한다.
손실함수의 기울기를 따라 조금씩 내려가다 최종적으로 손실합수가 가장 적은 지점에 도달한다.

SGD는 미분계수가 0인 지점에서 더 이상 이동하지 않는 한계가 존재했다.
모멘텀은 이러한 단점을 보완해 속도 개념을 도입하여, 기울기 방향으로 힘을 받으면 가속되도록 기울기 값을 누적시켰다.
이러한 방법은 빠른 최적점 수렴이 가능하도록 만들었다.

AdaGrad는 개별 매개변수에 적응적으로 학습률을 조정한다.
학습률은 작으면 학습 시간이 길어지고 크면 발산하게 된다.
AdaGrad는 처음에는 학습률을 크게 하고 최적점에 다다를수록 조금씩 줄이게 된다.

Adam은 모멘텀과 AdaGrad의 결합으로, 학습률, 일차 모멘텀 계수, 이차 모멘텀 계수의 3가지 초매개변수들을 설정한다.

최종모형 선정

회귀모형에 대한 주요 성능지표는 아래와 같이 존재한다.
SSE는 실제값과 예측값의 차이를 제곱하여 더한다.
결정계수는 회귀모형이 실제값에 얼마나 적합하는지에 대한 비율을 측정한다.
MAE는 실제값과 예측값의 차이의 절대값을 합한 평균이다.
MAPE는 MAE 계산시 실제값에 대한 상대적인 비율을 고려한다.

분류모형에 대한 성능지표는 아래와 같다.
특이도는 음성 중 맞춘 음성의 수이다.
TN / (TN+FP)
정밀도는 양성 예측 중 실제 양성의 수이다.
TP / (TP + FP)
재현율은 민감도라고도 불리며, 전체 양성 중 검출된 양성의 수이다.
TP / (TP + FN)
정확도는 전체 중 정확하게 맞춘 수이다.
(TP + FN) / (TP + TN + FP + FN)

비지도학습(군집분석)에 대한 주요 성능평가 지표는 군집타당성지표가 있다.
군집타당성지표는 군집 내 분산과 군집간 분산으로 군집간 거리, 군집의 지름, 군집의 분산을 고려한다.

1. 지도학습의 회귀모델 평가지표에서 실제값과 예측값의 차이의 제곱에 대한 평균을 취한 값은?

1) SSE
2) RMSE
3) MAE
4) MSE

A : Absolute

S : Squared

2. 회귀분석에서 잔차진단의 유형에 관계없는 진단유형은?

1) 정규성 진단
2) 이상치 진단
3) 독립성 진단
4) 등분산성 진단

3. 적합도 검정 기법의 종류와 맞지 않는 것은?

1) 정규성 검정
2) 카이제곱 검정
3) T 검정
4) 콜모고로프 스미르노프 검정

4. 과대적합 방지를 위한 기법이 아닌 것은?

1) 드롭아웃
2) L2 규제
3) L1 규제
4) 매개변수 최적화

5. 비지도학습 모형인 군집분석에 대한 주요 성능평가지표와 거리가 먼 것은?

1) 군집간 거리
2) 군집의 분산
3) 군집의 지름
4) 군집의 평균

728x90

저작자표시 비영리 변경금지

'자격증 > 빅데이터 분석기사' 카테고리의 다른 글

4_2. 분석결과 해석 및 적용_분석결과 시각화 (0)	2022.03.21
4_2. 분석결과 해석 및 적용_분석결과 해석 (0)	2022.03.20
3_2. 분석기법 적용_고급 분석기법 (2)	2022.03.20
3_2. 분석기법 적용_분석기법 (0)	2022.03.19
3_1. 빅데이터 모델링 (0)	2022.03.19

저장소

4_1. 빅데이터 결과 해석_분석모형 평가 및 개선

평가 지표

분석모형 진단

K-폴드 교차검증

적합도 검정

분석모형 개선

과대적합 방지

매개변수 최적화

최종모형 선정

'자격증 > 빅데이터 분석기사' 카테고리의 다른 글

티스토리툴바

4_1. 빅데이터 결과 해석_분석모형 평가 및 개선

평가 지표

분석모형 진단

K-폴드 교차검증

적합도 검정

분석모형 개선

과대적합 방지

매개변수 최적화

최종모형 선정

'자격증 > 빅데이터 분석기사' 카테고리의 다른 글

관련글

티스토리툴바