본문 바로가기
자격증/빅데이터 분석기사

2_1. 데이터 전처리_분석 변수 처리

by 이민우 2022. 3. 17.
728x90
반응형

 

 


출처 : https://book.naver.com/bookdb/book_detail.nhn?bid=20885185 

 

이기적 빅데이터분석기사 필기 기본서

본 도서는 최신 출제기준을 적용한 도서로, 빅데이터분석기사 필기 시험의 출제 경향을 철저히 분석하여 수험생들이 혼자서도 학습할 수 있도록 한 완벽 대비서입니다. 시행처에서 공개한 출제

book.naver.com

*해당 글은 학습을 목적으로 위의 도서 내용 중 일부 내용만을 요약하여 작성한 포스팅입니다.

 상세한 내용 및 전체 내용 확인을 원하신다면 도서 구매를 추천드립니다.


변수 선택

  • 통계적 분석 결과의 신뢰성을 위해 데이터와 이를 특정짓는 변수는 많으면 좋다.
  • 하지만 변수가 많다면 분석모형의 구성 및 사용에 필요 이상의 데이터가 필요해질 수 있다.
  • 예를 들어 회귀 분석에서 독립 변수가 m개일 때와, 그보다 적은 n개일 때 설명력이 동일할 수 있다.
  • 이런 경우에 변수의 효율적 선택이 필요하다.

 

  • 변수별 모형은 아래와 같다.
  • 전체 모형모든 독립변수를 사용한 모형이다.
  • 축소 모형은 전체 모형에서 사용된 변수의 개수를 줄여서 얻은 모형이다.
  • 영 모형독립변수가 하나도 없는 모형이다.

 

  • 변수의 선택 방법은 전진 선택법, 후진 선택법, 단계적 선택법이 있다.

 

  • 전진 선택법 영모형에서 시작해 독립변수 중 종속변수와 단순상관계수의 절댓값이 가장 큰 변수를 분석모형에 포함시킨다.
  • 부분 F 검증으로 유의성을 검증하고, 유의한 경우 가장 큰 F 통계량을 가지는 모형을 선택한다.
  • 만약 유의하지 않으면 변수선택 없이 과정을 중단한다.
  • 한 번 추가된 변수는 제거되지 않는다.

 

  • 후진 선택법은 후진 소거법이라고도 불리며, 전체변수에서 시작 해 독립변수 중 종속변수와 단순상관계수의 절댓값이 가장 작은 변수를 분석모형에서 제외시킨다.
  • 부분 F 검증으로 유의성 검증을 시행하고, 유의하면 제거, 유의하지 않으면 더 이상 변수를 제거하지 않고 과정을 중단한다.
  • 마찬가지로 한 번 제거된 변수는 추가되지 않는다.

 

  • 단계적 선택법은 전진 선택법과 후진 선택법의 보완 방법이다.
  • 전진 선택법으로 유의한 변수를 포함시킨 후, 나머지 변수들에 대해 후진 선택법으로 유의하지 않은 변수들을 제거한다.
  • 마찬가지로 한 번 제거된 변수는 추가되지 않으며, 유의한 설명변수가 존재하지 않을 때까지 과정을 반복한다.

 

 

차원 축소

  • 차원이란 데이터의 종류의 수를 의미한다.
  • 그리고 차원 축소란 변수의 양 즉 데이터의 종류를 줄이는 작업이다.

 

  • 차원이 너무 많다면 복잡도가 올라가 분석 시간이 증가하고, 저장변수의 양이 증가해 동일한 품질을 나타낼 수 있다면 효율성 측면에서라도 데이터의 종류의 수를 줄여야 한다.
  • 또한 차원이 너무 많으면 분석모델의 파라미터가 증가해 과적합이 발생할 수 있고, 구조가 복잡해서 해석력이 떨어질 수 있다.
  • 추가로 차원의 저주라는 개념이 있는데, 이는 차원이 증가하면 학습데이터의 수가 차원보다 적어져 성능이 저하되는 현상이다.

 

  • 이러한 문제를 해결하기 위해서라도 차원의 축소는 필수적이다.
  • 그리고 그 방법으로는 요인분석(주성분 분석, 특이값 분해, 음수 미포함 행렬분해) 등이 있다.

 

  • 요인 분석 (Factor Analysis)는 다수의 변수들 간의 상관관계를 분석하여 공통차원을 축약하는 통계분석과정이다.
  • 독립변수, 종속변수의 개념이 없고 주로 기술 통계에 의한 방법을 이용한다.
  • 주성분 분석, 특이값 분해, 음수 미포함 행렬 분해등이 포함되어 있다.

 

  • 주성분 분석 (PCA, Principal Component Analysis)하나 또는 복수 개의 특징(주성분)을 찾는 것이다.
  • 직교변환을 이용하여서로 연관성이 있는 고차원 공간의 데이터를 선형연관성이 없는 저차원으로 변환하는 과정을 거친다.
  • 기존의 기본변수들은 새로운 변수의 세트로 변환하여 차원을 줄이되 분포특성을 최대한 유지하여 신뢰성을 확보한다.
  • PCA는 성분을 분석하는 방법이 아니라 분포의 주성분을 분석하는 방법이라고 생각할 수 있다.

 

  • 특이값 분해 (SVD, Singular Value Decompositon)은 행렬이 두 개의 직교행렬과, 1개의 대각행렬로 분해될 수 있는 성질을 이용한 것이다.
  • 기존의 전차원의 정보를 3개의 행렬로 분해하여 적당한 k(특이값)만을 이용해 원래 행렬과 비슷한 정보력을 가지는 차원을 만들어낸다.
  • 즉 큰 몇 개의 특이값을 가지고도 충분히 유용한 정보를 유지하는 차원을 생성해낼 수 있다.

 

  • 음수 미포함 행렬분해 (NMF, Non-negative Matrix Factorization)은 음수를 포함하지 않은 행렬을 음수를 포함하지 않은 두 행렬의 곱으로 분해하는 과정이다.

 

 

파생변수

  • 데이터 분석 시 원데이터를 그대로 활용하기 보다 분석의 목표에 맞게 데이터의 형태를 수정보완할 필요가 있다.
  • 요약변수와 파생변수는 분석모델을 구축하는 데 있어 핵심인 환경과 문제를 잘 해석할 수 있는 변수를 찾는 데 의의가 있다.
  • 파생변수기존의 변수를 조합하여 새로운 변수를 만들어내는 것이고, 요약변수는 수집된 정보를 분석에 맞게 종합된 변수이다.
  • 참고로 분석을 위한 기본단계 변수가 모인 데이터마트는 요약변수와 파생변수들의 모임이라고 볼 수 있다.

 

  • 파생변수는 사용자가 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여하는 변수이다.
  • 주관적인 변수의 개념이다.
  • 즉 사용자가 부여하기에 매우 주관적일 수 있으니 논리적 타당성을 갖추어야 한다.
  • 또한 특정상황에만 유의미하지 않게 대표성을 나타내야 한다.

 

  • 요약 변수수집된 정보를 분석에 맞게 종합한 변수이다.
  • 총합과 같은 단순 종합 개념으로 볼 수 있다.
  • 데이터 마트에서 가장 기본적인 변수이기도 하다.
  • 많은 분석 모델들이 공통으로 사용할 수 있다. 즉, 재활용성이 높다.

 

 

변수 변환

  • 변수 변환이란 데이터를 분석하기 좋은 형태로 바꾸는 작업이다.

 

  • 연속형 변수는 명료성 및 정확성을 위해 범주형으로 바꾸는 것이 좋다.
  • 예를 들어 100만원을 받던 월급이 10만원 올랐다. 보다 월급이 10%가 올랐다. 가 더 직관적이다.

 

  • 또한 분석의 정확성을 위해 연속형, 이산형 데이터 값은 정규화를 해주는 것이 좋다.
  • 특히 데이터가 가진 스케일이 심하게 차이가 날 때 상대적 특성이 반영된 데이터로 변환하는 것이 좋은데, 그 작업이 바로 정규화이다.
  • 정규화 방법은 일반 정규화, 최소-최대 정규화, z-점수 정규화 등이 있다.
  • 일반 정규화는 각 수치의 범위가 다르면 같은 범위로 변환한다.
  • 예를 들어 10점 만점에 1점, 20점 만점에 4점이 있으면, 0.1, 0.2로 변환하여 사용한다.
  • 최소-최대 정규화최소값은 0, 최대값은 1로 두고 나머지 값들을 그 사이의 값으로 변환한다.
  • (X-Min) / (Max-Min) 수식으로 적용할 수 있다.
  • 최소-최대 정규화는 이상치의 영향을 많이 받으니 유의해야 한다.
  • Z-점수 정규화 이상치 문제를 피하는 데이터 정규화 전략이다.
  • 데이터의 값이 평균과 일치하면 0, 작으면 음수, 크면 양수로 나타난다.
  • 이 때 음수와 양수의 크기는 표준편차의 크기에 비례하는데, 표준편차가 크면 정규화 값이 0에 가까워진다.
  • 이상치는 잘 처리하지만 정확히 동일한 척도로 정규화된 데이터를 생성해주지는 않는다.

 

  • 로그변환어떤 수치 값에 로그를 취하여 사용하는 것이다.
  • 로그를 취하면 분포가 정규 분포에 가까워지는 경우가 있는데, 이 때 사용하는게 타당하다.
  • 이 때의 분포를 로그정규분포라고 부른다.
  • 특히 데이터분포가 우측으로 치우친 경우 로그변환을 사용하기 좋다.

 

  • 역수변환은 데이터에 역수를 사용하여 선형적인 특성을 가지게 함으로써 의미 해석을 쉽게 만드는 것이다.
  • 즉 10을 1/10으로 사용한다.
  • 극단적으로 우측으로 치우친 경우 정규분포화를 위해 사용한다.

 

  • 지수변환은 지수를 사용하여 선형적인 특성을 가지게 함으로써 의미를 해석하기 쉬워지게 만드는 것이다.
  • 분포형태가 좌측으로 치우친 경우 사용한다.

 

  • 제곱근 변환은 제곱근을 사용해 선형적인 특성을 가지게 함으로써 의미를 해석하기 쉬워지게 만드는 것이다.
  • 우측으로 약간 치우친 경우에 사용한다.

 

  • 즉 분포의 모양에 따라 아래의 표와 같이 변수 변환을 적용할 수 있다.
좌로 치우친 분포 $$X^3$$ 지수변환
좌로 약간 치우친 분포 $$X^2$$ 지수변환
우로 약간 치우친 분포 $$\sqrt {X}$$ 제곱근변환
우로 치우친 분포 $$\ln(X)$$ 로그변환
우로 매우 치우친 분포 $$\frac{1}{X}$$ 역수변환

 

 

 

불균형 데이터 처리

  • 데이터의 각 클래스가 갖고있는 데이터 양의 차이가 클 경우 클래스 불균형이 있다고 표현된다.
  • 예측 모델중 정확한 결과를 도출하는 클래스보다 데이터가 많은 클래스를 선택하는 모델이 더 정확하게 평가되어 성능판별이 어려울 수 있다.
  • 예를 들어 클래스 a에 속하는 데이터가 9개, b에 속하는 데이터가 1개라면, 모든 출력을 a로 내놓는 모델의 정확도가 90프로나 된다.
  • 정확도는 높으나 재현율이 작은 현상이 발생할 수 있다.
  성능
거짓
결과 TP FP
거짓 FN TN
정확도 : $$\frac{TP+TN}{TP+TN+FP+FN}$$
재현율 : $$\frac{TP}{TP+FN}$$

 

  • 분균형 데이터는 가중치 균형방법, 언덕샘플링과 오버샘플링으로 처리할 수 있다.

 

  • 가중치 균형방법은 손실(Loss)를 생각해 특정 클래스의 데이터에 더 큰 loss 값을 갖도록 하는 방법이다.
  • 특정 비율로 가중치를 주어 분석하거나 결과를 도출하는 것으로 정의한다.
  • 고정 비율로 이용할 수 있고, 최적 비율을 찾아 이용할 수도 있다.

 

  • 언더 샘플링다수의 데이터를 가진 클래스의 데이터를 일부만 사용하는 것이다.
  • 오버 샘플링소수의 데이터를 가진 클래스의 데이터를 증가시키는 것이다.
  • 위의 방법들은 정밀도가 향상된다.
  • 언더 샘플링은 샘플링된 데이터가 원본 데이터와 비교하였을 때 대표성이 있는지 유의해야 한다.
  • 오버 샘플링은 똑같은 데이터를 그대로 복사하여 사용하기에 기존 데이터와 성질이 같다.

 

 


1. (           )은 전진 선택법을 통해 가장 유의한 변수를 모형에 포함하고, 나머지 변수들에 대해 후진 선택법을 적용한다.

단계적 선택법

 

2. 요인분석에 대한 설명으로 맞지 않은 것은?

1) 요인분석은 다수의 변수들 간의 상관관계를 분석하여 공통차원을 축약하는 통계분석 과정이다.
2) 독립변수, 종속변수 개념이 없고 주로 기술 통계에 의한 방법을 이용한다.
3) 다수의 변수들의 정보손실을 억제하며 소수의 요인으로 축약하기도 하지만 변수 자체는 제거하지 않는다.
4) 관련된 변수들을 군집화하여 요인간 상호 독립성 및 변수의 특성을 파악한다.

3

728x90
반응형