본문 바로가기
자격증/빅데이터 분석기사

2-1. 데이터 전처리_데이터 정제

by 이민우 2022. 3. 17.
728x90
반응형

출처 : https://book.naver.com/bookdb/book_detail.nhn?bid=20885185 

 

이기적 빅데이터분석기사 필기 기본서

본 도서는 최신 출제기준을 적용한 도서로, 빅데이터분석기사 필기 시험의 출제 경향을 철저히 분석하여 수험생들이 혼자서도 학습할 수 있도록 한 완벽 대비서입니다. 시행처에서 공개한 출제

book.naver.com

*해당 글은 학습을 목적으로 위의 도서 내용 중 일부 내용만을 요약하여 작성한 포스팅입니다.

 상세한 내용 및 전체 내용 확인을 원하신다면 도서 구매를 추천드립니다.


 

 

데이터

  • 이론을 세우기 위해 기초가 되는 사실 또는 자료.
  • 컴퓨터와 연관되어 프로그램에 의해 사용될 수 있는 형태로 기호화, 수치화한 자료를 말한다.

 

  • 데이터의 종류는 단변량자료, 다변량자료, 질적자료, 수치자료, 시계열자료, 횡적자료, 종적자료 등이 있다.

 

  • 단변량 자료는 자료의 특성을 대표하는 특성 변수가 하나인 자료이다.
  • 다변량 자료는 자료의 특성을 대표하는 특성 변수가 다수인 자료이다.

 

  • 질적 자료 정성적 또는 범주형 자료라고도 불린다.
  • 자료를 범주의 형태로 분류하며, 수치의 크기 자체에는 크게 의미를 부여하지 않는다.
  • 명목자료와 서열자료 등이 속한다.
  • 명목자료는 측정 대상이 범주나 종류에 대해 구분되어지는 것을 수치 또는 기호로 분류한 자료이다.
  • 전화번호의 지역 번호 등이 해당한다.
  • 서열자료는 명목자료와 비슷하나 수치나 기호가 서열을 나타내는 자료이다.
  • 경기의 순위 등이 해당한다.

 

  • 수치 자료정량적 또는 연속형 자료라고도 하며, 숫자의 크기에 의미를 부여할 수 있는 자료이다.
  • 구간자료, 비율자료 등이 속한다.
  • 구간자료는 명목자료, 서열자료의 의미를 포함하며 숫자로 표현된 변수에 대해 변수간의 관계가 산술적인 의미를 가진다.
  • 온도 등이 포함된다.
  • 비율자료는 명목자료, 서열자료, 구간자료의 의미를 전부 가지는 자료로, 수치화된 변수에 비율의 개념을 도입할 수 있다.
  • 무게 등이 있다.

 

  • 시계열 자료는 일정한 시간간격 동안 수집된, 시간개념이 포함된 자료이다.

 

  • 횡적자료는 횡단적 자료라고도 하며, 특정 단일시점으로부터 여러 대상으로부터 수집된 자료이다.
  • 즉 한 개의 시점에서 여러 대상으로부터 취합하는 자료이다.
  • 종적자료는 시계열자료와 횡적자료를 결합한 것으로, 여러 개체로부터 여러 시점에서 수집된 자료이다.

 

 

 

데이터의 정제

  • 정제는 수집된 데이터에서 분석에 필요한 데이터를 추출하고 통합하는 과정이다.
  • 정제과정을 거치지 않은 데이터는 일관성이 없고, 결과에 대한 신뢰성이 떨어진다.
  • 대부분의 데이터들은 비정형 데이터인데 이를 정형 데이터로 변환하고 결측치, 오류의 수정등을 수행하게 된다.

 

  • 데이터 정제는 수집, 변환, 저장, 품질확인, 관리의 순서로 시행된다.
  • 데이터 저장을 중심으로 전처리, 후처리로 나뉘어 분류된다.

 

 

 

데이터 결측값 처리

  • 결측치는 데이터가 없음을 의미한다.
  • 이러한 결측치를 임의로 제거하면 필요한 유의수준 데이터 수집에 실패할 수 있다.
  • 그렇다고 임의로 대체할 경우 편향이 발생하여 분석 결과의 신뢰성이 떨어질 수 있다.

 

  • 결측 데이터의 종류는 아래와 같다.
  • 완전 무작위 결측(MCAR, Missing Completely At Random)결측 데이터가 다른 변수와 연관이 없는 경우이다.
  • 즉, 다른 어떤 요소때문에 결측값이 발생한 게 아니라 그냥 없을 뿐이다.
  • 무작위 결측(MAR, Missing At Random)관측된 다른 변수와 연관이 있지만 그 자체가 비관측값들과는 연관되지 않는다.
  • 비 무작위 결측 (NMAR, Not Missing At Random)은 위의 두 가지에 속하지 않는 결측으로, 결측변수값이 결측여부와 관련이 있는 경우이다.

 

  • 일반적인 결측, 무응답 자료를 분석할 떄는 완전 무작위 결측 하에 처리한다.
  • 즉 불완전한 자료는 무시하고 나머지를 가지고 분석을 시행한다.
  • 하지만 이러한 방법은 효율성 문제, 자료처리의 복잡성, 편향 문제를 고려해야 한다.

 

  • 결측 처리 방법은 아래와 같다.

 

  • 단순 대치법은 결측치에 대해 MCAR, MAR로 판단하고 이에 대해 처리한다.
  • 아래는 단순 대치법의 종류이다.
  • 완전 분석은 불완전 자료는 무시하고 분석을 수행한다.
  • 분석의 용이성을 보장하나 효율성이 상실될 수 있고 추론의 타당성 문제가 발생한다.
  • 평균 대치법(비조건부 대치법)은 데이터의 평균으로 결측치를 대치한다.
  • 효율성은 향상되나 표준오차가 과소 추정된다.
  • 회귀 대치법(조건부 대치법)회귀 분석에 대한 예측치로 결측치를 대치한다.
  • 단순확률 대치법(Hot-Deck) 평균 대치법의 추정량 표준오차의 과소 추정을 보완한 대치법으로, 확률 추출에 의해 전체 데이터 중 무작위로 대치한다.
  • 최근접 대치법은 전체 표본을 몇 개의 대체군으로 분류한 후 각 층에서 응답자료를 순서대로 정리해, 결측값 바로 이전의 응답을 결측치로 대치한다.
  • 이 방법은 응답값이 여러 번 사용될 수 있다는 단점이 있다.

 

  • 다중 대치법단순 대치법을 복수로 시행하여 통계적 효율성 및 일치성 문제를 보완한다.
  • 복수의 대치를 통해 여러 개의 새로운 자료를 반들어 분석을 시행하고, 얻어진 통계량에 대해 통계량 및 분산 결합을 통해 통합한다.

 

 

 

데이터의 이상값 처리

  • 이상값(이상치)정상의 범주에서 벗어난 값이다.
  • 주로 수집 과정에서 오류가 발생하거나 오류는 아니지만 그냥 극단적인 값이 발생할 수도 있다.
  • 이상치는 비무작위성으로 나타나기에 데이터의 정상성와 신뢰성을 저하시킨다.
  • 또한 결측치와 마찬가지로 분석결과의 왜곡이 발생할 수 있어 처리해야 한다.

 

  • 이상치의 종류는 단변수 이상치와 다변수 이상치가 있다.
  • 단변수 이상치하나의 데이터 분포에서 발생하는 이상치이다.
  • 다변수 이상치복수의 연결된 데이터 분포공간에서 발생하는 이상치이다.

 

  • 이상치 중 입력실수, 측정오류, 실험오류, 의도적 이상치, 자료처리오류, 표본오류 등으로 발생하는 이상치는 비자연적 이상치라고 부르며, 나머지는 자연적 이상치라고 부른다.
  • 의도적 이상치는 남자가 자신의 키를 높여 부르는 것과 같은 의도적으로 이상치를 만든 것이다.

 

  • 이상치의 탐지로는 종속변수가 단변량인지 다변량인지, 혹은 분포가 모수적인지 비모수적인지에 따라 다양한 방법으로 시도할 수 있다.
  • 비모수적이고 단변량인 경우 시각화(상자수염그림, 산점도그림)으로 탐지가 가능하다.
  • 모수적인데 단변량 혹은 저변량인 경우 Z-Score을 통해 정규화로 판별할 수 있다.
  • 비모수적 다변량의 경우 군집간의 밀도를 이용하는 밀도기반 클러스터링 기법(DBSCAN)으로 군집에서 먼 거리에 있는 데이터를 이상치로 탐지할 수 있다.
  • 비모수적 다변량의 경우 의사결정나무 기반의 고립 의사나무 방법으로 이상치의 노드에 이르는 길이가 단말노드보다 더 짧은 것을 이상치로 판별할 수 있다.
     
시각화 비모수적 단변량
Z-Score 모수적 단변량
저변량
DBSCAN 비모수적 다변량
고립 의사나무 비모수적 다변량

 

 


1. 질적자료에 대한 설명으로 옳은 것은?

1) 정량적 자료라고도 불리며 크기 자체에 의미를 부여한다.
2) 서열자료는 수치나 기호가 서열을 나타낸다.
3) 명목자료는 측정대상이 범주나 종류에 대해 구분되어지는 것을 수치 또는 기호로 분류할 수 없다.
4) 정성적 자료라고도 불리며 분류가 불가능한 비정형 자료이다.

2

 

2. 데이터 정제에 관한 설명으로 틀린 것은?

1) 데이터 정제는 수집된 데이터를 대상으로 분석에 필요한 데이터를 추출하고 통합하는 과정이다.
2) 데이터로부터 원하는 결과나 분석을 얻기 위해 분석 도구 또는 기법에 맞게 데이터를 다듬어야 한다.
3) 데이터의 유효성을 유지하기 위해 데이터 변화는 지양한다.
4) 다양한 매체로부터 데이터를 수집, 저장, 변환, 품질확인, 관리하는 것이 필요하다.

3

 

3. 데이터 집합에서 다른 측정값들과 비교하여 많은 차이를 보이는 데이터를 무엇이라 하는가?

이상치

 

4. 평균 대치법에서 추정량 표준오차의 과소 추정을 보완한 대치법으로, Hot-deck 방법이라고도 불리는 (       )는 확률 추출에 의해 전체 데이터 중 무작위로 대치한다.

단순 확률 대치법

728x90
반응형