본문 바로가기
자격증/빅데이터 분석기사

2_2. 데이터 탐색_데이터 탐색 기초

by 이민우 2022. 3. 18.
728x90
반응형

출처 : https://book.naver.com/bookdb/book_detail.nhn?bid=20885185 

 

이기적 빅데이터분석기사 필기 기본서

본 도서는 최신 출제기준을 적용한 도서로, 빅데이터분석기사 필기 시험의 출제 경향을 철저히 분석하여 수험생들이 혼자서도 학습할 수 있도록 한 완벽 대비서입니다. 시행처에서 공개한 출제

book.naver.com

*해당 글은 학습을 목적으로 위의 도서 내용 중 일부 내용만을 요약하여 작성한 포스팅입니다.

 상세한 내용 및 전체 내용 확인을 원하신다면 도서 구매를 추천드립니다.


 

데이터 탐색

  • 탐색적 데이터 분석이란, 수집한 데이터를 다양한 방법으로 관찰하고 이해하는 과정이다.
  • 분격적인 분석 전에 자료를 직관적으로 통찰하는 과정이다.

 

  • 탐색적 데이터 분석은 데이터의 분포 및 값을 검토함으로써 내제된 잠재적 문제에 대해 인식하고 해결책을 도출해줄 수 있다.
  • 또한 문제정의 단계에서 인지하지 못한 새로운 양상이나 패턴을 발견할 수 있다.
  • 문제를 발견한 경우 데이터의 수집 의사를 결정할 수 있고, 새로운 양상이나 패턴 발견 시 초기설정 문제의 가설을 수정하거나 새로운 가설을 설립할 수 있다.

 

  • 분석 과정 및 절차는 아래와 같다.
  • 분석의 목적과 변수를 확인하고 개별변수의 이름이나 설명을 확인한다.
  • 데이터의 문제성을 확인한다. 즉 결측치, 이상치 등의 유무를 확인한다.
  • 데이터의 개별 속성값이 예상한 범위 분포를 가지는지 확인한다.
  • 관계속성을 확인하여 개별 데이터간 속성 관찰에서 보지 못한 데이터간의 속성을 확인한다.

 

  • 위의 과정중 이상치의 검출은 왜 발생했는지 의미를 파악하고, 이에 따라 어떻게 대처할지 정해야 한다.
  • 방법은 개별 데이터를 직접 관찰하여 전체적인 추세와 특이사항을 확인하는 방법이 있다.
  • 또다른 방법으로는 통계값을 확인하는 방법인데, IQR 방법 (4분위 방법)과 정규분포를 활용한 방법이 있다.

 

  • 4분위 방법은 3사분위수+1.5*IQR 보다 크거나, 1사분위수-1.5*IQR보다 작은 수를 이상치로 간주한다.
  • 여기서 IQR은 제 3사분위의 수 - 제 1사분위의 수 이다.
  • 정규분포평균과 분산을 이용한 방법으로, 이를 토대로 어느정도의 값이 이상치인지 직접 판단하여 이상치를 제거한다.
  • 예를 들어 평균-X*표준 ~ 평균+X*표준 과 같이 알아서 정해서 사용한다.
  • 다른 방법으로는 시각화하여 확인하거나, 머신러닝 기법으로 확인할 수도 있다.

 

 

상관관계분석

  • 상관관계분석이란 두 변수가 어떠한 선형적 관계를 갖고 있는지 분석하는 방법이다.
  • 두 변수는 서로 독립적일 수도 있지만, 상관된 관계일 수도 있다.
  • 두 변수간의 관계의 강도상관관계라고 한다.

 

  • 단순상관분석두 개의 변수가 어느정도 강한 관계에 있는지 측정한다.
  • 다중상관분석세 개 이상의 변수의 관계강도를 측정한다.
  • 다중상관분석에는 편상관관계분석이라는 방법이 있는데, 다른 변수와의 관계를 고정하고 두 변수의 관계강도를 측정하는 것이다.

 

  • 상관분석의 방법으로는 대표적으로 피어슨 상관계수, 스피어만 상관계수가 있다.

 

  • 피어슨 상관계수는 두 변수간의 선형 상관관계를 계량화한 수치이다.
  • +1~-1 의 값을 가지며 +1은 완벽한 양의 선형 상관관계, 0은 선형 상관관계 없음, -1은 완벽한 음의 선형 상관관계를 가짐을 의미한다.

 

  • 스피어만 상관계수는 데이터가 서열자료인 경우 사용한다.
  • 자료에 이상치가 있거나 표본크기가 작을 때 사용하기 좋다.

 

 

기초통계량의 추출 및 이해

  • 기초통계량이란 자료를 수집하여 요약하고 정리하는 과정으로, 자료의 특성을 정량적인 수치에 의해 나타내는 방법이다.
  • 자료의 특성을 수치적 결과로 나타내는 방법인 중심화 경향, 퍼짐 정도(산포도, 분산도), 자료의 분포형태 등으로 나타낼 수 있다.

 

  • 중심화 경향의 기초통계량은 산술평균, 기하평균, 조화평균, 중앙값, 최빈값, 분위수 등이 있다.
  • 산술평균은 일반적인 평균을 의미한다.
  • 기하평균은 관측치를 모두 곱한 후 n의 제곱근으로 표현한다.
  • 조화평균은 각 요소의 역수의 산술평균을 구한 후 다시 역수를 취한다.

 

  • 산포도(분산도)자료의 퍼짐 정도를 나타내는 기초 통계량이다.
  • 분산과 표준편차를 이용하는 방법이 있다.
  • 여기서 분산은 평균을 중심으로 밀집되거나 퍼짐정도를 나타내는 척도이고, 표준편차는 분산의 제곱근이다.
  • 평균 절대 편차 (MAD)라는 수식은 각 자료값과 표본평균과의 편차의 절댓값에 대한 산술평균을 의미한다.
  • MAD는 개개의 자료값에 대한 정보를 반영하고 이상치에 대한 영향을 적게 받는다. 다만 절댓값을 사용하기에 수리적으로 다루기 부적절하고, 평균편차가 클수록 자료가 폭넓게 분포한다.

 

  • 자료의 분포형태의 기초통계량은 왜도와 첨도가 있다.
  • 왜도어느 한 쪽으로 치우친 정도이다.
  • 그래프가 오른쪽으로 길면 양의 값, 왼쪽으로 길면 음의 값, 좌우 대칭이면 0이 된다.
  • 첨도분포의 뽀족한 정도이다.
  • 3 미만일 경우 평평한 것이고, 3이면 정규분포, 초과하면 뾰족한 분포의 형태를 가진다.

 

 

시각적 데이터 탐색

  • 도수분포표는 수집된 자료를 적절한 계급에 의해 분류하여 정리한 표이다.
  • 질적자료의 경우에는 각 자료값에 대하여 도수나 상대도수로 표현한다.
  • 즉 그냥 표이다.
  • 도수는 숫자, 상대도수는 (도수/전체갯수) 인 확률값이다.

 

  • 줄기 잎 그림은 통계적 자료를 표 형태와 그래프 형태의 혼합된 방법으로 나타내는 방법이다.
  • 자료의 정리가 가능하고 자료의 구조에 대한 정보 파악이 가능하다.
  • 예를 들어 10, 12, 15, 21, 24, 36, 36 이라는 데이터가 있으면 아래와 같이 표현한다.
1 0, 2, 5
2 1, 4
3 6, 6

 

  • 상자수염그림수치적 자료를 표현하는 그래프이다.
  • 가공하지 않은 자료를 그대로 이요하여 그리는 것이 아니고, 자료로부터 얻어낸 통계량인 다섯 가지 요약수치를 통해 그리게된다.
  • 이 때 사용하는 요약 수치는 최속값, 제 1사분위, 제 2사분위, 제 3사분위이다.

 

 

 


 

1. 탐색적 데이터 분석 및 필요성에 대한 설명으로 틀린 것은?

1) 수집한 데이터가 들어왔을 때 다양한 방법을 통해 자료를 관찰하고 이해하는 과정이다.
2) 데이터의 분포 및 값을 검토하여 데이터가 표현하는 현상을 이해한다.
3) 문제점 발견 시 본 분석 전 데이터의 수집의사를 결정한다.
4) 최초의 가설에 집중하여 원하는 패턴과 양상에 맞는지에 집중하여 검증한다.

4

 

2. 피어슨 상관계수에 대한 설명으로 옳은 것은?

1) 두 변수 간의 비선형 상관관계를 계량화한 수치이다.
2) 두 변수 간의 연관관계가 있는지 밝혀주며 이상점이 존재하거나 표본크기가 작을 때 유용하다.
3) 피어슨 상관계수는 1~-1사이의 값을 가진다.
4) 데이터가 서열자료인 경우 유용하게 사용된다.

3

 

3. (     )는 기초 통계량 중 자료분포의 형태를 알아보는 기초 통계량으로, 분포가 어느 한 쪽으로 치우친 정도를 나타내는 통계적 척도이다.

왜도

728x90
반응형