본문 바로가기
자격증/빅데이터 분석기사

3_2. 분석기법 적용_고급 분석기법

by 이민우 2022. 3. 20.
728x90
반응형

출처 : https://book.naver.com/bookdb/book_detail.nhn?bid=20885185 

 

이기적 빅데이터분석기사 필기 기본서

본 도서는 최신 출제기준을 적용한 도서로, 빅데이터분석기사 필기 시험의 출제 경향을 철저히 분석하여 수험생들이 혼자서도 학습할 수 있도록 한 완벽 대비서입니다. 시행처에서 공개한 출제

book.naver.com

*해당 글은 학습을 목적으로 위의 도서 내용 중 일부 내용만을 요약하여 작성한 포스팅입니다.

 상세한 내용 및 전체 내용 확인을 원하신다면 도서 구매를 추천드립니다.


 

 

범주형 자료분석

  • 범주형 자료분석변수들이 이산형일 때 주로 사용하는 분석이다.
  • 범주형 변수를 다룰 때에는 그 빈도를 세서 표를 작성하게 된다.
  • 만약 두 변수의 범주가 교차되어 있다면 이를 분할표라고 부른다.
  • 분할표는 범주형 변수를 요약하여 표현하기에 적당하다.
  • 분할표를 기반으로 범주형 변수의 독립성, 동질성 검정 등 카이제곱 검정을 수행할 수도 있다.
  • 또한 분할표는 선형모형을 해석하는 과정에서도 사용된다.

 

  • 자료의 형태에 따라 범주형 자료분석은 다음과 같은 방법을 사용할 수 있다.
독립변수 종속변수 분석방법
범주형 범주형 빈도분석, 카이제곱 검정
로그선형모형
범주형 연속형 T검정
분산분석
연속형 범주형 로지스틱 회귀 분석
연속형 연속형 상관분석, 회귀분석
  • 빈도분석질적자료를 대상으로 빈도와 비율을 계산할 때 사용된다.
  • 데이터에 질적자료와 양적자료가 많을 때 질적자료를 대상으로 오류가 있는지 확인할 수 있다.
  • 교차분석 또는 카이제곱검정두 범주형 변수가 서로 상관이 있는지 혹은 독립인지를 판단한다.
  • T 검정독립변수가 범주형이고 종속변수가 연속형인 경우 사용한다.
  • 주로 두 집단 간 평균 비교등에 사용된다.
  • 분산분석은 독립변수가 범주형이고 종속변수가 연속형인 경우 사용된다.
  • 두 집단간 분산 비교 등에 사용된다.
  • 로지스틱 회귀분석은 대상이 어느 집단으로 분류되는지 분석한다.

 

 

다변량분석

  • 다변량분석은 조사 중인 각 개인 혹은 대상물에 대한 다수의 측정치를 동시에 분석하는 모든 통계정 방법이다.

 

  • 다변량분석에서 사용되는 용어는 아래와 같다.
  • 종속 기법 : 변수들을 종속변수와 독립변수로 구분하여 독립변수가 종속변수에 미치는 영향 분석
  • 상호의존적 기법 : 분석할 변수들을 종속변수와 독립변수로 구분하지 않고 전체를 대상으로 분석
  • 명목 척도 : 분류만을 위해 사용된 숫자로, 숫자 그 자체에는 전혀 의미가 없다.
  • 순위 척도 : 선호되는 순위를 나타낸 숫자로, 숫자 자체로의 의미는 있으나 간격이나 비율에는 의미가 없다.
  • 등간 척도 : 측정된 숫자 자체와 차이는 의미를 가지나 숫자의 비율은 의미를 가지지 못한다.
  • 비율 척도 : 측정된 숫자와 그 간격은 물론, 숫자의 비율까지 의미를 가진다.
  숫자 자체 숫자의 간격 숫자의 비율
명목척도 x x x
순위척도 o x x
등간 척도 o o x
비율 척도 o o o
  • 정량적 자료등간척도나 비율척도로 측정된 자료로, 양적자료 또는 모수화된 자료라고도 한다.
  • 비정량적 자료명목척도나 순위척도로 측정된 자료로, 질적 자료 혹은 비모수화 자료라고도 한다.
  • 변수가 수집된 자료 그 자체라면, 변량은 이러한 변수들을 통계적인 방법으로 가중치를 둔 후 합하여 나타난 새로운 변수이다.

 

  • 다변량분석기법의 종류는 다중회귀분석과 다변량분석, 다변량공분분산분석, 정중상관분석, 요인분석, 군집분석, 다중판별분석이 있다.

 

  • 다중회귀분석하나의 계량적 종속변수와 하나 이상의 계량적 독립변수 간의 관련성이 있다고 가정한다.
  • 다수의 독립변수의 변화에 따른 종속변수의 변화를 예측한다.
  • 회귀모형의 적합도와 독립변수들이 종속변수를 설명하는 정도, 기여도 등을 파악할 수 있다.

 

  • 다변량분산분석두 개 이상의 범주형 독립변수와 다수의 계량적 종속변수 간 관련성을 동시에 알아볼때 사용한다.
  • 두 개 이상의 계량적 종속변수에 대한 각 집단의 반응치의 분산에 대한 가설을 검증하는데 매우 유용하다.

 

  • 다변량공분산분석실험에서 통제되지 않은 독립변수들의 종속변수들에 대한 효과를 제거하기 위해 다변량분산분석과 함께 이용된다.
  • 절차 자체는 이변량부분상관과 비슷하다.

 

  • 정준상관분석은 하나의 계량적 종속변수와 다수의 계량적 독립변수간의 관련성을 조사하는 다중회귀분석을 논리적으로 확대한 것이다.
  • 변수군의 선형조합을 찾아내는 일에 집중하여, 종속변수와 독립변수 간 상관을 최대화하는 각 변수의 가중치의 집합을 찾아낸다.

 

  • 요인분석변수간 상호관련성을 분석하고 공통 요인들로 설명하고자 할 때 이용한다.
  • 많은 수의 원래 변수들은 이보다 적은 수의 요약하기 위한 분석기법이다.
  • 요인분석은 주로 검사나 측정도구의 개발과정에서 측정도구의 타당성을 파악하기 위한 방법으로 사용된다.

 

  • 군집분석집단에 관한 사전정보가 전혀 없는 각 표본에 대하여 그 분류체계를 찾을 때 사용한다.
  • 즉 각 표본을 표본들 간의 유사성에 기초해 한 집단에 분류시키고자 할 때 사용한다.
  • 이 때 집단은 사전에 정의되어 있지 않다.

 

  • 다중판별분석종속변수가 비계량적 변수일 경우 사용된다.
  • 집단 간의 차이를 판별한다.

 

  • 다차원척도법은 다차원 관측값 또는 개체들 간의 거리 또는 비유사성을 이용해 개체들을 원래보다 낮은 차원공간상에 위치시켜 구조 및 관계를 파악한다.

 

 

 

시계열분석

  • 시계열 자료란 시간의 흐름에 따라 관측되는 자료이다.
  • 시계열분석은 시계열 자료를 분석하고, 변수들 간의 인과관계를 분석하는 방법이다.
  • 이때 시계열은 이산 시계열과 연속 시계열로 나뉘는데, 연속 시계열은 연속적인 값이고 이산 시계열은 이산적인 형태로 분리된 값이다.

 

  • 시계열자료는 다음의 특징을 가진다.
  • 시간에 따른 규칙적인 움직임이 없는, 즉 랜덤하게 변화하는 불규칙 성분을 가진다.
  • 동시에 시간에 따른 규칙이 존재하는 변동성분인 체계적 성분도 가진다.
  • 추세성분이란 관측값이 지속적으로 증가 혹은 감소하는 추세이다.
  • 계절성분주기적 성분에 의해 변동을 가지는 형태이다.
  • 순환성분은 주기적 변화를 가지나 계절적인 것이 아닌 그보다 긴 변동을 가지는 형태이다.
  • 만약 추세성분과 계절성분을 동시에 가진다면 복합성분을 가졌다 표현한다.
  • 시계열 데이터에서 시차값들 사이에 선형관계를 보이는 것을 자기상관이라 한다.
  • 자기상관성이 없는 시계열 데이터백색잡음이라 지칭하며, 아무런 패턴이 남아있지 않은 무작위한 움직임을 보이는 데이터이다.

 

  • 시계열 데이터의 평균과 분산이 일정할 경우, 시계열은 정상성을 가졌다 말한다.
  • 정상성을 가진 데이터는 분석이 용이한 형태이다.
  • 정상성을 가지기 위해서는 밑의 세 가지 요건이 필요하다.
  • 평균이 일정하다.
  • 분산이 일정하다.
  • 공분산의 경우 시차에는 의존하나 특정시점에 의존하지 않는다.
  • 정상성을 가진 시계열 자료는 어떤 시점에서 평균분산과 특정 시차가 일정한 경우 공분산이 동일하다.
  • 평균회귀 경향이 있어 평균 주변의 변동은 대체로 일정한 폭을 가진다.
  • 특정기간에서 얻은 정보를 다른 시기에서 사용 가능하다. 즉 일반화가 가능하다.

 

  • 시계열자료의 분석 방법으로는 아래와 같은 방법들이 있다.
예측 목적 단순 방법 추세 분석, 이동평균
평활법
분해법
모형 기반 자기회귀모형 (AR)
자기회귀이동평균모형(ARMA)
자기회귀누적이동평균모형(ARIMA)
이해 목적 스펙트럼분석
개입분석
  • 이동평균법 과거로부터 현재까지 시계열 자료를 대상으로 일정기간을 시계열 이동하며 평균을 계산하는 방법이다.
  • 이를 통해 추세를 파악하며 다음기간을 예측할 수 있다.
  • 데이터가 뚜렷한 추세가 있거나 불규칙 움직임이 적은 경우 짧은 관찰기간을 사용하고, 반대의 경우 관찰기간을 늘린다.

 

  • 지수평활법은 이동평균과 달리 관찰기간의 제한이 없어 모든 시계열 데이터를 사용한다.
  • 대신 최근 시계열에 더 많은 가중치를 주며 추세를 찾는다.
  • 지수평활법은 중기 이상의 예측에 주로 사용한다.
  • 지수평활계수가 작으면 지엽적 변화에 민감하고, 반대로 크면 둔감해진다.

 

  • 분해법시계열자료의 성분 분류대로 시계열 데이터를 분해한다.
  • 시계열로부터 체계적 성분을 분리하여 분석, 예측하는 목적이 있다.
  • 즉 주 목적은 시계열 자료를 분해된 성분별로 해석하여 계절적 특성, 추세/순환 성분을 분리하여 추이를 분석한다.

 

  • 자기회귀모형(AR) 과거의 패턴이 지속된다면 시계열 데이터 관측치는 과거 관측치에 의해 예측할 수 있을 것이라 생각하고 예측한다.
  • 백색잡음을 사용하는데, 이는 오차항을 의미한다.

 

  • 자기회귀이동평균모형(ARMA)시계열 데이터 관측치가 과거 관측치들과 과거오차들에 의해 설명된다.

 

  • 자기회귀누적이동평균모델 (ARIMA)비정상성을 가지는 시계열 분석에 사용된다.
  • ARIMA(p, d, p)로 사용된다.
  • 이 때 d=0이면 정상성을 가지는 데이터가 된다.
  • p=0이면 d번 차분하면 MA(q) 모형을 따른다.
  • q=0이면 d번 차분하면 AR(p) 모형을 따른다.

 

 

딥러닝 분석

  • 인공신경망은 기계학습과 인지과학에서 생물의 신경망을 통해 영감을 얻은 알고리즘이다.
  • 하지만 몇 가지 문제가 존재했는데, 컴퓨터의 연산수준이 떨어졌고, 최초 시작점 즉 초기치에 지나치게 의존적이었다.
  • 그리고 과적합 문제가 많이 발생했다.

 

  • 이에 비선형 변환기법의 조합을 토애 높은 수준의 추상화를 시도하는 딥러닝이 이러한 단점을 극복하여 조명되었다.
  • 기존에는 하나의 은닉층을 두었다면 딥러닝은 다수의 은닉층을 가진다.

 

  • 딥러닝의 분석 알고리즘 중 가장 기초적인 것은 DNN이 있다.
  • DNN은 입력층과 출력층 사이에 다수의 은닉층을 가진다.

 

  • CNN은 최소한의 전처리만을 사용할 수 있도록 설게된 다층 퍼셉트론의 한 종류이다.
  • 2차원 구조의 입력 데이터를 충분히 활용할 수 있기에 영상이나 음성 분야에 좋은 성능을 보인다.
  • 파생 알고리즘으로 CDBN이 있는데, CNN과 DBN(심층 신뢰 신경망)의 결합으로 만들어져 영상과 신호처리분야에 자주 사용된다.

 

  • RNN은 인공지능을 구성하는 유닛 사이의 연결이 순환적 구조를 갖는다.
  • 순환 신경망은 시퀀스 데이터 모델링을 위해 등장했다. 기존의 뉴럴네트워크와 달리 기억을 갖고있는데, 이는 현재시점까지의 입력 데이터를 요약한 정보이다.
  • RNN은 입력이 들어올 때마다 자신의 기억을 조금씩 수정한다. 그리고 모든 입력을 처리하고 난 후 해당 기억은 시퀀스 전체에 대한 요약정보가 된다.

 

  • DBN(심층 신뢰 신경망)은 기계학습에서 사용되는 그래프 생성모형이다.
  • 딥러닝에서 잠재변수란 다중계층으로 이루어진 심층 신경망을 의미한다. 계층 간의 연결은 있지만 계층 내의 유닛 간에는 연결이 없다는 것이 특징이다.
  • DBN은 선행 학습을 통해 초기 가중치를 학습한 후 역전파 또는 다른 판별 알고리즘을 통해 가중치의 미조정을 할 수 있다.
  • 이 특성은 훈련용 데이터가 적을 때 유용하게 작용한다.

 

 

비정형 데이터

  • 비정형 데이터는 데이터 셋이 아닌 하나의 데이터가 수집 데이터로 객체화 되어있다.
  • 언어 분석이 가능한 텍스트 데이터나 이미지, 동영상 같은 멀티미디어가 예시이다.

 

  • 비정형 데이터의 분석은 기본적으로 데이터 속의 패턴 발견을 목적으로 한다.
  • 데이터 마이닝은 대규모로 저장된 데이터 속에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 분석하여 가치있는 정보를 추출하는 과정이다.
  • 텍스트 마이닝은 데이터 마이닝의 한계에서 벗어나 대규모 문서에서 정보와 연계성 등을 파악한다.
  • 웹 마이닝은 웹자원으로부터 패턴, 프로파일, 추세 등을 발견한다.
  • 오피니언 마이닝은 텍스트 속에서 의견이나 평가, 태도, 감정 등과 같은 주관적 정보를 식별하고 추출한다.
  • 리얼리티 마이닝은 사람들이 매일 사용하는 스마트폰 등의 기계나 센서에서 비정형 데이터를 추출하는 방법이다.

 

 

앙상블 분석

  • 앙상블 기법은 주어진 자료로부터 여러 개의 학습 모형을 만든 후 조합하여 하나의 최종 모형을 만드는 개념이다.
  • 종류로는 보팅, 부스팅, 배깅이 있다.

 

  • 보팅은 말 그대로 투표를 통해 결정한다.
  • 배깅과의 차이점은, 배깅은 같은 모델들이 투표를 하지만 보깅은 서로 다른 모델들이 투표를 실행한다.
  • 하드 보팅은 결과물에 대한 최종 값을 투표하고, 소프트 보팅은 결과물에 대한 확률값을 합산한다.

 

  • 부스팅은 가중치를 활용하여 연속적인 약학습기를 생성하고, 이를 통해 강학습기를 만든다.
  • 즉 학습 후 예측이 정확하지 않은 부분에 대해 재삭습을 거친다.
  • 학습 시간이 오래 걸린다.

 

  • 배깅부트스트래핑을 통해 샘플을 여러 번 뽑고 결과물을 집계한다.

 

 

비모수 통계

  • 모수란 어떠한 시스템이나 함수의 특정한 성질을 나타내는 변수이다.
  • 비모수 통계란 통계학에서 모수에 대한 가정을 전제로 하지 않고 모집단의 형태에 관계없이 주어진 데이터에서 직접 확률을 계산하여 통계학적 검정을 하는 분석이다.

 

  • 비모수적 통계 검정 방법은 아래와 같다.
  • 부호검정은 관측치들 간 크고작음에 대한 주장을 검정한다.
  • 윌콕슨 부호순위 검정은 크거나 작음을 나타내는 부호 뿐 아니라 관측치간 차이의 크기 순위까지 고려하여 검정한다.
  • 만 위트니 검정은 두 집단 간 중심위치를 비교하기 위해 사용하는 검정 방법이다.
  • 크루스칼-왈리스 검정은 3개 이상의 집단의 중앙값 차이를 검정한다.

 


1. 다음은 어떤 성질에 대한 설명인가?

시계열이 시차값 사이에 선형관계를 보이는 성질이다.
이런 성질이 없는 시계열은 백색 잡음이라 부른다.

1) 순환성분
2) 계절성분
3) 자기상관성
4) 규칙성분

3

 

2. 다음 중 자기회쉬모형(AR)에 대한 설명으로 옳은 것은?

1) 일정 시점 전의 자료가 현재 자료에 영향을 준다는 가정 하에 만들어진 시계열 예측 모델이다.
2) 비정상성을 가지는 시계열 데이터 분석에 많이 사용된다.
3) 이동평균모형과 결합된 형태로 나누어진다.
4) 시계열이 체계적 성분과 불규칙적 성분으로 이루어져 있다는 가정 하에 체계적 성분을 시계열로부터 분리하여 분석/예측을 목적으로 하는 기법이다.

1

 

3. 앙상블 분석의 종류들에 대한 설명으로 옳은 것은?

1) 하드보팅은 최종 결과물이 나올 확률값을 합산한다.
2) 부스팅은 가중치를 활용하여 연속적인 약학습기를 생성하고 이를 통해 강분류기를 만든다.
3) 배깅은 샘픙르 여러 번 뽑아 각 모델을 학습시켜 결과물을 경쟁시킨다.
4) 다중회귀분석은 배깅 기법을 활용한 모델이다.

2

728x90
반응형