본문 바로가기
자격증/ADSP

ADSP_3과목_통계 분석

by 이민우 2021. 2. 9.
728x90
반응형

book.naver.com/bookdb/book_detail.nhn?bid=15989437

 

ADsP 데이터 분석 준전문가 (동영상 핵심정리 + 최신기출 + 예상문제 660)

▷ 카카오톡 실시간 1:1 질문답변 가능 ( 카카오톡 플러스친구 '데이터에듀' 검색)▷ 핵심포인트를 정리한 합격마법노트 + 무료 문제풀이 동영상 서비스▷ 30일 완전 정복으로 일정 관리가능본 도

book.naver.com

*해당 글은 학습을 목적으로 위의 도서 내용 중 일부 내용만을 요약하여 작성한 포스팅입니다.

 상세한 내용 및 전체 내용 확인을 원하신다면 도서 구매를 추천드립니다.

 

 

통계

  • 통계집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태의 표현

 

 

통계자료 획득 방법

  1. 총조사 (전수 조사) : 대상 집단 모두를 조사한다.
  2. 표본 조사 : 모집단에서 샘플을 추출하여 진행하는 조사
모집단 : 대상 집단 전체
원소 : 모집단을 구성하는 개체
표본 : 조사하기 위해 추출한 모집단의 일부 원소
모수 : 모집단에 대한 정부

 

 

표본 추출 방법

  • 표본조사는 모집단을 대표할 수 있도록 표본을 추출하는 것이 중요하다.
  1. 단순 랜덤 추출법 : 임의의 n개의 샘플을 추출하는 방법
  2. 샘플 추출법 : 번호를 부여한 샘플을 나열하여 k개의 구간으로 나누고 k개씩 띄어 n 개의 표본 추출
  3. 집락 추출법 : 군집을 구분하고 군집별로 단숨랜덤 추출법 적용 후 샘플링 혹은 모든 자료 활용
  4. 층화 추출법 : 원소들을 계층으로 나눈 후 각 계층에서 랜덤하게 추출하는 방법

 

 

측정

  • 명목척도 : 측정 대상이 어느 집단에 속하는가?
  • 순서척도 : 측정 대상의 서열관계 관측
  • 구간척도 : 측정 대상이 가진 속성의 양을 측정해 간격의 의미가 있음
  • 비율척도 : 간격에 대한 비율이 의미를 가진다. 0이 절대적 기준이고 사칙연산 가능

*서열척도는 명목척도와 달리 매겨진 숫자의 크기를 의미있게 사용한다.

*구간척도는 절대적 크기는 측정할 수 없어 +,-는 가능하지만 *,/는 불가능하다.

 

 

통계분석

1) 기술통계

  • 판단이나 예측과 같은 주관이 섞일 수 있는 과정을 배제하고 여러 특성을 수량화해 객관적인 데이터로 나타내는 방법
  • 샘플의 특징인 평균, 표준편차 등을 구하는 것

2) 통계적 추론 (추측통계)

  • 샘플을 통해 모집단을 추정하는 것.
  • 모수추정 : 표본집단으로부터 모집단의 특성인 모수(평균, 분산 등)를 구한다.
  • 가설검정 : 대상집단에 가설을 설정하고 옳은지 그른지 결정한다.
  • 예측 : 미래의 불확실성을 해결해 효율적인 의사결정을 한다.

 

 


확률

  • 표본공간 : 실험에 대한 모든 결과의 집합
  • 사건 : 표본공간의 부분집합
  • 원소 : 나타날 수 있는 개별의 결과
  • 확률변수 : 특정값이 나타날 가능성이 확률적으로 주어지는 변수 (정의역:표본공간 / 치역:실수값)

 

 

확률 분포

  • 이산형 확률 변수 : 0이 아닌 확률값을 갖는 확률 변수를 셀 수 있는 경우.
  1. 베르누이 확률분포 : 결과가 2개만 나오는 경우
  2. 이항분포 : 베르누이 시행을 n번 반복했을 때 k번 성공할 확률
  3. 기하분포 : 성공확률이 p인 베르누이 시행에서 첫번째 성공이 있기까지 x번 실패할 확률
  4. 다항분포 : 이항분포를 확장한 것으로, 세 가지 이상의 결과를 가지는 반복 시행
  5. 포아송분포 : 시간과 공간 내에서 발생하는 발생횟수에 대한 확률분포

 

  • 연속형 확률분포 : 가능한 값이 특정 구간 전체에 해당하는 확률변수
  1. 균일분포 : 모든 확률분포 x가 균일한 확률을 가지는 분포
  2. 정규분포
  3. 지수분포 : 어떤 사건이 발생할 때까지 경과 시간에 대한 연속확률분포
  4. t-분포 : 평균이 0을 중심으로 좌우가 동일한 분포
  5. x^2-분포 : 모평균과 모분산이 알려지지 않은 모집단의 모분산에 대한 가설 검정에 이용
  6. F-분포 : x^2 분포와 달리 자유도를 두 개 가지고 있으며, 자유도가 커질수록 정규분포에 가까움

*t-분포는 두 집단의 평균이 동일한지 알고자 할 때 검정통계량으로 사용

*x^2-분포는 두 집단 간 동질성 검정에 사용

*F-분포는 두 집단 간 동일성 검정에 사용

 


추정

  • 표본으로부터 미지의 모수를 추측하는 것
  • 점추정 : 모수가 특정할 값일 것이라고 추정하는 것.
  • 구간추정 : 모수가 특정 구간에 있을 것이라 선언하는 것.

 

 

가설검정

  • 모집단에 가설 설정 뒤 표본관찰을 통해 가설의 채택여부 결정
  1. 귀무가설 : 비교하는 값과 차이가 없이 동일하다.
  2. 대립가설 : 뚜렷한 증거가 있어야 주장하는 가설
  3. 검정통계량 : 관찰된 표본으로부터 구하는 통계량으로 가설의 진위 여부 판단
  4. 유의수준 : 귀무가설이 옳은데도 기각하는 확률의 크기
  5. 기각역 : 귀무가설이 옳다는 전제 하에 구한 검정통계량의 분포에서 확률이 유의수준 a인 부분

*제 1종 오류 : 귀무가설이 옳은데 기각하는 오류

*제 2종 오류 : 귀무가설이 옳지 않은데 채택하는 오류

 

 

비모수검정

  • 모집단의 모수에 대한 검정은 모수적 검정과 비모수적 검정으로 나뉜다.
  • 모수적 검정 : 검정하고자 하는 모집단의 분포를 가정하고 검정 실시
  • 비모수적 검정 : 모집단에 분포에 아무러 제약을 가하지 않고 검정을 실시한다.

 

비모수적 검정

  • 특정분포를 따른다고 가정할 수 없는 경우에 이용
  • 자료의 수가 많지 않거나 자료가 개체 간 서열 관계를 나타낼 때 이용
  • 부호검정, 윌콕슨의 순위합검정, 윌콕슨의 부호순위합검정, 만위트니의 u검정, 런검정, 스피어만의 순위상관계수

*비모수적 검정은 가설을 하되, 분포의 형태에 대해서만 가설한다.

*비모수적 검정은 관측값의 절대적인 크기에 의존하지 않고 순위나 차이 부호등으로 검정한다.

 

 


기술통계

  • 자료의 특성을 표, 그림 등을 통해 쉽게 파악할 수 있도록 정리하고 요약하는 것
  • 자료를 요약하는 기초적인 통계이다.

 

 

 

통계량에 의한 자료 정리

  1. 중심위치의 측도 : 자료, 표본평균, 중앙값
  2. 산포의 측도 : 분산, 표준편차, 사분위수범위
  3. 분포의 형태에 관한 측도 : 왜도, 첨도

 

 

그래프를 이용한 자료 정리

  1. 히스토그램 : 표로 되어 있는 도수 분포
  2. 막대그래프 : 범주형으로 구분된 데이터
  3. 줄기-잎 그림 : 데이터를 줄기와 잎의 모양으로 그린 그림
  4. 상자 그림 : 사분위수범위, 안울타리, 바깥울타리, 보통이상점, 극단이상점을 요약해서 그림으로 표현

*히스토그램은 연속형이라 순서를 바꿀 수 없으나, 막대그래프는 순서 변경 가능

 


 

인과관계

  • 종속변수 : 다른 변수에 영향을 받는 변수
  • 독립변수 : 다른 변수에 영향을 받지 않는 변수
  • 산점도 : 좌표평면 위에 점들로 표현한 그래프
  • 공분산 : 두 확률변수의 방향의 조합 (선형성)으로, 방향성을 확인할 수 있다.

*만약 X,Y가 서로 독립이면 공분산은 0이다.

 

 

상관분석

  • 두 변수 간의 관계의 정도를 알아보는 분석방법
  • 피어슨 : 등간척도 이상으로 측정된 두 변수들의 상관관계 측정
  • 스피어만 : 서열척도인 두 변수들의 상관관계 측정

*상관계수가 0이면 두 변수는 아무 상관이 없다.

*피어슨은 연속형 변수에, 스피어만은 순서형 변수에 사용.

 


 

회귀분석

  • 하나 이상의 독립변수들이 종속변수에 미치는 영향을 추정하는 통계기법
  • 변수간의 인과관계를 밝힌다.
  • 독립변수가 하나이면 단순선형회귀분석, 두 개 이상이면 다중선형회귀분석

 

 

회귀분석의 변수

  • 영향을 받는 변수 : 반응변수, 종속변수, 결과변수
  • 영향을 주는 변수 : 설명변수, 독립변수, 예측변수

 

 

선형회귀분석의 가정

  • 선형성 : 입력변수와 출력변수의 관계가 선형이다.
  • 등분산성 : 오차의 분산이 입력변수와 무관하게 일정하다
  • 독립성 : 입력변수와 오차는 관련이 없다
  • 비상관성 : 오차들끼리는 상관이 없다.
  • 정상성 : 오차의 분포가 정규분포를 따른다.

 


단순선형회귀분석

  • 하나의 독립변수가 종속변수에 미치는 영향을 추정하는 통계기법

 

 

단순선형회귀분석 검토사항

  • 회귀변수들이 유의미한가?
  • 모형이 설명력을 잘 갖추었나?
  • 모형이 데이터를 잘 적합하고 있는가?

 

 

회귀변수 추정

  • 측정값으로 적당한 제곱합을 만들고 이를 최소로 하는 값을 구해 측정결과 처리

 

 

결정계수

  • 전체제곱합에서 회귀제곱합의 비율로, 회귀모형이 설명할 수 있는 설명력을 의미한다.
  • 결정계수를 통해 회귀식이 얼마나 타당한지 검토한다.

 

 


 

다중선형회귀분석

  • 모형의 통계적 유의성은 F통계량으로 확인한다.
  • t통계량으로 회귀계수의 유의성을 검토한다.
  • 모형의 설명력은 결정계수나 수정된 결정계수를 사용

 


 

최적회귀방정식

  • 전진선택법 : 정편만 있는 상수모형으로부터 시작해 중요하다는 생각되는 설명변수로부터 차례로 모형에 추가한다.
  • 후진제거법 : 독립변수 후보 모두를 포함한 모형에서 출발해 가장 적은 영향을 주는 변수부터 하나씩 제거
  • 단계선택법 : 전진선택법에 의해 변수를 추가하며, 새롭게 추가된 변수에 기인해 기존 변수의 중요도가 약화되면 제거

 


시계열 분석

시계열 자료

  • 시간의 흐름에 따라 관찰된 값
  • 분석을 통해 미래의 값을 예측하고 경향, 주기, 계절성 등을 파악하여 사용한다.

 

 

시계열 자료 종류

  • 비정상성 시계열 자료 : 시계열 분석을 실시하기 어려운 자료로 대부분의 시계열 자료가 해당
  • 정상성 시계열 자료 : 비정상 시계열을 핸들링해 다루기 쉬운 시계열 자료로 변환한 자료

 

 

정상성

  • 평균이 일정하지 않으면 차분을 통해 정상화한다.
  • 평균이 일정한 경우 : 모든 시점에 평균을 가진다.
  • 분산이 일정하지 않으면 변환을 통해 정상화한다.
  • 분산이 일정한 경우 : 모든 시점에 의존하지 않고 일정하다.
  • 공분산도 단지 시차에만 의존하고, 특정 시점에는 의존하지 않는다.

*차분 : 현시점 자료에서 전 시점 자료를 뺴는 것.

*일반차분 : 바로 전 시점의 자료를 빼는 것

*계절차분 : 여러 시점 전의 자료를 빼는 것으로 주로 계절성을 갖는 자료에 사용

 

 

정상 시계열의 특징

  • 어떤 시점에서 평균과 분산, 자기공분산을 측정해도 동일한 값을 갖는다.
  • 항상 평균값으로 회귀하려는 경향이 있어 평균값 주변에서의 변동은 일정한 폭을 갖는다.
  • 즉, 일정한 평균과 분산을 갖고, 공분한은 시차에만 의존한다.

 

 


시계열 모형

1) 자기회귀 모형 (AR 모형)

  • p 시점 전의 자료가 현재 자료에 영향을 주는 모형.
  • AR1 모형은 직전 시점 데이터로만 분석하고, AR2 모형은 연속된 3시점 정도의 데이터로 분석한다.

 

2) 이동평균 모형 (MA 모형)

  • 유한한 개수의 백색잡음의 결합으로, 언제나 정상성을 만족한다.
  • 1차 이동평균 모형은 간단한 모형으로, 시계열이 같은 시점의 백색잡음과 바로 전 시점의 백색잡음의 결합으로 이루어진다.
  • 2차 이동평균 모형은 바로 전 시점의 백색잡음과 시차가 2인 백색잡음의 결합으로 이루어진다.

 

3) 자기회귀누적이동평균모형 (ARIMA 모형)

  • 비정상시계열 모형이다.
  • ARIMA 모형은 차분하면 MA가 되고, 변환하면 AR이 된다.

 

4) 분해 시계열

  • 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법.
  • 회귀분석적인 방법을 주로 사용한다.

*시계열 요인 : 경향(추세)요인, 계절요인, 순환요인, 불규칙요인

 


 

다차원 척도법 (Multidimensional Scaling, MDA)

  • 객체간 근접성을 시각화하는 통계기법
  • 개체들을 대상으로 변수들을 측정한 후 개체들 사이의 유사성과 비유사성을 측정해 2차원 공간상에 점으로 표현
  • 데이터 속에 잠재한 패턴과 구조를 찾아내서 기하학적으로 표현한다.
  • 데이터의 축소 목적으로도 사용한다.

*개체들의 거리 계산에는 유클리드 거리행렬을 이용

 

 

다차원 척도법 종류

1) 계량적 MDS (Metric MDS)

  • 데이터가 구간척도나 비율척도인 경우 활용
  • 개체들간의 유클리드 거리행렬 계산 후 비유사성을 공간상에 표시

 

2) 비계량적 MDS (NonMetric MDS)

  • 데이터가 순서척도인 경우 활용
  • 순서척도를 거리의 속성과 같도록 변환하여 거리를 생성한 후 적용

 


 

주성분 분석

  • 변수들을 서로 상관성이 높은 변수들의 선형 결합으로 만들어 상관성이 높은 변수들을 요약하고 축소하는 기법

 

 

주성분 분석의 목적

  • 소수의 주성분으로 차원을 축소해 데이터를 이해하기 쉽게 만든다.
  • 다중공선성 존재시 상관성이 없는 주성분들로 변수를 축소해 모형 개발에 활용
  • 군집분석 전에 수행하여 차원을 축소시켜 군집화 결과와 연산속도 개선
  • 고장 징후 사전에 파악 가능

 

 

주성분분석 vs 요인분석

  • 요인분석 : 등간척도로 측정한 두 개 이상의 변수들에 잠재된 공통인자를 찾아내는 기술
  • 두 분석 모두 데이터를 축소하는데 사용된다.
  • 두 분석 모두 원래의 데이터를 활용해 새로운 변수를 만들 수 있다.
  • 하지만 주성분분석은 4개 이상의 변수를 만들지 않는다. (요인분석은 제한 없음)
  • 주성분분석은 제1주성분, 제2주성분 등으로 생성한 변수명을 통일한다.
  • 요인분석은 분석자가 직접 명명한다.
  • 주성분분석으로 만들어진 변수들은 중요도가 있다.
  • 요인분석으로 만들어진 변수들은 중요도가 없이 모두 평등하다.
  • 주성분분석은 목표 변수를 선형 결합으로 묶는다.
  • 요인분석은 그냥 비슷한 성격들로 묶는다.

 

 

 

 

 




 

 

1.  다음 중 모집단에서 표본을 추출하는 방법이 아닌 것은?

1) 단순랜덤추출법
2) 계통추출법
3) 층화추출법
4) 깁스추출법

4

2. 다음 중 0이 절대적 기준인 척도는 무엇인가?

1) 명목척도
2) 순서척도
3) 구간척도
4) 비율척도

4

3. 1종 오류에서 내린 판정이 잘못되었을 때의 실제 확률은 (가)로 나타낼 수 있다.

p-value

4. 비모수적 검정 방법에 대해 옳지 않은 것은?

1) 비모수적 검정은 모집단의 분포에 대해 아무런 제약을 가하지 않는다.
2) 관측된 자료가 특정 분포를 따른다고 가정할 수 없는 경우 이용한다.
3) 분포의 형태에 대해 가설을 설정한다.
4) 비모수 검정은 관측값의 절대적 크기에 의존해 평균, 분상 등으로 검정을 실시한다.

4

5. 스피어만 상관계수에 대한 설명으로 틀린 것은?

1) 비선형적 상관관계를 나타내지 못한다.
2) 서열척도로 측정된 변수간 관계를 측정한다.
3) -1과 1 사이의 값을 가진다
4) 0은 상관관계가 없음을 의미한다.

1

6. 다중 회귀 분석에서 적합한 회귀모형을 찾을 때, 회귀식에 대한 검정은 독립변수의 기울기가 0이라는 가정을 (가)로 세우고, 기울기가 0이 아니라는 가정을 (나)로 세운다.

귀무가설, 대립가설

7. 다음 중 시계열을 구성하는 요소가 아닌 것은?

1) 계절요인
2) 교호요인
3) 순환요인
4) 추세요인

2

8. 번호를 부여한 샘플을 나열하여 k개씩 n개의 구간으로 나누고, 첫 구간에서 임의로 하나를 선택한 후 k 개씩 띄어서 표본을 선택하는 표본 추출법은 (가)이다.

계통 추출법

9. 독립변수 후보를 포함한 모형에서 시작해 적은 영향을 주는 변수들을 하나씩 제거하는 방법은?

후진제거법

728x90
반응형

'자격증 > ADSP' 카테고리의 다른 글

ADSP_3과목_정형 데이터 마이닝  (0) 2021.02.11
ADSP_3과목_데이터 마트  (0) 2021.02.08
ADSP_3과목_R 프로그래밍 기초  (0) 2021.02.04
ADSP_3과목_데이터 분석  (0) 2021.02.02
ADSP_2과목_분석 마스터 플랜  (0) 2021.02.01