본문 바로가기
자격증/빅데이터 분석기사

2_3. 통계기법의 이해_추론통계

by 이민우 2022. 3. 19.
728x90
반응형

출처 : https://book.naver.com/bookdb/book_detail.nhn?bid=20885185 

 

이기적 빅데이터분석기사 필기 기본서

본 도서는 최신 출제기준을 적용한 도서로, 빅데이터분석기사 필기 시험의 출제 경향을 철저히 분석하여 수험생들이 혼자서도 학습할 수 있도록 한 완벽 대비서입니다. 시행처에서 공개한 출제

book.naver.com

*해당 글은 학습을 목적으로 위의 도서 내용 중 일부 내용만을 요약하여 작성한 포스팅입니다.

 상세한 내용 및 전체 내용 확인을 원하신다면 도서 구매를 추천드립니다.


 

통계적 추론

  • 통계적 추론통계적 추측, 추론 통계학이라고도 불린다.
  • 모집단에 대한 어떤 미지의 양상을 알기위해 통계학을 이용하여 추측하는 과정이다.
  • 추정가설검정으로 나눌 수 있다.
  • 추정표본을 통해 모집단의 특성이 어떠한가에 대해 추측하는 것이다.
  • 그리고 가설검정은 모집단 혹은 표본에 대한 정보를 이용해 가설이 올바른지 판정하는 과정이다.

 

점추정

  • 모수에 대한 모평균이나 모표준편차 같은 추정치를 이에 대응하는 통계량으로 추정하는 것이다.
  • 추정량의 선택기준은 불편성, 효율정, 일치성, 충분성이 있다.
  • 추정량 중 최소의 분산을 가지는 추정량이 가장 효율적이다.
  • 여기서 최소분산불편추정량은 모든 불편 추정량 중 가장 작은 분산을 가지는 추정량이다.

 

  • 점추정량은 모집단의 특성을 단일값으로 추정한다.
  • 대표적인 점추정량은 표본평균, 표본분산, 중앙값 등을 사용한다.
  • 점추정의 방법으로는 적률방법, 최대우도측정법이 있다.

 

  • 적률 방법에서 적률양수 n에 대해 확률변수의 기댓값을 원점에 대한 n차 적률이라고 한다.
  • 표본평균을 이용할 때 적률을 사용할 수 있다.
  • m개의 모수가 있다면 n개의 표본으로부터 m개의 적률을 이용해 모수의 추정값을 얻는다.

 

  • 편향추정량과 모수의 차이이다. 추정량이 모수에 가까울수록 좋다.
  • 편향이 0이 되는 상황의 추정량을 불편추정량이라 한다.
  • 참고로 표본평균은 불편추정량이나 표본분산은 불편추정량이 아니다.

 

  • 최대우도점추정에서 우도함수는 주변확률밀도함수의 곱으로 표현이 가능하다.
  • 최대우도주어진 관찰값을 가장 잘 설명해주는 모수의 추정량이다.

 

 

구간추정

  • 점추정은 모집단의 모수를 하나의 값으로 추정해주는 것이다.
  • 하지만 이 방법은 아무래도 정확하다고 주장할 수는 없는데, 구간추정 또는 신뢰구간을 적용하면 보다 정확한 결과를 추출할 수 있다.
  • 구간추정이란 점추정에 오차의 개념을 도입하여 모수가 포함되는 확률변수구간을 어떤 신뢰성 아래 추정하는 것이다.
  • 구간의 크기가 작을수록 실제모수를 조금 더 정확하게 추정할 수 있다.
  • 신뢰수준과 유의수준이라는 개념이 나오는데, 신뢰수준은 추정한 구간에 모수가 들어갈 확률, 유의수준은 그렇지 않을 확률이다.

 

 

가설검정

  • 모집단에 대한 가설을 설정하고 표본을 분석함으로써 가설의 타당성을 결정하는 기법이다.
  • 검정통계량은 표본을 근거로 가설의 채택여부를 결정지을 때 사용하는 표본통계량이다.
  • 가설검정은 검정통계량의 표본분포에 따라 채택여부를 결정짓는 일련의 통계적 분석과정이다.

 

  • 가설검정은 오류의 허용확률을 정해놓고 그 기준에 따라 가설의 채택이나 기각을 결정한다.
  • 가설은 귀무가설과 대립가설로 나눌 수 있다.
  • 귀무가설통념적으로 믿어지고 있는 주장 또는 원래의 기준이 되는 가설이다.
  • 대립가설새로운 통계적 입증을 이루어내고자 하는 가설이다.
  • 귀무가설이 참일 때 귀무가설을 기각하면 제 1종 오류가 발생한다.
  • 반대로 귀무가설이 거짓인데 귀무가설을 채택하면 제 2종 오류가 발생한다.
  • 유의수준제 1종 오류를 범할 확률의 최대 허용한계를 정한 것으로, 위험률이라고도 하며 가설검정의 판단의 기준으로 사용한다.

 

  • 귀무가설을 기각하게 되는 검정통계량의 범위기각역이라 하며, 기각역의 경계값임계치라 한다.
  • 임계치유의수준에서 귀무가설의 채택과 기각에 관한 의사결정을 할 시 기준이 되는 점이다.
  • 기각역은 검정통계량의 확률분포와 유의수준과 대립사설의 형태에 따라 단측 또는 양측 검정통계량이 설정된다.
  • 단측 검정은 가설검정에서 기각영역이 어느 한 쪽에만 있는 경우이다.
  • 양측 검정은 가설검정에서 기각영역이 양쪽에 있는 경우이다.

 

  • 검정통계량의 계산에는 P-VALUE 등이 사용될 수 있다.
  • p-value귀무가설을 기각하려고 할 때 필요한 최소의 유의수준이다.
  • 유의수준과 비교하여 작으면 기각, 크면 채택한다.

 

 


 

1. 모수와 모수추정의 개념에 대한 설명으로 틀린 것은?

1) 모수는 모집단의 특성을 수치화하여 나타낸 것이다.
2) 모수의 추정량의 선택기준으로 불편성, 효율성, 일치성, 충분성이 있다.
3) 충분성은 추정량이 모수에 대하여 가장 많은 정보를 제공할 때 그 추정량은 충분추정량이 된다.
4) 일치성은 표본 크기에 대한 최적치를 반영하여 추정값의 품질의 척도를 제시한다.

일치성은 표본의 크기가 증가할수록 좋은 추정값을 제시한다는 것이다.

4

 

2. 구간추정과 점추정에 대한 설명으로 틀린 것은?

1) 점추정은 모집단의 모수를 하나의 값으로 추정한다.
2) 구간추정은 모수가 포함되는 확률변수구간을 어떤 신뢰성 아래 추정하는 것이다.
3) 아무리 좋은 추정방법을 사용하더라고 표본에서 계산된 추정값이 목표값을 정확하게 추정한다고 주장할 수는 없다.
4) 구간추정에 오차의 개념을 도입하여 모수가 포함되는 확률변수 구간 내의 가장 신뢰성을 가지는 값 하나를 선택하는 것이 점추정이다.

4

 

3. 가설검정 결과로 가설 채택여부를 결정 할 때의 설명으로 틀린 것은?

1) 제 1종 오류는 귀무가설이 참일 때 귀무가설을 기각하는 오류이다.
2) 제 2종 오류는 귀무가설이 거짓일 때 귀무가설을 채택하는 오류이다.
3) 제 3종 오류는 귀무가설, 대립가설이 모두 거짓인 오류이다.
4) 가설검정의 유의수준은 귀무가설이 참인데도 기각하게 될 확률이다.

3

728x90
반응형