본문 바로가기
자격증/빅데이터 분석기사

2_3. 통계기법의 이해_기술통계

by 이민우 2022. 3. 18.
728x90
반응형

출처 : https://book.naver.com/bookdb/book_detail.nhn?bid=20885185 

 

이기적 빅데이터분석기사 필기 기본서

본 도서는 최신 출제기준을 적용한 도서로, 빅데이터분석기사 필기 시험의 출제 경향을 철저히 분석하여 수험생들이 혼자서도 학습할 수 있도록 한 완벽 대비서입니다. 시행처에서 공개한 출제

book.naver.com

*해당 글은 학습을 목적으로 위의 도서 내용 중 일부 내용만을 요약하여 작성한 포스팅입니다.

 상세한 내용 및 전체 내용 확인을 원하신다면 도서 구매를 추천드립니다.


기술통계

  • 기술통계란 분석에 필요한 데이터를 요약하여 묘사 및 설명하는 통계기법이다.
  • 데이터 요약은 분석 대상이 되는 데이터를 단순히 정리하는 것이 아니라, 데이터의 분포가 가지는 특성을 찾아내 분석 전에 특징을 수치적으로 정량화하여 기술한다.
  • 주로 기초 통계량을 산출하여 결과를 도출한다.

 

 

표본추출

  • 모집단이란 전체집합, 표본모집단 속의 일부 집단, 표본추출모집단 속에서 표본을 이끌어내는 것이다.
  • 조사에는 전수조사와 표본조사가 있는데 전수조사모집단 전체를 대상으로 조사하는 것이고, 표본조사표본을 대상으로 조사하는 것이다.
  • 기본적으로 전수조사가 보다 정확한 결과를 도출하지만 비용문제 등으로 모집단의 일부가 전체를 대표할 수 있다는 근거가 명확하다면 표본조사를 수행한다.
  • 표본조사는 전수조사에 비해 비용이 낮고 신속하게 이루어지며, 규모가 작은 덕에 심도있는 조사가 가능하고, 관리가 잘되어 정확성이 높다.

 

  • 표본추출의 오차는 표본에서 선택한 대상이 모집단의 특성을 과잉 대표하거나 최소 대표하는 현상이다.
  • 과잉대표는 중복선택 등으로 인해 반복, 중복된 정보만으로 모집단이 규정된 현상이다.
  • 최소 대표는 실제모집단의 대표성을 나타낼 표본이 아닌 다른 데이터가 표본이 되는 현상이다.
  • 표본추출시 표본의 크기보다는 대표성을 가지는 표본을 추출하는 것이 중요하다.

 

  • 표본을 추출하는 기법으로는 확률 표본추출 기법이 있다.
  • 모집단에 속하는 모든 추출단에 대해 사전에 일정한 추출확률이 주어지는 표본 추출법이다.
  • 단순무작위 추출, 계통추출, 층화추출, 군집추출이 예시이다.

 

  • 단순무작위 추출은 말 그대로 무작위로 추출하고, 독립적 선택으로 편향석을 제거하는 것이다.
  • 추출 모집단에 대한 사전지식이 많지 않은 경우 사용한다.

 

  • 계통추출은 모집단에서 추출간격을 설정하여 무작위로 추출하는 방법이다.
  • 예를 들어 3으로 추출간격을 설정하면 1, 4, 7, 10 데이터들이 추출된다.

 

  • 층화추출은 모집단이 서로 겹치지 않도록 여러 층으로 나누고 각 층에서 표본을 임의 추출하는 방법이다.
  • 모집단 전체에 대한 특성치의 효율적 추론이 필요한 경우 시행된다.
  • 단순임의추출법에 비해 추정의 정도를 높일 수 있고, 층별로 추정결과도 얻을 수 있다.
  • 여기서 층화변수의 개념이 나오는데, 층화변수는 모집단에 층을 나눌 때 각 추출단위가 어느 층에 속하는지를 구분하기 위해 기준으로 사용되는 변수이다.

 

  • 군집추출은 모집단을 여러 개의 군집으로 나누고, 군집의 일부 또는 전체에 대한 분석을 시행한다.
  • 모집단에 대한 구체적인 추출 방법론을 정하기 어려운 경우 사용할 수 있다.
  • 표본크기가 같은 상황에서 단순 임의추출보다 표본 오차가 증대할 수 있다.

 

  • 비확률 표본추출 기법은 각 추출 단위들이 표본에 추출될 확률을 객관적으로 나타낼 수 없는 표본추출법이다.
  • 일반적으로 모집단을 정확하게 규정지을 수 없거나, 표본오차가 큰 문제가 되지 않는 경우 등에 사용한다.
  • 간편추출법, 판단추출법, 할당추출법, 눈덩이추출법이 있다.

 

  • 간편추출법은 조사원 개인이 판단하여 간편한 방법으로 표본을 추출한다.
  • 판단추출법은 조사원이 나름의 지식과 경험으로 모집단을 잘 대표한다고 여겨지는 표본을 선정한다.
  • 할당추출법은 모집단을 부분집단으로 구분하고 부분집단별 구성비율과 표본의ㅏ 부분집단별 구성비율이 유사하도록 표본을 선정한다.
  • 눈덩이추출법은 접근이 어렵거나 추출틀의 작성이 어려운 경우에 사용되며, 사전에 알고 있는 사람을 대상으로 조사하고, 그의 지인을 소개받아 조사를 진행한다.

 

 

 

확률분포

  • 확률이란 통계적 현상의 확실함의 정도를 나타내는 척도이며, 랜덤 시행에서 어떠한 사건이 일어날 정도를 나타내는 사건에 할당된 수이다.
  • 통계적 현상은 불확정 현상을 반복하여 관찰하거나 집단 안에서 대량으로 관찰하여 고유의 법칙성을 찾아내는 것이 가능한 현상을 말한다.
  • 확률에서 표본공간이란 통계적 실험에서 발생 가능한 모든 실험결과들의 집합을 의미한다.
  • 표본공간 자체는 전사건, 아무것도 포함되지 않는 사건은 공사건이라고 하며, 하나의 결과를 포함하면 근원사건이라고 한다.

 

  • 총확률정리임의의 사건 B의 확률을 k개의 조건부 확률로 구하는 것이다.
  • 베이지안 정리총확률정리를 이용하여 임의의 사건 B의 확률을 k개의 조건부 확률을 이용해 계산하여 k개의 상호 배타적인 사건들에 대한 사후확률을 구할 수 있다.

 

  • 확률변수사건의 시행의 결과를 하나의 수치로 대응시킬 때의 값을 의미한다.
  • 예를 들어 동전을 던지는 경우의 확률 변수는 다음과 같다. > 뒤, 앞
  • 만약 두 개라면 다음과 같다 > 뒤-앞 / 앞-앞 / 뒤-뒤
  • 확률변수의 종류는 이산확률변수와 연속확률변수가 있다.
  • 이산확률변수는 확률변수가 취할 수 있는 값의 수가 유한한 경우이다. 위의 동전이 예시이다.
  • 연속확률변수는 확률변수가 취할 수 있는 값의 수가 무한한 경우인데, 키, 몸무게, 시간이 예시이다.

 

  • 확률분포수치로 대응된 확률변수의 개별 값들이 가지는 확률값의 분포이다.
  • 확률변수가 취할 수 있는 구체적인 값들을 확률공간상의 확률값으로 할당한다.
  • 종류는 아래와 같다.

 

  • 이산확률분포는 확률변수가 취할 수 있는 값의 수가 유한한 확률분포이다.
  • 연속확률분포는 확률변수가 취할 수 있는 값의 수가 무한한 확률분포이다.
  • 확률분포함수는 확률분포가 취할 수 있는 구체적인 값 하나하나를 확률공간상의 확률값으로 할당해주는 함수로, 이산확률분포함수와 연속확률분포함수가 있다.

 

  • 기댓값각 확률변수가 특정 값을 가질 확률을 가중치로 확률변수의 결과값을 평균화한 값으로 표시한다.
  • 예를 들어 주사위를 던질 경우 1*(1/6) + 2*(1/6) + 3*(1/6) ... + 6*(1/6) = 3.5 가 된다.
  • 기댓값은 선형성을 가지며 덧셈법칙은 적용되나 곱셈법칙은 적용되지 않는다. 단, 확률변수들이 독립이면 곱셈법칙도 적용된다.
  • 분산은 퍼짐정도인 산포도를 나타내는 측도록, 기댓값에서 떨어진 거리의 제곱의 기댓값(평균)이다.

 

  • 이산확률분포의 종류는 아래와 같다.

 

  • 베르누이 분포는 결과가 성공 아니면 실패, 오직 두 가지로 귀결되어 나온다.
  • 이항분포베루누이 시행을 n번 독립적으로 시행할 때의 확률이다.
  • 다항분포여러 개의 값을 가질 수 있는 독립 확률변수들에 대한 확률분포로, 여러 번의 독립적 시행에서 각각의 값이 특정 횟수가 나타날 확률을 정의하는 분포이다.
  • 포아송분포단위 시간 안에 어떠한 사건이 몇 번 발생할 것인지 표현한다.
  • 기하분포베르누이 시행에서 처음 성공까지 시도한 횟수를 분포화한 이산확률분포의 한 종류이다.
  • 음이항분포X번의 베르누이 시행에서 k번째 성공할 때까지 계속 시행하는 실험에서 확률을 나타내는 이산확률분포의 한 종류이다.
  • 초기하분포비복원 추출에서 N개 중 n개를 추출했을 때 원하는 것 k개가 뽑힐 확률이다.

 

  • 그리고 연속확률분포의 종류는 아래와 같다.

 

  • 연속균등분포분포가 특정 범위 내에서 균등하게 나타난 경우이다.
  • 지수분포사건이 서로 독립일 때 다음 사건이 일어날 때까지의 대기시간에 대한 확률이다.
  • 즉 포아송과정이 단위 시간당 발생하는 사건의 횟수라면, 지수분포는 포아송과정에서 한 개의 사건이 발생할 때까지의 대기시간이다.
  • 이전의 확률값은 고려대상이 아니기에 무기억성질을 갖고 있다고 표현한다.
  • 정규분포가우스분포라고도 불리며, 표본을 통한 통계적 추정 및 가설검정이론의 핵심이 된다.
  • 정규분포는 평균을 중심으로 대칭이며 종모양을 띄고 있다.
  • 해당 그래프의 면적은 반드시 1이며, 모양과 위치는 평균과 표준편차에 의해 결정된다.
  • 표준정규분포평균=0, 표준편차=1이 되도록 한 정규분포이다.
  • 감마분포는 지수분포나 포아송분포 등의 매개변수와 연관이 있는 분포로, k개의 사건이 발생할 때까지 대기시간으로 확률변수를 정의한다.
  • 카이제곱분포k개의 서로 독립적인 표준정규확률 변수를 각각 제곱한 다음 합해서 얻어지는 분포이다.
  • k개의 독립적이고 표준 정규분포를 따르는 확률분포들을 정의하는데, 이 때 k는 자유도라 불리는 카이제곱분포의 매개변수이다.
  • 기댓값은 k, 분산은 2k가 된다.
  • 스튜던트 t분포평균 측정 시 주로 사용하는 분포이다.
  • 분포의 모양은 Z-분포와 유사하며, 종모양으로 t=0에 대하여 대칭을 이룬다.
  • t-곡선의 모양을 결정하는 것은 자유도로, 표본 크기 n에서 1을 뺀 값이다.
  • F 분포는 두 개의 확률 변수의 자유도가 카이제곱분포를 따른다고 할 때 정의된다.
  • F 검정이나 분산분석 등에 주로 사용된다.

 

 

 


 

1. 다음 아래의 설명은 표본추출 중의 하나를 설명한 것이다. 해당하는 추출 방법은 무엇인가?

(      )은 모집단을 서로 겹치지 않게 여러 층으로 나누어 분할된 층별로 배정된 표본을 단순 임의추출법에 따라 추출하는 방법이다.

층화추출

 

2. 군집추출에 대한 설명 중 틀린 것은?

1) 추출 모집단에 대해 사전지식이 많지 않은 경우 시행한다.
2) 모집단을 차이가 없는 여러 개의 군집으로 나누어 군집 단위의 일부 또는 전체에 대한 분석을 시행한다.
3) 모집단에 대한 추출기반을 마련하기 어려운 경우 사용하면 편리하다.
4) 표본크기가 같은 경우 단순 임의추출에 비해 표본오차가 증대할 가능성이 있다.

1

 

3. P(A) = 0.6, P(B) = 0.5, P(A|B) = 0.4이다. 그렇다면 P(AUB)는?

P(A|B) = P(AnB) / P(B) => P(AnB) = 0.4*0.5 = 0.2

P(AUB) = P(A) + P(B) - P(AnB) = 0.9

 

4. 다음 중 분포의 성질이 다른 하나는 무엇인가?

1) 포아송분포
2) t-분포
3) 정규분포
4) 카이제곱분포

1

728x90
반응형