본문 바로가기
자격증/빅데이터 분석기사

2_2. 데이터 탐색_고급 데이터 탐색

by 이민우 2022. 3. 18.
728x90
반응형

출처 : https://book.naver.com/bookdb/book_detail.nhn?bid=20885185 

 

이기적 빅데이터분석기사 필기 기본서

본 도서는 최신 출제기준을 적용한 도서로, 빅데이터분석기사 필기 시험의 출제 경향을 철저히 분석하여 수험생들이 혼자서도 학습할 수 있도록 한 완벽 대비서입니다. 시행처에서 공개한 출제

book.naver.com

*해당 글은 학습을 목적으로 위의 도서 내용 중 일부 내용만을 요약하여 작성한 포스팅입니다.

 상세한 내용 및 전체 내용 확인을 원하신다면 도서 구매를 추천드립니다.


시공간 데이터 탐색

  • 시공간 데이터란 공간적 정보에 시간의 흐름이 결합된 다차원 데이터이다.
  • 시공간 데이터에 대한 질의어는 정의언어와 조작언어로 나뉜다.

 

  • 시공간 데이터의 연산은 시공간위상 관계연산과 시공간기하 연산이 있다.
  • 시공간위상 관계연산은 두 객체 간 공간영역상의 관계에 대해 참, 거짓을 반환하는 연산이다.
  • 상세히 말하자면 두 객체의 유효시간 정보를 기반으로 선후관계를 평가하여 참, 거짓을 반환한다.
  • 시공간기하 연산은 공간기하 연산에 시간구성 연산자를 결합한 것이다.

 

  • 시공간 데이터 기술은 지리정보 시스템, 위치기반 서비스, 차량 위치추적 서비스 등에 활용된다.

 

 

다변량 데이터 탐색

  • 변수들 간 인과관계의 규명과 분석을 하는 것이다.
  • 변수 간 상관관계를 이용해 변수를 축약하거나 개체들을 분류하고 분석한다.

 

  • 다중회귀회귀 모형이 모수에 대해 선형이고, 오차항의 평균은 0이며, 오차항의 분산은 모든 관찰치에 대해 일정하다는 가정갖는다.
  • 독립 변수가 두 개 이상인 회귀모형을 지칭하며, 각 독립변수는 종속변수와 선형관계에 있음을 가정한다.
  • 변수를 추가하여 분석내용의 질적 향상을 도모할 수 있다.

 

  • 로지스틱 회귀사건의 발생 가능성을 예측하는 데 사용되는 통계 기법이다.
  • 종속 변수와 독립 변수 사이의 관계에 있어 선형 모델과 차이점이 존재한다.
  • 첫째는 이항형인 데이터에 적용하였을 때 종속 변수의 범위가 0~1로 제한된다.
  • 둘째는 종속 변수가 이진적이기에 조건부 확률의 분포가 이항 분포를 따른다.

 

  • 분산분석 (ANOVA)는 3개 이상의 표본들의 차이를 표본평균 간의 분산과 표본 내의 관측치간 분산을 비교하여 가설을 검정하는 것이다.
  • 일원분산분석은 하나의 인자에 근거하여 여러 수준으로 나누어지는 분석이다.
  • 일원분산분석은 단일용인변수(독립변수)에 의해 종속변수에 대한 평균치를 검증하는 데 사용한다.
  • 일월분산분석의 사용을 위해 종속변수와 요인변수가 각자 하나씩 있어야 한다. 그리고 요인변수가 정의되어야 한다.

 

  • 다변량 분산분석 (Multi Variate ANOVA)측정형 변수, 종속 변수가 2개 이상인 분산분석이다.
  • 이원분산분석은 두 개 이상의 인자에 근거하여 여러 수준으로 나누어진다.
  • 일원분산분석과 달리 독립변인의 수가 둘이다.

 

  • 변수축약변수들 간의 상관관계를 이용해 변수를 줄이는 방법이다.
  • 변수유도기법이라고도 하며, 주성분분석, 요인분석, 정중상관분석이 있다.

 

  • 주성분분석은 다변량자료에 존재하는 비정규성이나 이상치를 발견하기 위해 사용한다.
  • 변수들의 상관관계 또는 공분산이 존재하지 않는 경우 새로운 변수인 주성분을 구한다.

 

  • 요인분석은 여러 변수간 상관관계를 분석해 공통차원들을 통해 축약해나가는 방법이다.
  • 다수의 변수들 간 정보손실을 최소화하며 소수의 요인으로 축약하는 방법이다.
  • 독립변수와 종속변수의 개념이 없으며, 추론통계가 아닌 기술통계기법으로 수행한다.

 

  • 정준상관분석은 두 변수집단 간의 연관성을 각 변수집단에 속한 변수들의 선형결합의 상관계수를 이용해 분석하는 방법이다.
  • 여기서 정준변수는 새로 만들어진 선형결합, 정준상관계수는 정준변수들 사이의 상관계수이다.
  • 회귀분석과의 차이점은, 회귀분석은 변수들의 선형결합을 찾아 인과관계를 생각한다.
  • 그에 반해 정준분석은 인과성은 존재하지 않는다.

 

  • 개체유도는 개체들의 특성을 측정한 변수들의 상관관계를 이용해 유사한 개체를 분류하는 방법이다.
  • 군집분석, 다차원척도법, 판별 분석이 있다.

 

  • 군집분석개체들이 속한 모집단이나 범주에 대한 사전정보가 없는 경우에 사용된다.
  • 변수들 사이의 거리나 유사성을 이용해 몇 개의 그룹으로 군집을 나눈다.
  • 군집 간의 거리에 대한 정의가 가장 중요한데, 거리의 정의에 따라 유사성에 대한 척도가 형성된다.
  • 계층적, 비계층적, 조밀도, 그래프에 의한 방법들을 사용할 수 있다.

 

  • 다차원 척도법(MDS)는 다차원 관측값 또는 개체들 간의 거리 또는 비유사성을 이용해 개체들을 원래의 차원보다 낮은 차원의 공간상에 위치시켜 개체들 사이의 구조 또는 관계를 쉽게 파악하기 위해 사용된다.

 

  • 판별 분석은 2개 이상의 그룹으로 나누어진 개체들에 대해 분류에 영향을 미칠 것 같은 특성을 측정하고 이를 이용해 분류하는 방법이다.
  • 로지스틱 회귀분석을 이용하여 분류하는 로지스틱 판별분석이 해당된다.

 

 

비정형 데이터 탐색

  • 비정형 데이터란 미리 정의된 데이터 모델이 없거나 미리 정의된 형식으로 정리되지 않은 정보이다.
  • 비정형 데이터는 대부분 텍스트 중심이며, 변칙과 모호함이 발생하기에 전통적인 프로그램으로 사용하여 이해하는 것이 불가능하다.

 

  • 비정형 데이터의 분석에는 데이터 마이닝, 텍스트 마이닝, 오피니언 마이닝, 웹 마이닝 등이 있다.

 

  • 데이터 마이닝은 데이터 안에서 통계적 규칙이나 패턴을 분석하여 가치있는 정보를 추출하는 과정이다.
  • 통계학에서 패턴 인식에 이르는 다양한 계량 기법을 사용한다.
  • 하지만 자료에 의존하여 현상을 해석하기 때문에 자료가 현실을 충분히 반영하지 못할 경우 잘못된 모형이 구축된다.

 

  • 텍스트 마이닝은 데이터 마이닝의 한계를 벗어난 방법으로 자연어 처리를 이용한다.

 

  • 오피니언 마이닝은 감정 분석이라고도 불리며, 주제에 대한 사람들의 주관적 의견을 통계화, 수치화한다.
  • 텍스트 마이닝이 문장 내 주제를 파악한다면, 오피니언 마이닝은 감정 등을 판단한다.
  • 감정을 중립, 긍정, 부정으로 나누어 강도를 평가하게 된다.

 

  • 웹 마이닝은 웹 자원으로부터 의미있는 패턴, 추세 등을 도출하는 것이다.
  • 웹구조, 웹내용, 웹사용 마이닝이 그 종료이다.
  • 웹구조는 구조적요약정보를, 웹내용은 페이지 속에서 의미있는 내용을, 웹사용은 웹 내 사용자의 패턴에서 통찰을 이끌어낸다.

 


1. 두 개의 연속형 변수 사이의 함수적 관계를 분석하려고 할 때 가장 적합한 분석 방법은 무엇인가?

1) 교차분석
2) 분산분석
3) 회귀분석
4) 판별분석

3

 

2. (     ) 데이터는 변칙과 모호함이 발생하므로 데이터베이스 형식으로 저장된 데이터나 문서에 주석화된 데이터에 비해 전통적인 프로그램을 사용하여 이해하는 것을 불가능하게 만든다.

비정형

 

3. 일원분산분석의 정의와 특성을 연결시킨 것 중 틀린 것은?

1) 하나의 인자에 근거하여 여러 수준으로 나누어지는 분석이다.
2) 단일용인변수에 의해 종속벼수에 대한 최빈값의 차이를 검정한다.
3) 종속변수와 정수값을 갖는 요인변수가 각 하나여야 하고, 요인변수가 정의되어야 한다.
4) A, B, C반 간 성적의 평균 차이가 존재할 것이다. 는 일원분산분석의 예시이다.

평균치의 차이를 검정한다.

2

728x90
반응형