728x90
반응형
출처 : https://book.naver.com/bookdb/book_detail.nhn?bid=20885185
*해당 글은 학습을 목적으로 위의 도서 내용 중 일부 내용만을 요약하여 작성한 포스팅입니다.
상세한 내용 및 전체 내용 확인을 원하신다면 도서 구매를 추천드립니다.
시공간 데이터 탐색
- 시공간 데이터란 공간적 정보에 시간의 흐름이 결합된 다차원 데이터이다.
- 시공간 데이터에 대한 질의어는 정의언어와 조작언어로 나뉜다.
- 시공간 데이터의 연산은 시공간위상 관계연산과 시공간기하 연산이 있다.
- 시공간위상 관계연산은 두 객체 간 공간영역상의 관계에 대해 참, 거짓을 반환하는 연산이다.
- 상세히 말하자면 두 객체의 유효시간 정보를 기반으로 선후관계를 평가하여 참, 거짓을 반환한다.
- 시공간기하 연산은 공간기하 연산에 시간구성 연산자를 결합한 것이다.
- 시공간 데이터 기술은 지리정보 시스템, 위치기반 서비스, 차량 위치추적 서비스 등에 활용된다.
다변량 데이터 탐색
- 변수들 간 인과관계의 규명과 분석을 하는 것이다.
- 변수 간 상관관계를 이용해 변수를 축약하거나 개체들을 분류하고 분석한다.
- 다중회귀는 회귀 모형이 모수에 대해 선형이고, 오차항의 평균은 0이며, 오차항의 분산은 모든 관찰치에 대해 일정하다는 가정을 갖는다.
- 독립 변수가 두 개 이상인 회귀모형을 지칭하며, 각 독립변수는 종속변수와 선형관계에 있음을 가정한다.
- 변수를 추가하여 분석내용의 질적 향상을 도모할 수 있다.
- 로지스틱 회귀는 사건의 발생 가능성을 예측하는 데 사용되는 통계 기법이다.
- 종속 변수와 독립 변수 사이의 관계에 있어 선형 모델과 차이점이 존재한다.
- 첫째는 이항형인 데이터에 적용하였을 때 종속 변수의 범위가 0~1로 제한된다.
- 둘째는 종속 변수가 이진적이기에 조건부 확률의 분포가 이항 분포를 따른다.
- 분산분석 (ANOVA)는 3개 이상의 표본들의 차이를 표본평균 간의 분산과 표본 내의 관측치간 분산을 비교하여 가설을 검정하는 것이다.
- 일원분산분석은 하나의 인자에 근거하여 여러 수준으로 나누어지는 분석이다.
- 일원분산분석은 단일용인변수(독립변수)에 의해 종속변수에 대한 평균치를 검증하는 데 사용한다.
- 일월분산분석의 사용을 위해 종속변수와 요인변수가 각자 하나씩 있어야 한다. 그리고 요인변수가 정의되어야 한다.
- 다변량 분산분석 (Multi Variate ANOVA)는 측정형 변수, 종속 변수가 2개 이상인 분산분석이다.
- 이원분산분석은 두 개 이상의 인자에 근거하여 여러 수준으로 나누어진다.
- 일원분산분석과 달리 독립변인의 수가 둘이다.
- 변수축약은 변수들 간의 상관관계를 이용해 변수를 줄이는 방법이다.
- 변수유도기법이라고도 하며, 주성분분석, 요인분석, 정중상관분석이 있다.
- 주성분분석은 다변량자료에 존재하는 비정규성이나 이상치를 발견하기 위해 사용한다.
- 변수들의 상관관계 또는 공분산이 존재하지 않는 경우 새로운 변수인 주성분을 구한다.
- 요인분석은 여러 변수간 상관관계를 분석해 공통차원들을 통해 축약해나가는 방법이다.
- 다수의 변수들 간 정보손실을 최소화하며 소수의 요인으로 축약하는 방법이다.
- 독립변수와 종속변수의 개념이 없으며, 추론통계가 아닌 기술통계기법으로 수행한다.
- 정준상관분석은 두 변수집단 간의 연관성을 각 변수집단에 속한 변수들의 선형결합의 상관계수를 이용해 분석하는 방법이다.
- 여기서 정준변수는 새로 만들어진 선형결합, 정준상관계수는 정준변수들 사이의 상관계수이다.
- 회귀분석과의 차이점은, 회귀분석은 변수들의 선형결합을 찾아 인과관계를 생각한다.
- 그에 반해 정준분석은 인과성은 존재하지 않는다.
- 개체유도는 개체들의 특성을 측정한 변수들의 상관관계를 이용해 유사한 개체를 분류하는 방법이다.
- 군집분석, 다차원척도법, 판별 분석이 있다.
- 군집분석은 개체들이 속한 모집단이나 범주에 대한 사전정보가 없는 경우에 사용된다.
- 변수들 사이의 거리나 유사성을 이용해 몇 개의 그룹으로 군집을 나눈다.
- 군집 간의 거리에 대한 정의가 가장 중요한데, 거리의 정의에 따라 유사성에 대한 척도가 형성된다.
- 계층적, 비계층적, 조밀도, 그래프에 의한 방법들을 사용할 수 있다.
- 다차원 척도법(MDS)는 다차원 관측값 또는 개체들 간의 거리 또는 비유사성을 이용해 개체들을 원래의 차원보다 낮은 차원의 공간상에 위치시켜 개체들 사이의 구조 또는 관계를 쉽게 파악하기 위해 사용된다.
- 판별 분석은 2개 이상의 그룹으로 나누어진 개체들에 대해 분류에 영향을 미칠 것 같은 특성을 측정하고 이를 이용해 분류하는 방법이다.
- 로지스틱 회귀분석을 이용하여 분류하는 로지스틱 판별분석이 해당된다.
비정형 데이터 탐색
- 비정형 데이터란 미리 정의된 데이터 모델이 없거나 미리 정의된 형식으로 정리되지 않은 정보이다.
- 비정형 데이터는 대부분 텍스트 중심이며, 변칙과 모호함이 발생하기에 전통적인 프로그램으로 사용하여 이해하는 것이 불가능하다.
- 비정형 데이터의 분석에는 데이터 마이닝, 텍스트 마이닝, 오피니언 마이닝, 웹 마이닝 등이 있다.
- 데이터 마이닝은 데이터 안에서 통계적 규칙이나 패턴을 분석하여 가치있는 정보를 추출하는 과정이다.
- 통계학에서 패턴 인식에 이르는 다양한 계량 기법을 사용한다.
- 하지만 자료에 의존하여 현상을 해석하기 때문에 자료가 현실을 충분히 반영하지 못할 경우 잘못된 모형이 구축된다.
- 텍스트 마이닝은 데이터 마이닝의 한계를 벗어난 방법으로 자연어 처리를 이용한다.
- 오피니언 마이닝은 감정 분석이라고도 불리며, 주제에 대한 사람들의 주관적 의견을 통계화, 수치화한다.
- 텍스트 마이닝이 문장 내 주제를 파악한다면, 오피니언 마이닝은 감정 등을 판단한다.
- 감정을 중립, 긍정, 부정으로 나누어 강도를 평가하게 된다.
- 웹 마이닝은 웹 자원으로부터 의미있는 패턴, 추세 등을 도출하는 것이다.
- 웹구조, 웹내용, 웹사용 마이닝이 그 종료이다.
- 웹구조는 구조적요약정보를, 웹내용은 페이지 속에서 의미있는 내용을, 웹사용은 웹 내 사용자의 패턴에서 통찰을 이끌어낸다.
1. 두 개의 연속형 변수 사이의 함수적 관계를 분석하려고 할 때 가장 적합한 분석 방법은 무엇인가?
1) 교차분석
2) 분산분석
3) 회귀분석
4) 판별분석
3
2. ( ) 데이터는 변칙과 모호함이 발생하므로 데이터베이스 형식으로 저장된 데이터나 문서에 주석화된 데이터에 비해 전통적인 프로그램을 사용하여 이해하는 것을 불가능하게 만든다.
비정형
3. 일원분산분석의 정의와 특성을 연결시킨 것 중 틀린 것은?
1) 하나의 인자에 근거하여 여러 수준으로 나누어지는 분석이다.
2) 단일용인변수에 의해 종속벼수에 대한 최빈값의 차이를 검정한다.
3) 종속변수와 정수값을 갖는 요인변수가 각 하나여야 하고, 요인변수가 정의되어야 한다.
4) A, B, C반 간 성적의 평균 차이가 존재할 것이다. 는 일원분산분석의 예시이다.
평균치의 차이를 검정한다.
2
728x90
반응형
'자격증 > 빅데이터 분석기사' 카테고리의 다른 글
2_3. 통계기법의 이해_추론통계 (0) | 2022.03.19 |
---|---|
2_3. 통계기법의 이해_기술통계 (0) | 2022.03.18 |
2_2. 데이터 탐색_데이터 탐색 기초 (0) | 2022.03.18 |
2_1. 데이터 전처리_분석 변수 처리 (0) | 2022.03.17 |
2-1. 데이터 전처리_데이터 정제 (0) | 2022.03.17 |