ADSP_3과목_정형 데이터 마이닝

728x90

book.naver.com/bookdb/book_detail.nhn?bid=16317946

리눅스마스터 1급 기본서(2020)

떠오르는 신흥 강자! 리눅스마스터 1급 2020년 도서가 드디어 영진닷컴에서 출간되었습니다. 리눅스마스터 1급을 취득하기 위해 필요한 최대한의 것을 전부 제공해 드립니다. 시행처에서 발표한

book.naver.com

*해당 글은 학습을 목적으로 위의 도서 내용 중 일부 내용만을 요약하여 작성한 포스팅입니다.

상세한 내용 및 전체 내용 확인을 원하신다면 도서 구매를 추천드립니다.

데이터마이닝

대용량 데이터에서 의미있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법
통계분석은 가설이나 가정에 따른 분석이나 검증을 진행하고,
데이터마이닝은 다양한 수리 알고리즘으로 데이터로부터 의미있는 정보를 찾아낸다.

분석 목적에 따른 작업 유형

예측	분류 규칙	과거의 데이터로부터 특성을 찾아 분류 모형을 만들어 새로운 데이터의 결과값 예측
설명	연관 규칙	데이터 안에 존재하는 항목간의 종속관계를 찾아내는 작업
	연속 규칙	연관 규칙에 시간관련 정보가 포함된 형태
	데이터 군집화	유사한 특성을 지닌 몇 개의 소그룹으로 분할하는 작업

데이터 마이닝 시 데이터 양이 충분하지 않으면?

홀드 아웃 : 주어진 데이터를 랜덤하게 학습용, 시험용 데이터로 구분한다.
교차확인 : 주어진 데이터를 k개의 하부집단으로 만들어 k번 반복 측정

성과분석

1) 오분류에 대한 추정치

2) ROC Curve

가로축은 FPR (1-특이도), 세로축은 TPR(민감도)로 두어 시각화한 그래프
2진 분류에서 모형의 성능을 평가하기 위해 많이 사용된다.
그래프가 왼쪽 상단에 가까울수록 올바르게 예측한 비율이 높음을 의미한다.
ROC 아래의 면적을 의미하는 AUROC 값이 클수록 (1에 가까울수록) 모델의 성능이 좋다.

3) 이익도표 (Lift Chart)

분류 모형의 성능을 평가하기 위한 척도로, 분류된 관측치에 대해 얼마나 예측이 잘 이루어졌는지 나타낸다.
임의로 나눈 각 등급별로 반응검출율, 반응률, 리프트 등의 정보를 산출하여 나타내는 도표이다.
리프트는 기본 향상도에 비해 반응률이 몇 배나 높은지를 계산한 수치이다.
이익도표의 각 등급은 예측확률에 따라 매겨진 순위로, 높은 등급에서 높은 반응률을 보이는 것이 좋은 모형이다.

분류분석

데이터가 어떤 그룹에 속하는지 예측하는데 사용되는 기법
각 그룹을 정의해놓고 시작한다.
교사학습 (지도학습)에 속한다.

예측분석

시계열분석처럼 시간에 따른 값 두 개만을 이용해 앞으로의 전망을 예측한다.
여러 개의 다양한 설명변수가 아닌 한 개의 설명변수로 생각하면 된다.

분류분석과 예측분석

둘 다 레코드의 특정 속성의 값을 미리 알아맞힌다.
분류 분석은 레코드의 범주형 속성의 값을 알아맞히는 것이고,
예측 분석은 레코드의 연속형 속성의 값을 알아맞히는 것이다.

ex) 분류 : 학생들의 국어, 영어, 수학 점수를 통해 내신등급 알아맞히기

ex) 예측 : 학생들의 여러 가지 정보를 입력하여 수능점수 알아맞히기

분류기법

1) 로지스틱 회귀분석

반응변수가 범주인 경우에 적용되는 회귀분석모형
새로운 설명변수가 주어질 때 반응변수의 각 범주(집단)에 속할 확률이 얼마인지를 추정하여, 추정 확률을 기준치에
따라 분류하는 목적으로 활용된다.
이 때 모형의 적합을 통해 추정된 확률을 사후확률이라 한다.
그래프로 봤을 때 S자 혹은 역 S자 모양이다.
최대우도추정법을 통해 계수를 측정한다.
카이제곱 겁정 (X^2-test)를 통해 검정한다.

*최대우도추정법 : 모수가 미지인 확률분포에서 뽑은 관측치들을 바탕으로 미지의 모수를 추정하는 방법

2) 의사결정나무

분류함수를 의사결정 규칙으로 이룬 트리 형태로 그리는 방법
트리는 연속적으로 발생하는 의사결정 문제를 시각화한다.
세분화, 분류, 예측, 차원축소 및 변수선택, 교호작용효과 파악 등에 사용된다.
결과 설명이 용이하고, 계산이 쉽다. 대용량 데이터에서도 빠르고, 잡음 데이터에 강하다.
불필요한 변수에 큰 영향을 받지 않고, 수치형변수나 범주형변수 모두 사용이 가능하다.
과대적합이 발생할 가능성이 높고, 자료값에 대한 오차가 크다.
설명변수 간 중요도를 판단하기 쉽지 않다.

2-1) 의사결정나무의 분석 과정

성장 : 최적의 분리규칙을 찾아 나무를 성장시킨다. 적절한 정지규칙 만족시 중단
가지치기 : 불필요한 가지를 제거해 오차를 줄인다.
타당성 평가 : 이익도표, 위험도표, 시험자료를 이용해 평가
해석 및 예측

*분리규칙 기준

이산형 목표변수 : 카이제곱 통계량, 지니 지수, 엔트로피 지수

연속형 목표변수 : F통계량, 분산의 감소량

*지니지수는 노드의 불순도를 나타낸다.

2-2) 의사결정나무 알고리즘

1) CART (Classification and Regression Tree)

가장 많이 활용되는 의사결정나무.
불순도의 측도로 출력 변수가 범주형일 경우 지니지수, 연속형이면 이진분리 사용

2) C4.5, C5.0

CART와 달리 각 마디에서 다지분리가 가능하며, 범주형 입력변수에 대해 범주의 수만큼 분리
불순도의 측도로 엔트로피 지수 사용

3) CHAID (CHI-squared Automatic Interaction Detection)

가지치기를 하지 않고 적당한 크기에서 나무모형의 성장을 중지한다.
입력변수가 반드시 범주형 변수여야 한다.
불순도 측도로 카이제곱 통계량 사용

앙상블 분석

주어진 자료로부터 여러 개의 예측모형들을 만들고, 모형들을 조합해 하나의 최종 예측 모형을 만드는 방법.

앙상블 기법 종류

1) 배깅

주어진 자료에서 여러 개의 붓스트랩 자료를 생성하고, 각 붓스트랩 자료에 대한 모델을 만든 후 결합한다.
배깅은 가지치기를 하지 않고 최대로 성장한 의사결정나무들을 사용한다.
훈련자료의 모집단의 분포를 모르면 실제 문제에서는 평균예측모형을 구할 수 없는데, 배깅은 이러한 문제를 해결하기 위해 훈련자료를 모집단으로 생각하고 평균예측모형을 구해 분산을 줄이고 예측력을 향상시킨다.

*붓스트랩 : 주어진 자료에서 동일한 크기의 표본을 랜덤 복원추출로 뽑은 자료

2) 부스팅

예측력이 약한 모형들을 결합해 강한 예측모형을 만드는 방법이다.
Adaboost는 이진분류 문제에서 랜덤 분류기보다 조금 더 좋은 분류기 n개에 각각 가중치를 설정하고 n개의 분류기를 결합하여 최종 분류기를 만드는 방법
훈련오차를 빠르고 쉽게 줄일 수 있고, 배깅에 비해 예측오차가 향상된다.

3) 랜덤 포레스트

약한 학습기들을 생성한 후 이를 선형결합하여 최종 학습기를 만드는 방법
여러 개의 의사결정나무를 합친다.
수천 개의 변수를 통해 변수제거 없이 실행하여 정확도가 높다.
입력변수가 많은 경우 배깅, 부스팅과 비슷하거나 더 높은 예측력을 보인다.
이론적 설명과 최종 결과에 대한 해석이 어렵다.

인공 신경망 분석 (ANN)

인간의 뇌를 기반으로 한 추론 모델

인공 신경망 학습

가중치를 반복적으로 조정하며 학습한다.
뉴런들은 링크로 연결되어있고, 각 링크에는 가중치가 있다.
인공 신경망은 신경망의 가중치를 초기화하고 훈련 데이터를 통해 가중치를 갱신하여 신경망의 구조를 선택하고, 활용할 학습 알고리즘을 결정한 후 신경망을 훈련시킨다.

활성화 함수

뉴런은 활성화 함수로 출력값을 결정한다.

*softmax 함수 : 표준화지수 함수로, 각 범주에 속한 확률을 제공한다.

신경망 구축시 고려사항

1) 입력 변수

입력 변수가 연속형일 경우, 로그변환 혹은 범주화를 통해 분포를 평균을 중심으로 대칭이 되게 해야한다.
입력 변수가 범주형일 경우, 가변수화 하여 적용한다.

2) 학습모드

온라인 학습 모드 : 각 관측값을 순차적으로 하나씩 신경망에 투입한다.
확률적 학습 모드 : 신경망에 투입되는 관측값의 순서가 랜덤하다.
배치 학습 모드 : 전체 훈련자료를 동시에 신경망에 투입한다.

3) 가중치 초기값과 다중 초기값 문제

가중치가 0이면 선형이 되고, 1에 가까울수록 비선형

4) 은닉층과 은닉노드의 수

너무 많으면 과대적합, 적으면 과소적합

5) 과대 적합

알고리즘의 조기종료와 가중치 감소 기법으로 해결한다.

군집분석

각 객체의 유사성을 측정하여 유사성이 높은 대상 집단으로 분류하고, 서로 다른 군집간 상이성을 규명하는 것.
특성에 따라 여러 개의 배타적인 집단으로 나눈다.
결과는 구체적인 군집분석 방법에 따라 차이가 난다.

*요인분석과의 차이점 : 요인분석은 그냥 유사한 변수를 함께 묶는 것이 목적

*판별분석과의 차이점 : 판별분석은 사전에 집단이 나누어진 자료를 사용해 새로운 집단에 할당

거리 계산

1) 연속형 변수의 경우

유클리디안 거리 : 두 점의 차이의 제곱의 합의 루트
맨하탄 거리 : 두 점의 절댓값 차이의 합

2) 범주형 변수의 경우

코사인 거리
코사인 유사도

계층적 군집분석

n개의 군집으로 시작해 점차 군집의 개수를 줄여나가는 방법
최단 연결법 : 군집간 또는 데이터간 거리 계산시 최단거리를 거리로 계산한다.
최장 연결법 : 군집간 또는 데이터간 거리 계산시 최장거리를 거리로 계산한다.
평균 연결법 : 군집간 또는 데이터간 거리 계산시 평균거리를 거리로 계산한다.
와드 연결법 : 군집내 편차들의 제곱합을 고려한 방법
군집화 : 거리행렬을 기준으로 덴드로그램을 그려 군집을 선정한다.

비계층적 군집분석

n개의 군집으로 묶을 수 있는 모든 방법을 점검해 최적화한 군집을 형성하는 것.

1) k 평균 군집분석

각 클러스터와 거리 차이의 분산을 최소화 하는 방식으로 동작한다.

*k 평균 군집분석은 연속형 변수에 활용이 가능하다.

*k 평균 군집분석은 중심값을 계속 변경하며 군집을 하는데, 초기의 중심값은 임의로 선택한다.

*탐욕적 알고리즘이기에 안정된 군집은 보장하나 최적이라는 보장이 없다.

혼합 분포 군집

모형 기반의 군집 방법으로, k개의 모수적 모형 (군집)의 가중합으로 표현되는 모집단 모형으로부터 데이터가 나왔다는 가정 하에 모수와 가중치를 추정한다.
모수와 가중치 추정에는 EM 알고리즘이 사용된다.
다봉형의 형태나 원형의 데이터를 군집화 하는데 좋다.
확률분포를 도입하여 군집을 수행한다.
이상치 자료에 민감하다.

SOM (Self Organizing Map, 자가조직화지도)

비지도 신경망으로, 고차원의 데이터를 이해하기 쉬운 저차원 뉴런으로 정렬하여 지도의 형태로 형상화한다.
시각적으로 이해하기 쉽고 입력 변수의 위치 관계를 그대로 보존하는 장점이 있다.
역전파 알고리즘이 아닌 전방 패스를 사용해 속도가 빠르다.
입력층, 경쟁층으로 구성되어 있다.
입력층의 뉴런 수는 입력 변수의 개수와 동일하다.
경쟁층은 2차원 격차로 구성되었는데, 입력벡터의 특성에 따라 벡터가 한 점으로 클러스터링 된다.

연관규칙

장바구니분석, 서열분석 이라고도 불린다.
일련의 거래 또는 사건들 간의 규칙을 발견하기 위해 적용된다.
if-then 형태로 이루어져 있다.

*장바구니 분석 : 장바구니에 무엇이 같이 들어있는가? => 실시간 상품추천을 통한 교차판매에 응용

*서열분석 : A를 구매한 다음 B를 구매한다.

연관규칙의 측도

산업의 특성에 따라 지지도, 신뢰도, 향상도 값을 보고 규칙을 선택한다.
지지도 : 전체 거래 항목 중 A, B를 동시에 포함하는 거래의 비율
신뢰도 : 항목 A를 포함한 거래 중 B도 포함될 확률
향상도 : A가 구매되지 않았을 때의 B의 구매확률에 비해 A가 구매됐을 때 B의 구매확률의 증가비

*순차패턴 : 연관성분석에 시간의 개념을 포함시킨 분석. => A를 구매했는데 B를 구매하지 않았으면 B 추천

연관분석 동향

대용량 데이터에 대한 연관성분석이 불가능하거나, 시간이 많이 걸린다.
그래서 Apriori나 FP-Frowth가 탄생했다.
Apriori : 최소 지지도 이상의 빈발항목집합을 찾은 후 그것들에 대해서만 연관규칙 계산
FP-Growth : 후보 빈발항목집합을 생성하지 않고, FP-TREE를 통해 분할정복. Apriori보다 DB 스캔이 적어 빠르다.

1. 다음 중 기법의 활용 분야가 나머지와 다른 것은?

1) 로지스틱 회귀 분석
2) 인공신경망
3) 의사결정나무
4) SOM

2. 기업의 내부와 외부의 데이터를 기반으로 새로운 규칙을 발견해 비즈니스 의사결정에 활용하는 작업은?

1) 회귀분석
2) 데이터마이닝
3) 데이터웨어하우징
4) 의사결정시스템

3. 데이터를 무작위로 두 집단으로 분리하여 각각 테스트 데이터와 학습 데이터로 사용하는 모형의 평가방법은?

1) K-FOLD 교차 검정
2) ROC 그래프
3) 홀드아웃
4) 이익도표

4. 다음 중 배깅에 대한 설명으로 적절한 것은?

1) 데이터 간의 거리를 측정하여 군집화한다.
2) 트랜잭션 사이에 빈번하게 발생하는 규칙을 찾아낸다.
3) 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도의 형태로 나타낸다.
4) 반복추출 방법을 사용하기에 같은 데이터가 한 표본 내에 여러 번 추출될 수 있고, 추출되지 않을 수도 있다.

5. 오분류표를 사용한 평가 지표 중 정확도와 재현율의 트레이드오프를 보정하여 하나의 지표로 만들어낸 지표는?

6. 계층적 군집 분석 결과를 나타내는 도표는 (가) 이다.

덴드로그램

7. 계층적 군집분석 수행 시 군집의 오차제곱합이 병합 이전 군집의 오차제곱합의 합에 비해 증가한 정도가 작아지는 방향으로 군집을 형성하는 방법은?

1) 단일연결법
2) 중심연결법
3) 와드연결법
4) 완전연결법

8. K평균 군집에 대한 설명으로 옳지 않은 것은?

1) 한 번 군집이 형성되면 다른 군집으로 이동할 수 없다.
2) 초기 군집의 중심을 임의로 선택한다.
3) 군집의 개수를 미리 선택해야 한다.
4) 이상점에 영향을 많이 받는다.

728x90

저작자표시 비영리 변경금지 (새창열림)

'자격증 > ADSP' 카테고리의 다른 글

ADSP_3과목_통계 분석 (0)	2021.02.09
ADSP_3과목_데이터 마트 (0)	2021.02.08
ADSP_3과목_R 프로그래밍 기초 (0)	2021.02.04
ADSP_3과목_데이터 분석 (0)	2021.02.02
ADSP_2과목_분석 마스터 플랜 (0)	2021.02.01

저장소

ADSP_3과목_정형 데이터 마이닝

'자격증 > ADSP' 카테고리의 다른 글

티스토리툴바

ADSP_3과목_정형 데이터 마이닝

'자격증 > ADSP' 카테고리의 다른 글

관련글

티스토리툴바