본문 바로가기
자격증/ADSP

ADSP_3과목_데이터 마트

by 이민우 2021. 2. 8.
728x90
반응형

book.naver.com/bookdb/book_detail.nhn?bid=15989437

 

ADsP 데이터 분석 준전문가 (동영상 핵심정리 + 최신기출 + 예상문제 660)

▷ 카카오톡 실시간 1:1 질문답변 가능 ( 카카오톡 플러스친구 '데이터에듀' 검색)▷ 핵심포인트를 정리한 합격마법노트 + 무료 문제풀이 동영상 서비스▷ 30일 완전 정복으로 일정 관리가능본 도

book.naver.com

*해당 글은 학습을 목적으로 위의 도서 내용 중 일부 내용만을 요약하여 작성한 포스팅입니다.

 상세한 내용 및 전체 내용 확인을 원하신다면 도서 구매를 추천드립니다.

 

 

데이터 마트

  • 데이터 웨어하우스와 사용자 중간층에 위치
  • 나의 주제 또는 하나의 부서 중심의 데이터 웨어하우스이다.
  • 데이터 마트 내 데이터의 대부분은 DW에서 복제되지만, 자체적으로 수집될 수 있으며 RDBMS나 다차원 데이터 베이스를 이용해 구축한다.
  • CRM 관련 업무 중 핵심이다.
  • DM을 어떻게 구축하느냐에 따라 분석 효과는 크게 차이가 난다.
  • DM의 데이터는 처리하면 요약변수와 파생변수로 나뉜다.

 

 

요약변수

  • 수집된 정보를 분석에 맞게 종합한 변수
  • DM에서 가장 중요한 변수이다.
  • 재활용성이 높고, 간단한 구조이기에 자동화하여 구축이 가능하다.
  • 가끔 기준값의 의미 해석이 어려울 수 있는데, 연속형 변수를 그룹핑해서 사용하면 해결된다.

 

 

파생변수

  • 사용자가 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여한 변수
  • 매우 주관적인 변수일 수 있으므로 논리적 타당성을 맞춰야 한다.
  • 세분화, 고객행동 예측, 캠페인 반응 예측 등에 활용된다.
  • 파생변수는 상황에 따라 특정 상황에만 유의미하지 않게 대표성을 잘 나타내야 한다.

 

 


R을 활용한 데이터 마트 구축

 

1) reshape 패키지

  • 변수를 조합해 다양한 차원과 결합, 요약변수와 파생변수를 쉽게 생성하여 DM을 구성한다.
  • melt() : 원데이터 형태로 만드는 함수
  • cast() : 요약 형태로 만드는 함수
  • melt가 쉬운 캐스팅을 위해 적당한 형태로 만들어주고, cast가 데이터를 원하는 형태로 계산하거나 변형시킨다.

 

2) sqldf 패키지

  • R에서 sql 명령어를 사용 가능하게 해주는 패키지
  • SAS에서의 proc sql과 같은 역할

 

3) plyr 패키지

  • apply 함수에 기반해 데이터와 출력변수를 동시에 배열로 치환하여 처리하는 패키지
  • split (분리)하고, apply (처리)한 다음,  combine(다시 결합) 하는 필수적인 데이터 처리 기능 제공
  array data frame list
array aaply adply alply
data frame daply ddply dlply
list laply ldply llply

 

4) 데이터 테이블

  • data.table 패키지는 R에서 가장 많이 사용하는 데이터 핸들링 패키지이다.
  • 큰 데이터를 탐색, 연산, 병합하는데 유용하다.
  • 속도가 빠르며, 빠른 그루핑과 오더링, 짧은 문장 지원 측면에서 데이터 프레임보다 유용하다
  • 특정 칼럼의 키 값으로 색인을 지정한 후 데이터를 처리한다.

 


 

데이터 가공

 

Data Explotation (데이터 조작)

  • 데이터 분석을 위해 변수들의 상태를 파악하는 것.
  • head(), tail() : 처음, 끝에서 6개 record 조회
  • summary() : 수치형, 명목형에 따라 다르게 조회.
  1. 수치형 변수면 : 최대값, 최소값, 평균, 1,2,3사분위수
  2. 명목형 변수면 : 명목값, 데이터 개수

 

 

변수 중요도

  • 모형을 생성하여 사용된 변수의 중요도를 살피는 과정
  • klaR 패키지의 greedy.wilks()를 사용하여 중요도를 정리한다.

 

 

변수 구간화

  • 연속형 변수를 분석 목적에 맞게 활용하기 위해 구간화
  • binning : 신용평가모형 개발에서 연속형 변수를 범주형 변수로 구간화하는데 사용
  • 의사결정나무 : 세분화 또는 예측에 활용되는 의사결정나무 모형을 사용해 입력변수들을 구간화.동일한 변수를 여러 번의 분리기준으로 사용이 가능해 연속형 변수를 구간화할 수 있다.

 


 

기초 분석 및 데이터 관리

 

데이터 EDA (탐색적 자료 분석)

  • 분석 전에 전체적으로 데이터의 특징을 파악하고 다양한 각도에서 접근한다.
  • summary()를 이용해 데이터의 기초 통계량을 확인한다.

 

 

결측값 인식

  • NA, 9999999, ' ', Unknown, Not Answer 등 결측값을 처리한다. na.rm=T 옵션을 줘서 처리한다.
  • 결측값 자체가 의미가 있는 경우도 있다.
  • 결측값 처리는 전체 작업속도에 많은 영향을 준다.

*자료구조 안에 NA가 있으면 연산하면 NA가 출력

 

 

결측값 처리

1) 단순 대치법

  1. completes analysis : 결측값이 존재하는 레코드 삭제
  2. 평균 대치법 : 데이터의 평균으로 대치 (비조건부 : 관측데이터의 평균 / 조건부 : 회귀분석으로 대치)
  3. 단순확률 대치법 : 평균대치법에서 추정량 표준 오차의 과소 추정문제를 보완. Hot-deck, nearest neighbor 방법

 

2) 다중 대치법

  • 한 번이 아닌 m번의 대치를 통해 m개의 가상적 완전 자료를 만드는 법.
  • 대치하고, 분석하고, 결합한다.

 

 

 

이상값

  • 의도치 않은 잘못된 입력일 수 있고, 의도한 입력일 수 있다.
  • 제거해야 할 때도 있고, 분석에 포함될 때도 있다.
  • 반드시 제거해야 하는 것이 아니기 때문에 분석의 목적이나 종류에 따라 적절한 판단이 필요하다.

 

 

이상값의 인식 방법

1) ESD (Extreme Studentized Deviation)

  • 평균으로부터 3 표준편차 떨어진 값.
  • (기하평균-2.5*표준편차) < 데이터 < (기하평균+2.5*표준편차)
  • 사분위수를 이용해 제거할 수 있다.
  • Q1 - 1.5(Q3-Q1) < 데이터 < Q3 + 1.5(Q3-Q1)벗어난 데이터를 이상값으로 판단한다.

 

2) 극단값 절단 (trimming)

  • 기하 평균을 이용해 제거할 수 있다. : geo_mean
  • 하단과 상단의 %를 이용해 제거할 수도 있다.

 

3) 극단값 조정 방법 (winsorizing 방법)

  • 상한값과 하한값을 벗어나는 값들을 하한, 상한값으로 바꾸어 활용하는 방식
  • 극단값 절단보다 데이터 손실율이 적고 설명력도 높아진다.

 

 

 

 

 

 




 

 

1. 변수를 조합해 변수명을 만들고 변수들을 시간, 상품 등의 차원에 결합해 다양한 요약변수와 파생변수를 쉽게 생성하여 데이터 마트를 구성할 수 있는 패키지는?

reshape

2. 다음 중 파생변수의 설명으로 적절한 것은?

1) 파생변수는 주관적인 변수이므로 논리적 타당성을 갖춰야 한다.
2) 파생변수는 많은 모델에서 공통적으로 사용될 수 있다.
3) 파생변수는 재활용성이 높다.
4) 파생변수는 다양한 모델을 개발할 때 효율적으로 사용할 수 있다.

1

3. 'table'이라는 데이터 셋의 내용을 조회할 때 R프로그램의 명령어는?

sqldf("select * from table")

4. 이상치에 대한 설명으로 가장 부적절한 것은?

1) 군집분석을 이용해 다른 데이터와 가장 멀리 떨어진 데이터를 이상치로 판정한다.
2) 잘못 포함된 이상치는 삭제 후 분석한다.
3) 설명변수의 관측치에 비해 종속변수의 값이 상이한 것을 이상치라 한다.
4) 통상 평균으로부터 표준편차의 3배가 되는 점을 기준으로 이상치를 정의한다.

1

5. R 프로그래밍에서 결측치를 (가)로 표현한다.

NA

6. 평균으로부터 3 standard deviation 이상 떨어진 값들을 이상치로 판단하는 알고리즘은?

ESD

728x90
반응형

'자격증 > ADSP' 카테고리의 다른 글

ADSP_3과목_정형 데이터 마이닝  (0) 2021.02.11
ADSP_3과목_통계 분석  (0) 2021.02.09
ADSP_3과목_R 프로그래밍 기초  (0) 2021.02.04
ADSP_3과목_데이터 분석  (0) 2021.02.02
ADSP_2과목_분석 마스터 플랜  (0) 2021.02.01