728x90
반응형
book.naver.com/bookdb/book_detail.nhn?bid=15989437
*해당 글은 학습을 목적으로 위의 도서 내용 중 일부 내용만을 요약하여 작성한 포스팅입니다.
상세한 내용 및 전체 내용 확인을 원하신다면 도서 구매를 추천드립니다.
데이터 마트
- 데이터 웨어하우스와 사용자 중간층에 위치
- 하나의 주제 또는 하나의 부서 중심의 데이터 웨어하우스이다.
- 데이터 마트 내 데이터의 대부분은 DW에서 복제되지만, 자체적으로 수집될 수 있으며 RDBMS나 다차원 데이터 베이스를 이용해 구축한다.
- CRM 관련 업무 중 핵심이다.
- DM을 어떻게 구축하느냐에 따라 분석 효과는 크게 차이가 난다.
- DM의 데이터는 처리하면 요약변수와 파생변수로 나뉜다.
요약변수
- 수집된 정보를 분석에 맞게 종합한 변수
- DM에서 가장 중요한 변수이다.
- 재활용성이 높고, 간단한 구조이기에 자동화하여 구축이 가능하다.
- 가끔 기준값의 의미 해석이 어려울 수 있는데, 연속형 변수를 그룹핑해서 사용하면 해결된다.
파생변수
- 사용자가 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여한 변수
- 매우 주관적인 변수일 수 있으므로 논리적 타당성을 맞춰야 한다.
- 세분화, 고객행동 예측, 캠페인 반응 예측 등에 활용된다.
- 파생변수는 상황에 따라 특정 상황에만 유의미하지 않게 대표성을 잘 나타내야 한다.
R을 활용한 데이터 마트 구축
1) reshape 패키지
- 변수를 조합해 다양한 차원과 결합, 요약변수와 파생변수를 쉽게 생성하여 DM을 구성한다.
- melt() : 원데이터 형태로 만드는 함수
- cast() : 요약 형태로 만드는 함수
- melt가 쉬운 캐스팅을 위해 적당한 형태로 만들어주고, cast가 데이터를 원하는 형태로 계산하거나 변형시킨다.
2) sqldf 패키지
- R에서 sql 명령어를 사용 가능하게 해주는 패키지
- SAS에서의 proc sql과 같은 역할
3) plyr 패키지
- apply 함수에 기반해 데이터와 출력변수를 동시에 배열로 치환하여 처리하는 패키지
- split (분리)하고, apply (처리)한 다음, combine(다시 결합) 하는 필수적인 데이터 처리 기능 제공
array | data frame | list | |
array | aaply | adply | alply |
data frame | daply | ddply | dlply |
list | laply | ldply | llply |
4) 데이터 테이블
- data.table 패키지는 R에서 가장 많이 사용하는 데이터 핸들링 패키지이다.
- 큰 데이터를 탐색, 연산, 병합하는데 유용하다.
- 속도가 빠르며, 빠른 그루핑과 오더링, 짧은 문장 지원 측면에서 데이터 프레임보다 유용하다
- 특정 칼럼의 키 값으로 색인을 지정한 후 데이터를 처리한다.
데이터 가공
Data Explotation (데이터 조작)
- 데이터 분석을 위해 변수들의 상태를 파악하는 것.
- head(), tail() : 처음, 끝에서 6개 record 조회
- summary() : 수치형, 명목형에 따라 다르게 조회.
- 수치형 변수면 : 최대값, 최소값, 평균, 1,2,3사분위수
- 명목형 변수면 : 명목값, 데이터 개수
변수 중요도
- 모형을 생성하여 사용된 변수의 중요도를 살피는 과정
- klaR 패키지의 greedy.wilks()를 사용하여 중요도를 정리한다.
변수 구간화
- 연속형 변수를 분석 목적에 맞게 활용하기 위해 구간화
- binning : 신용평가모형 개발에서 연속형 변수를 범주형 변수로 구간화하는데 사용
- 의사결정나무 : 세분화 또는 예측에 활용되는 의사결정나무 모형을 사용해 입력변수들을 구간화.동일한 변수를 여러 번의 분리기준으로 사용이 가능해 연속형 변수를 구간화할 수 있다.
기초 분석 및 데이터 관리
데이터 EDA (탐색적 자료 분석)
- 분석 전에 전체적으로 데이터의 특징을 파악하고 다양한 각도에서 접근한다.
- summary()를 이용해 데이터의 기초 통계량을 확인한다.
결측값 인식
- NA, 9999999, ' ', Unknown, Not Answer 등 결측값을 처리한다. na.rm=T 옵션을 줘서 처리한다.
- 결측값 자체가 의미가 있는 경우도 있다.
- 결측값 처리는 전체 작업속도에 많은 영향을 준다.
*자료구조 안에 NA가 있으면 연산하면 NA가 출력
결측값 처리
1) 단순 대치법
- completes analysis : 결측값이 존재하는 레코드 삭제
- 평균 대치법 : 데이터의 평균으로 대치 (비조건부 : 관측데이터의 평균 / 조건부 : 회귀분석으로 대치)
- 단순확률 대치법 : 평균대치법에서 추정량 표준 오차의 과소 추정문제를 보완. Hot-deck, nearest neighbor 방법
2) 다중 대치법
- 한 번이 아닌 m번의 대치를 통해 m개의 가상적 완전 자료를 만드는 법.
- 대치하고, 분석하고, 결합한다.
이상값
- 의도치 않은 잘못된 입력일 수 있고, 의도한 입력일 수 있다.
- 제거해야 할 때도 있고, 분석에 포함될 때도 있다.
- 반드시 제거해야 하는 것이 아니기 때문에 분석의 목적이나 종류에 따라 적절한 판단이 필요하다.
이상값의 인식 방법
1) ESD (Extreme Studentized Deviation)
- 평균으로부터 3 표준편차 떨어진 값.
- (기하평균-2.5*표준편차) < 데이터 < (기하평균+2.5*표준편차)
- 사분위수를 이용해 제거할 수 있다.
- Q1 - 1.5(Q3-Q1) < 데이터 < Q3 + 1.5(Q3-Q1)을 벗어난 데이터를 이상값으로 판단한다.
2) 극단값 절단 (trimming)
- 기하 평균을 이용해 제거할 수 있다. : geo_mean
- 하단과 상단의 %를 이용해 제거할 수도 있다.
3) 극단값 조정 방법 (winsorizing 방법)
- 상한값과 하한값을 벗어나는 값들을 하한, 상한값으로 바꾸어 활용하는 방식
- 극단값 절단보다 데이터 손실율이 적고 설명력도 높아진다.
1. 변수를 조합해 변수명을 만들고 변수들을 시간, 상품 등의 차원에 결합해 다양한 요약변수와 파생변수를 쉽게 생성하여 데이터 마트를 구성할 수 있는 패키지는?
reshape
2. 다음 중 파생변수의 설명으로 적절한 것은?
1) 파생변수는 주관적인 변수이므로 논리적 타당성을 갖춰야 한다.
2) 파생변수는 많은 모델에서 공통적으로 사용될 수 있다.
3) 파생변수는 재활용성이 높다.
4) 파생변수는 다양한 모델을 개발할 때 효율적으로 사용할 수 있다.
1
3. 'table'이라는 데이터 셋의 내용을 조회할 때 R프로그램의 명령어는?
sqldf("select * from table")
4. 이상치에 대한 설명으로 가장 부적절한 것은?
1) 군집분석을 이용해 다른 데이터와 가장 멀리 떨어진 데이터를 이상치로 판정한다.
2) 잘못 포함된 이상치는 삭제 후 분석한다.
3) 설명변수의 관측치에 비해 종속변수의 값이 상이한 것을 이상치라 한다.
4) 통상 평균으로부터 표준편차의 3배가 되는 점을 기준으로 이상치를 정의한다.
1
5. R 프로그래밍에서 결측치를 (가)로 표현한다.
NA
6. 평균으로부터 3 standard deviation 이상 떨어진 값들을 이상치로 판단하는 알고리즘은?
ESD
728x90
반응형
'자격증 > ADSP' 카테고리의 다른 글
ADSP_3과목_정형 데이터 마이닝 (0) | 2021.02.11 |
---|---|
ADSP_3과목_통계 분석 (0) | 2021.02.09 |
ADSP_3과목_R 프로그래밍 기초 (0) | 2021.02.04 |
ADSP_3과목_데이터 분석 (0) | 2021.02.02 |
ADSP_2과목_분석 마스터 플랜 (0) | 2021.02.01 |