728x90
반응형
출처 : https://book.naver.com/bookdb/book_detail.nhn?bid=20885185
*해당 글은 학습을 목적으로 위의 도서 내용 중 일부 내용만을 요약하여 작성한 포스팅입니다.
상세한 내용 및 전체 내용 확인을 원하신다면 도서 구매를 추천드립니다.
분석 모형 선정
- 분석 기법 혹은 알고리즘의 적용 전에 분석 모형을 먼저 선정해야 한다.
- 모형 선정에 앞서 데이터의 속성을 세부적으로 파악하고 처리되어 있어야 한다.
- 만약 데이터가 준비되어 있지 않다면 사전 분석 목적을 정확하게 파악해야한다.
- 분석 모형 선정 프로세스는 아래의 순서를 거친다.
- 먼저 문제요건을 정의하고 대상 데이터를 선정하고 목표와 조건을 정의한다.
- 데이터를 수집한 후 수집된 데이터를 정리하고 도식화한다.
- 데이터의 전처리를 수행한다.
- 마지막으로 최적의 분석 모형을 선정한다.
- 분석 모형은 분석 목표에 따라 데이터 특성을 도출하고, 가설 수립에 따라 분석 방향을 정의하는 모형이다.
- 예측 분석 모형, 현황 진단 모형, 최적화 분석 모형 등으로 구분된다.
- 분석 모형 정의를 위한 사전 고려사항은 필요성, 파급효과, 추진 시급성 등을 평가기준표로 작성하여 판별한다.
- 관련된 과거의 분석 사례나 솔루션이 있다면 효율적으로 분석 모형 설계를 진행할 수 있다.
- 접근은 상향식, 하향식으로 가능하다.
- 상향식 접근은 문제 정의가 어려울 경우 데이터를 분석하며 인사이트를 얻는다.
- 하향식 접근은 문제 정의가 가능할 경우 문제 탐색과 연관되어 비즈니스 모델, 외부참조 모델, 분석 유스 케이스 기반으로 발굴한다.
- 비즈니스 모델은 어떻게 수익을 창출할지 검증한다.
- 외부 참조 모델은 벤치마킹으로 분석 테마 후보 풀을 구축하고 선택한다.
- 분석 유스케이스는 문제에 대한 상세 설명과 해결 시의 효과에 대해 명시한다.
- 분석 모델링 시 종속 변수가 없으면 지도학습 알고리즘의 적용이 어려움을 기억하자.
R
- R은 1993년 뉴질랜드 오클랜드 대학교 통계학과 교수들이 통계분석과 자료의 시각화를 위해 개발한 오픈소스 분석용 프로그래밍 언어이다.
- 객체지향이며, 고속메모리 처리가 가능하고 다양한 자료구조를 지원한다.
- 또한 지속적으로 업데이트되며 최신 패키지를 제공하고 시각화 기느에 특화되어있다.
- 하지만 대용량 메모리 처리는 어려우며, 별도의 모듈 연동이 아니라면 웹 브라우저에서 사용할 수 없다.
- R Studio는 R을 위한 IDE로, 편리한 분석 개발 인터페이스를 제공한다.
- Rstudio Desktop과 Rstudio Server로 나뉘어있다.
Python
- 파이썬은 1991년 귀도 반 로섬이 발표한 오픈소스 분석용 프로그래밍 언어이다.
- 플랫폼 독립적이며 인터프리터 언어이고, 객체지향적 대화형 언어이다.
- 동적인 데이터 타입 결정을 지원하며, 내장 객체 자료형을 지원하며 자동 메모리 관리 기능을 제공한다.
- 또한 재사용 가능한 모듈을 제공한다.
- 다만 컴파일러가 없는 인터프리터 방식이라 실행속도가 느리다.
- 그러나 이 점은 바이트 코드를 일부 생산하거나 JIT 컴파일러를 사용하면 보완이 가능하다.
- 아나콘다는 파이썬 기반의 데이터 분석에 필요한 오픈소스들을 모아놓은 통합 개발 플랫폼이다.
과대 적합과 과소 적합
- 모델을 구축하기 위해 데이터를 학습, 평가, 검증 데이터로 나눠야 한다.
- 이 때 학습 데이터는 실제 데이터의 부분집합이므로 학습 데이터에만 최적화된 분석 모델이 만들어질 수 있다.
- 이 경우 학습 데이터에 대해서는 높은 정확도를 보이지만, 테스트 데이터나 새로운 데이터에 대해서는 부정확한 모델이 만들어질 수 있는데, 이를 과대적합이라고 한다.
- 과대적합 방지를 위해서는 정규화나 교차검증 등을 사용한다.
- 과소적합은 모형이 단순하여 데이터 내부의 패턴이나 규칙을 잘 학습하지 못하는 것이다.
- 그리고 학습, 평가, 검증 데이터에 대해 모두 정확하게 예측하는 모델은 일반화된 모델이라 한다.
1. 분석 모형 종류로 틀린 것은?
1) 예측분석 모형
2) 현황진단 모형
3) 기계학습 모형
4) 최적화분석 모형
3
2. 분석 모형에서 종속변수가 없을 때 사용할 수 없는 알고리즘은?
1) 군집분석
2) 연관분석
3) 분류분석
4) 주성분분석
3
3. 파이썬의 단점은 실행속도가 느린 ( ) 언어라는 점이다.
인터프리터
4. 훈련 데이터에서는 높은 정확도를 보이나 테스트 데이터나 새로운 데이터에 대한 예측은 잘 수행하지 못하는 모델은 ( ) 된 모델이라 한다.
과대적합
728x90
반응형
'자격증 > 빅데이터 분석기사' 카테고리의 다른 글
3_2. 분석기법 적용_고급 분석기법 (2) | 2022.03.20 |
---|---|
3_2. 분석기법 적용_분석기법 (0) | 2022.03.19 |
2_3. 통계기법의 이해_추론통계 (0) | 2022.03.19 |
2_3. 통계기법의 이해_기술통계 (0) | 2022.03.18 |
2_2. 데이터 탐색_고급 데이터 탐색 (0) | 2022.03.18 |