728x90
반응형
출처 : https://book.naver.com/bookdb/book_detail.nhn?bid=21488029
*해당 글은 학습을 목적으로 위의 도서 내용 중 일부 내용만을 요약하여 작성한 포스팅입니다.
상세 내용 및 전체 내용 확인을 원하신다면 도서 구매를 추천드립니다.
머신러닝 프로세스
- 머신러닝 프로세스는 아래와 같은 과정을 거친다.
- Data Set 분할
- 데이터 전처리
- 모델 적용
- 하이퍼 파라미터 탐색
- Data Set 분할은 데이터를 랜덤으로 학습/검증/테스트 데이터셋으로 분할하는 과정이다.
- 데이터 분할의 비율은 정해진 것은 없으나 일반적으로 70~90%가 학습, 10~20%가 검증, 10~20%가 테스트로 사용된다.
- 데이처 전처리는 범주형 자료의 경우 원 핫 인코딩을 하고, 정규화의 경우 표준화와 Min-Max-정규화가 주로 사용된다.
- 하이퍼 파라미터 탐색 단계는 최적의 하이퍼 파라미터를 찾아 최종 모델을 결정하는 단계이다.
데이터 전처리
- 머신러닝 알고리즘은 모든 데이터의 공간 위치에서 거리를 계산하는 등 데이터의 단위가 매우 중요하다.
- 특성 변수 (x)의 경우 단위가 다르거나 범주형일 경우 거리 계산에 오류가 발생할 수 있다.
- 머신러닝에서 정규화는 표준화와 Min-Max-정규화 두 가지 방법이 주로 사용된다.
- 또한 범주형 자료는 원 핫 인코딩이 주로 사용된다.
모델 성능 평가
- 분류 문제는 실제분류와 예측분류가 얼마나 일치하였는지 확인한다.
- 회귀 문제는 실제 레이블값과 예측 레이블값이 얼마나 맞는지 확인한다.
- 이 때 자주 사용되는 것이 오차행렬이다.
- 오차행렬은 실제 분류를 행에, 예측분류를 열에 배치한 교차표로 정리하며 정분류와 오분류를 쉽게 알 수 있도록 한 결과표이다.
728x90
반응형
'자격증 > 빅데이터 분석기사 (실기)' 카테고리의 다른 글
03_02. 회귀 (0) | 2022.06.04 |
---|---|
03_01. 분류 (0) | 2022.05.30 |
02_01. 데이터 정제 실전 과제 (0) | 2022.05.30 |
02_데이터 탐색과 데이터 정제 (0) | 2022.05.30 |
01. 파이썬 기초 (0) | 2022.05.27 |