본문 바로가기
자격증/빅데이터 분석기사 (실기)

03_머신러닝 프로세스

by 이민우 2022. 5. 30.
728x90
반응형

출처 : https://book.naver.com/bookdb/book_detail.nhn?bid=21488029 

 

공개적 빅데이터분석기사 실기

본 도서는 한국데이터산업진흥원에서 실시하는 빅데이터분석기사 국가기술자격 실기시험 대비 도서입니다.본 교재는 PYTHON을 활용하여 쉽고 빠른 자격증 취득으로 이어질 수 있도록 도움을 줄

book.naver.com

*해당 글은 학습을 목적으로 위의 도서 내용 중 일부 내용만을 요약하여 작성한 포스팅입니다.

 상세 내용 및 전체 내용 확인을 원하신다면 도서 구매를 추천드립니다.


 

 

머신러닝 프로세스

  • 머신러닝 프로세스는 아래와 같은 과정을 거친다.
  1. Data Set 분할
  2. 데이터 전처리
  3. 모델 적용
  4. 하이퍼 파라미터 탐색
  • Data Set 분할은 데이터를 랜덤으로 학습/검증/테스트 데이터셋으로 분할하는 과정이다.
  • 데이터 분할의 비율은 정해진 것은 없으나 일반적으로 70~90%가 학습, 10~20%가 검증, 10~20%가 테스트로 사용된다.
  • 데이처 전처리는 범주형 자료의 경우 원 핫 인코딩을 하고, 정규화의 경우 표준화와 Min-Max-정규화가 주로 사용된다.
  • 하이퍼 파라미터 탐색 단계는 최적의 하이퍼 파라미터를 찾아 최종 모델을 결정하는 단계이다.

 

 

데이터 전처리

  • 머신러닝 알고리즘은 모든 데이터의 공간 위치에서 거리를 계산하는 등 데이터의 단위가 매우 중요하다.
  • 특성 변수 (x)의 경우 단위가 다르거나 범주형일 경우 거리 계산에 오류가 발생할 수 있다.
  • 머신러닝에서 정규화는 표준화와 Min-Max-정규화 두 가지 방법이 주로 사용된다.
  • 또한 범주형 자료는 원 핫 인코딩이 주로 사용된다.

 

 

모델 성능 평가

  • 분류 문제는 실제분류와 예측분류가 얼마나 일치하였는지 확인한다.
  • 회귀 문제는 실제 레이블값과 예측 레이블값이 얼마나 맞는지 확인한다.
  • 이 때 자주 사용되는 것이 오차행렬이다.
  • 오차행렬은 실제 분류를 행에, 예측분류를 열에 배치한 교차표로 정리하며 정분류와 오분류를 쉽게 알 수 있도록 한 결과표이다.

https://123okk2.tistory.com/141?category=964154

 

728x90
반응형

'자격증 > 빅데이터 분석기사 (실기)' 카테고리의 다른 글

03_02. 회귀  (0) 2022.06.04
03_01. 분류  (0) 2022.05.30
02_01. 데이터 정제 실전 과제  (0) 2022.05.30
02_데이터 탐색과 데이터 정제  (0) 2022.05.30
01. 파이썬 기초  (0) 2022.05.27