Haekt‘s log

[AI기초] 머신러닝 프로세스 본문

AI 인공지능/인공지능

[AI기초] 머신러닝 프로세스

Haekt 2022. 10. 4. 21:15

 

머신러닝을 하는데 있어 필요한 과정이 머신러닝 프로세스이다. 

 

인공지능, 보안을 배우다. 저자: 서준석

위의 그림은 머신러닝 프로세스로,

가장 기초 부분인 데이터 수집부터 최종 머신러닝 모델의 판단 결과까지 쭉 나열한 그림이다.

 

아래에서 각 과정을 설명했다.

 

 

- 데이터 수집


머신러닝에 있어서 가장 중요한 단계이다. 

머신러닝 모델을 만드는데 있어 필요한 데이터를 모으는 데이터 수집 부터 시작되기 때문이다.

 

데이터 베이스에서 수집하거나, 웹 크롤링 등을 통해 데이터를 수집한다.

 

 

 

- 특징 공학


이전 과정에서 수집한 데이터를 컴퓨터가 이해할 수 있게 변환하고, 의미있는 부분(특징)을 뽑아내는 단계이다. 

이 때의 특징을 attribute 라고 한다

 

데이터 전처리, 특징추출, 특징 선택의 과정이 이 단계에 포함되어있다.

 

 

* 데이터 전처리

 

이전 과정에서 수집한 데이터들은 사람이 이해할 수 있는 그림이거나, 글자이다. 

데이터들을 컴퓨터가 이해할 수 있게 숫자 형식으로 바꿔내는 과정이다.

 

 

* 특징 추출

 

데이터 전처리 과정을 거친 데이터들에서, 구분할만한 특징들을 뽑아내는 과정이다. 

우리가 고양이를 복슬복슬하다, 귀가뾰족하다, 눈이 날카롭다, 발톱이 뾰족하다 등의 특징을 가려내는 것과 유사한 과정이다.

 

 

* 특징 선택

 

특징 추출 과정에서 뽑아낸 데이터의 특징들중 판단에 있어 가장 최적의 조합을 찾는 과정이다.

 

고양이는 노란색이다, 얼룩무늬다, 움직인다 등의 구분하기 어려운 특징들을 가려내고,

야옹소리를 낸다, 날카로운 발톱이 있다 등의 구분할때 정확도가 가장 높은 특징들의 조합을 찾는 과정이다.

 

 

 

- 모델링


이 단계는 이전단계인 특징 공학으로 뽑아낸 특징들의 조합을 이용하여,

정답을 찾는 여러 기준들을 만들고, 데이터와 목표 값 간 어떤 기준이 최적인지 찾는 단계이다. 

 

모델 구축, 모델 평가, 모델 최적화 과정이 이 단계에 포함되어 있다. 

 

 

* 모델 구축

특징에 맞춰 나열한 데이터들 중 어떤 것이 맞는 정답인지 판단하는 기준을 만든다.

이 모델의 종류는 회귀, 분류, 군집 모델이 존재한다.

 

* 회귀 모델 : 데이터들 사이의 평균을 구하는 모델. 

ex) 데이터들의 평균을 구해 선을 긋는 선형 회귀

 

* 분류 모델 : 데이터에 레이블(답)을 달아서 정답의 범주를 만드는 모델   

ex) 로지스틱 회귀, 결정트리, 서포트 벡터 머신

 

* 군집 모델 : 데이터들을 정답 없이 군집을 분류하는 모델

ex) 무작위로 점을 찍고 데이터와의 거리에 따라 군집들을 구하는 계층적 군집 분석

 

* 모델 평가

만든 기준이 정확한지 측정하는 단계이다. 

평가 방법은 모델의 종류마다 다르다.

  * 군집모델의 경우 평가가 어려우며, 대표적으로 실루엣 분석(silhouette analysis) 을 사용하여 평가한다.

 

 

* 모델 최적화

모델을 최적화 하는 단계로, 모델의 성능 개선, 모델의 경량화를 하는 과정이다. 

 

  1. 모델 옵션 변경: 모델 옵션값 변경(SVM의 C와 gamma, 랜덤포레스트 트리의 깊이 등)
  2. 모델 변경: 다른 모델을 선택
  3. 특징 조합 변경: 불필요한 특징 제거 또는 새로운 특징 추가
  4. 모델 옵션 + 모델 + 특징 조합 변경
  5. 특징 공학 단계부터 다시 수행: 특징 추출을 새로 하거나 새로운 특징 조합을 탐색

 

위 과정을 반복하여 모델의 성능을 만족하는 만큼 끌어올린다.

 

이 과정을 모두 거친 모델은 최종 모델이 된다.

 

 

'AI 인공지능 > 인공지능' 카테고리의 다른 글

[AI] 특징 추출을 위한 N-Gram 언어모델  (0) 2023.03.06
[AI기초] 모델 학습의 종류  (0) 2022.10.04
[AI기초] DataSet이란?  (0) 2022.10.04
Comments