Haekt‘s log

[AI기초] DataSet이란? 본문

AI 인공지능/인공지능

[AI기초] DataSet이란?

Haekt 2022. 10. 4. 16:51

이 글은 머신러닝 프로세스의 모델링 부분인 DataSet을 다룬다. 

때문에 속까지 상세히는 다루지 않고 가볍게 다룰 예정이다.

 

 

DataSet이란?


DataSet이란 방대하게 수집된 데이터로,

머신러닝 프로세스의 모델링과정에서 인공지능을 훈련시킬때 사용된다.

 

인공지능을 훈련시킬때 사용되는 데이터의 종류에도 여러가지가 있다.

다음과 같다.

 

  • Trainning Data(훈련 데이터)
  • Validation Data (검증 데이터) 
  • Test Data (테스트 데이터)

 

Trainning Data(훈련 데이터)

머신러닝 모델을 만들 때 사용되는 데이터이다.

 

Validation Data (검증 데이터)

훈련 데이터에서 분할된 데이터로,

Learning rate 또는 regularization, parameter 등을 튜닝(모델 성능 개선) 하는데 사용한다.

 

* Learning rate : 학습률이라고 한다.  

* Regularization :  정규화라는 뜻으로, 대충 학습에 영향을 미치는 극단적인 값들을 없앤다고 이해하자.

* parameter : 사람이 입력한 값. 매개변수

 

Test Data(테스트 데이터)

머신러닝 모델이 얼마나 잘 작동하는지 확인하는 데이터다.

최종 성능 측정에 사용된다.

 


 

이 데이터들은 모델을 만들고 제대로 만들었는지 확인하고, 테스트 하는 데이터들이다. 

이 데이터들의 비율을 적절히 조절해 모델을 만든다.

 

데이터들의 분할방법

보통 데이터들의 비율은 아래와 같다.

 

- 훈련 데이터 : 테스트 데이터 = 7:3 or 8:2

- 훈련 데이터 : 검증 데이터 : 테스트 데이터 = 6:2:2 or 7:1.5:1.5

 

 

Comments