일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- docker
- dreamhack
- STP
- Repository
- 인공지능
- AWS
- 머신러닝
- Reversing
- CISCO
- Mac
- abex'crackme
- Java
- Python
- RIP
- 리버싱
- cmd
- 암호학
- 스위치
- vlan
- Screening Router
- 자바
- bastion host
- AI
- 머신러닝 프로세스
- 크롤러
- Firewall
- 라우터
- vector
- 온프레미스
- 네트워크
- Today
- Total
목록AI 인공지능/인공지능 (4)
Haekt‘s log
trade-off 문제로 n 선택시, 5 를 넘으면 안된다.(희소문제, 모델크기 증가) 참고 - 점프 투 파이썬 - ngram n-gram 은 n개의 단어로 이루어진 언어를 구분하기 위한 언어모델이다 . 언어의 갯수마다 명칭이 다르며, 각 명칭은 아래와 같다 . unigrams : 1개 bigrams : 2개 trigrams : 3개 4-grams : 4개 언어분리는 오직 n-1 개의 단어에만 적용된다. 만약 4-gram 을 사용하여 언어 예측을 한다고 했을 경우 4-1 인 3개의 단어만을 가지고 예측을 하게 된다. 💡 나는 행복한 하루를 보냈어. 너는 어떤 하루를 보냈니? 위 문자 다음에 올 내용을 4-gram 으로 예측한다고 했을 경우. 앞의 단어들은 무시하고, 예측할 부분 바로 이전의 3단어인 어떤..
모델이 학습하는 방법은 몇가지가 있다. 지도학습 비지도 학습 준지도 학습 강화 학습 - 지도 학습 ~ 특징이 있으면 A야 ! 라고 답을 알려주고 학습하는 방법이다. 이때, 답을 적어주는 것을 레이블링이라고 한다. 지도학습의 예로는 k-최근접 이웃 선형회귀 로지스틱스 회귀 서포트 벡터머신 결정트리 신경명 등이 있음 - 비지도 학습 데이터 안에서 스스로 답을 찾아 학습하는 방법이다. 군집에 따라 묶어 답을 찾는다. 비지도 학습의 예로는 k-평균 (오른쪽 그림) 병합군집 : 계층군집 분석 (왼쪽 그림) DBSCAN 등이 있다. - 준지도 학습 지도학습 + 비지도 학습으로, 일부 데이터에만 레이블링을 하는 방법이다. 대표적인 예로 심층 신뢰 신경망 이 있다. - 강화 학습 실행에 따라 상점이나 벌점을 받는 방식..
머신러닝을 하는데 있어 필요한 과정이 머신러닝 프로세스이다. 위의 그림은 머신러닝 프로세스로, 가장 기초 부분인 데이터 수집부터 최종 머신러닝 모델의 판단 결과까지 쭉 나열한 그림이다. 아래에서 각 과정을 설명했다. - 데이터 수집 머신러닝에 있어서 가장 중요한 단계이다. 머신러닝 모델을 만드는데 있어 필요한 데이터를 모으는 데이터 수집 부터 시작되기 때문이다. 데이터 베이스에서 수집하거나, 웹 크롤링 등을 통해 데이터를 수집한다. - 특징 공학 이전 과정에서 수집한 데이터를 컴퓨터가 이해할 수 있게 변환하고, 의미있는 부분(특징)을 뽑아내는 단계이다. 이 때의 특징을 attribute 라고 한다 데이터 전처리, 특징추출, 특징 선택의 과정이 이 단계에 포함되어있다. * 데이터 전처리 이전 과정에서 수집..
이 글은 머신러닝 프로세스의 모델링 부분인 DataSet을 다룬다. 때문에 속까지 상세히는 다루지 않고 가볍게 다룰 예정이다. DataSet이란? DataSet이란 방대하게 수집된 데이터로, 머신러닝 프로세스의 모델링과정에서 인공지능을 훈련시킬때 사용된다. 인공지능을 훈련시킬때 사용되는 데이터의 종류에도 여러가지가 있다. 다음과 같다. Trainning Data(훈련 데이터) Validation Data (검증 데이터) Test Data (테스트 데이터) Trainning Data(훈련 데이터) 머신러닝 모델을 만들 때 사용되는 데이터이다. Validation Data (검증 데이터) 훈련 데이터에서 분할된 데이터로, Learning rate 또는 regularization, parameter 등을 튜닝..