2021. 9. 5. 04:17ㆍai/Machine Learning
X - 입력값 강아지사진
(feature - / 피쳐 / 독립변수 예측하기 위해 사용되는 입력)
T - 사실값, label (레이블,라벨) 사진에 대한 설명
(target - 목표변수, 종속변수 / 예측목표가 되는 변수)
model : data와 해답을 밀어넣어 패턴을 파악해 규칙성을 찾아낸다
learning(학습) : 새로운 data와 해답을 넣을때마다 기존 model과 비교해서 갱신
prediction(예측)
Nevral Network : 신경망이라는 뜻이며 방대한 구조와 알고리즘이 있는데 이를 통칭해서 Deep Learning
정형적인 DATA : DB, CSV, EXCEL (Machine Learning에 적합)
비정형 DATA : 이미지, 소리, 대용량 text(Deep Learning에 적합)
Machine Learning을 학습방법[data의 규칙성을 뽑아내는 방법] 에 따라 4가지로 분류
★ 지도학습 (Supervised Learngin) [Supervised : 관리자]
- 비지도 학습 (Un Supervised Learngin) ('label'이 존재하지 않아요 [그림만 들어간다]
그후 분류하는 cluster(군집 = 무리를이루다) 한다
- 준지도 학습 (semi supervised Learning) [지도 + 비지도 학습]
- 강화학습 (Reinforcement Learning) [응용이 많지 않으나 최근 금융쪽에서 각광]
지도학습(supervised learning)은 모델 완성 후 어떤 종류의 예측하느냐에 따라
Regression(회기) [돌아간다,회기한다]
- 종속변수(target : 예측값)이 continous(연속적인 숫자 : 시간, 주가, 시험성적등.. ) 한 value일때
= 얼마나 라는 값을 예측
classification(분류)
- 종속변수(target :예측값)이 discrete [(같은 종류의 다른 것들과) 별개의 (=separate)] 한 value일때
- 이상값 : true 냐 false냐 , 0이냐 1이냐, 합격이냐 불합격이냐 = '어떤것'을 예측
- 둘 중 하나를 선택 하는 이항분류(binary classification)
- 여러개중 하나를 선택하는 다항분류(multinominal classification)
numerical - 수의, 수와 관련된, 숫자로 나타낸
미분 (derivative) -미분 과정 도 미분이라 한다 (differenrication) 편미분(partial derivative)
constant : 절편 , slope : 기울기
linear : 선
Regression(회기) [ 돌아가다 ] - 어떤 data에 대해 그 data(아파트가격)에 영향을 주는 조건(지역,층수,학군..)들의 평균적인 영향력을 이용해서 데이터에 대한 조건부평균을 구하는 방법
-Classical Linear Regression Model - 고전적 선형회기 모델
-Simple Lineal Regression(단순선형회기) → y = ax (기울기) + b(절편 : y축과 만나는 점)를 찾아가는 과정
(독립변수1개)라 선으로 표현
scatter(산점도) : 우리가 가진 data의 분포확인을 위해 점을 찍어
machine Learning에서는 직선을 표현할때 y = wx + b ( w(weight) : 가중치 ) ( b (bias) )
w, b 어떤 직선이 더 적합한지 찾기 위해 error(오차) 를 이용 : t - y (Wx + b) == 실제값(t) - 계산된값(y)
즉 Error의 합이 최소가 되는 W 와 B를 찾아야한다 이를 위해 loss funtion(손실함수) = cost function(비용함수)를 이용 / loss function은 E 라고 표현한다
그런데 error에 부호(+,-)가 있어요 → 부호를 날리고 절대값을 이용하려고
평균제곱오차 (MSE : Mean Squared Error) 이용
E(w,b)를 최소로 만드는 w,b를 구하기 위해 Gradient Desert Algorithm(경사하강법:산에서 경사가 제일 급한 곳)을 이용
하지만 이 과정에서 조금씩 이동해야 하므로 learning rate 이용
update(epoch ['이포크'] 라고도한다)
정리 (독립변수 1개인 단변수)
1. Training data set 준비
2. hypothests(가설) : 완성되지 않고 앞으로 만들어 가는 놈, 앞으로 만들 모델
model을 정의 : y = Wx + b(1차원) => X ` W + b
3. loss 함수정의 - (w와 b를 랜덤으로?)
4. learning rate(상수값)설정
5. Gradient Descent algorithm을 이용한 반복학습
6.
해서 w 와 b값 update(epoch ['이포크'] 라고도한다)
7. 최솟값이 종료될때까지 반복
'ai > Machine Learning' 카테고리의 다른 글
Cancer 코드 Tensorflow ver (0) | 2021.09.06 |
---|---|
2차 정리 (0) | 2021.09.05 |
Cancer 코드 sklearn ver(k-fold) (0) | 2021.09.04 |
data 전처리 / 생각해야 할 문제들 (0) | 2021.09.04 |
분류 성능 평가 지표(Metric) (0) | 2021.09.03 |