1차 정리

2021. 9. 5. 04:17ai/Machine Learning

728x90

X - 입력값                            강아지사진
(feature -  / 피쳐 /   독립변수 예측하기 위해 사용되는 입력)
T - 사실값,  label (레이블,라벨)               사진에 대한 설명
(target - 목표변수, 종속변수 / 예측목표가 되는 변수)

model             :   data와 해답을 밀어넣어 패턴을 파악해 규칙성을 찾아낸다
learning(학습)    :   새로운 data와 해답을 넣을때마다 기존 model과 비교해서 갱신
prediction(예측)
Nevral Network    : 신경망이라는 뜻이며 방대한 구조와 알고리즘이 있는데 이를 통칭해서 Deep Learning
정형적인 DATA     : DB, CSV, EXCEL           (Machine Learning에 적합)
비정형 DATA       : 이미지, 소리, 대용량 text(Deep Learning에 적합)

Machine Learning을 학습방법[data의 규칙성을 뽑아내는 방법] 에 따라 4가지로 분류
★ 지도학습     (Supervised Learngin)         [Supervised : 관리자]
- 비지도 학습  (Un Supervised Learngin)     ('label'이 존재하지 않아요 [그림만 들어간다] 
                                            그후 분류하는 cluster(군집 = 무리를이루다) 한다
- 준지도 학습  (semi supervised Learning)   [지도 + 비지도 학습]
- 강화학습     (Reinforcement Learning)     [응용이 많지 않으나 최근 금융쪽에서 각광]

지도학습(supervised learning)은 모델 완성 후 어떤 종류의 예측하느냐에 따라

Regression(회기) [돌아간다,회기한다]
- 종속변수(target : 예측값)이 continous(연속적인 숫자 : 시간, 주가, 시험성적등.. ) 한 value일때 
 = 얼마나 라는 값을 예측

classification(분류) 
- 종속변수(target :예측값)이 discrete [(같은 종류의 다른 것들과) 별개의 (=separate)] 한 value일때
- 이상값 : true 냐 false냐 ,       0이냐 1이냐,     합격이냐 불합격이냐    = '어떤것'을 예측
- 둘 중 하나를 선택 하는 이항분류(binary classification)
- 여러개중 하나를 선택하는 다항분류(multinominal classification) 

numerical - 수의, 수와 관련된, 숫자로 나타낸
미분 (derivative)     -미분 과정 도 미분이라 한다 (differenrication)     편미분(partial derivative) 

constant : 절편      ,     slope : 기울기

 

linear  :   선
Regression(회기) [ 돌아가다 ] - 어떤 data에 대해 그 data(아파트가격)에 영향을 주는 조건(지역,층수,학군..)들의 평균적인 영향력을 이용해서 데이터에 대한 조건부평균을 구하는 방법
-Classical Linear Regression Model - 고전적 선형회기 모델

-Simple Lineal Regression(단순선형회기) → y = ax (기울기) + b(절편 : y축과 만나는 점)를 찾아가는 과정
(독립변수1개)라 선으로 표현 
scatter(산점도) : 우리가 가진 data의 분포확인을 위해 점을 찍어
machine Learning에서는 직선을 표현할때 y = wx + b    ( w(weight) : 가중치 ) ( b (bias) )


w, b 어떤 직선이 더 적합한지 찾기 위해 error(오차) 를 이용 : t - y (Wx + b) == 실제값(t) - 계산된값(y)
즉 Error의 합이 최소가 되는 W 와  B를 찾아야한다 이를 위해 loss funtion(손실함수) = cost function(비용함수)를 이용 / loss function은 E 라고 표현한다
그런데 error에 부호(+,-)가 있어요 → 부호를 날리고 절대값을 이용하려고 

평균제곱오차 (MSE : Mean Squared Error) 이용

E(w,b)를 최소로 만드는 w,b를 구하기 위해 Gradient Desert Algorithm(경사하강법:산에서 경사가 제일 급한 곳)을 이용

하지만 이 과정에서 조금씩 이동해야 하므로 learning rate 이용
update(epoch ['이포크'] 라고도한다)

 

정리 (독립변수 1개인 단변수)

1. Training data set 준비

2. hypothests(가설) : 완성되지 않고 앞으로 만들어 가는 놈, 앞으로 만들 모델

model을 정의 : y = Wx + b(1차원) => X ` W + b 

3. loss 함수정의 -   (w와 b를 랜덤으로?)

4. learning rate(상수값)설정

5. Gradient Descent algorithm을 이용한 반복학습

6.

해서 w 와 b값 update(epoch ['이포크'] 라고도한다)

7. 최솟값이 종료될때까지 반복

'ai > Machine Learning' 카테고리의 다른 글

Cancer 코드 Tensorflow ver  (0) 2021.09.06
2차 정리  (0) 2021.09.05
Cancer 코드 sklearn ver(k-fold)  (0) 2021.09.04
data 전처리 / 생각해야 할 문제들  (0) 2021.09.04
분류 성능 평가 지표(Metric)  (0) 2021.09.03