전체 글(123)
-
data 전처리 / 생각해야 할 문제들
1. Loss Function Overshooting : Learning rate의 값이 필요이상으로 크게 설정 즉 W의 값이 너무 크게 변하는걸 지칭 원래 w이 갱신이 되려면 w - w편미분 * learning rate 를 update 여기서 a를 너무 크게 주면 찾아야 할 값을 찾을수가 없다 local minima : Learning rate의 값이 필요이상으로 작게 설정 위와 반대로 a를 너무 작게 설정하면 많이 반복하여도 찾아야 할 값에 도달하지 못한다 2. Normalization(정규화) MinMax Normalization : (최대, 최소로 이용) 쉽고 간편하게 사용할 수 있어요. [ SKlearn 이용 ] 장점 : 0 ~ 1 사이로 고정: 단점 : 이상치에 상당히 민감한 방식 Standa..
2021.09.04 -
분류 성능 평가 지표(Metric)
분류 성능 평가 지표(Metric) : 우리가 만든 logistic Regression이 잘 만들어진 model인지를 평가하는 지표 우리의 Model이 예측한 결과와 실제정답(Lable)의 차이를 이용해서 모델의 정확도를 계산 - confusion[혼란스러운] Matrix True는 내가 맞췄다 False는 내가 틀렸다positive는 내 model의 예측값이 TrueNegative는 내 model의 예측값이 False - 평가지표의 종류가 몇가지가 있으나 대표적인 알아보자 아래의 식은 갯수를 이야기한다 Precsion (정밀도) = TP / TP + FP -Positive 정답율 / True라고 분류한 것 중에 정말로 True인 것들의 비율 Recall(재현율) = hit rate(일반) = sensi..
2021.09.03 -
Logistic[논리] Regression 코드
# Linear Regression으로 Classification문제를 해결할 수 있나요?? # 데이터에 따른 왜곡문제때문에 해결하기 힘들어요! import numpy as np from sklearn import linear_model import matplotlib.pyplot as plt # Training Data Set x_data = np.array([1,2,5,8,10]).reshape(-1,1) t_data = np.array([0,0,0,1,1]).reshape(-1,1) # sklearn을 이용해서 Linear Regression Model을 생성 model = linear_model.LinearRegression() # model이 생성되면 학습을 시켜요! model.fit(x_dat..
2021.09.03 -
Logistic[논리] Regression
machine Learning model이 어떤값을 예측하는가? -Regression(회기) → continuous[계속되는] value x(시간) - 1 3 5 8 , t(점수) - 5 15 70 100 -classification(분류) → discrete[별개의] value Linear Regression(선형회기)을 확장해서 classification model을 만들어 볼꺼에요!! x(시간) - 1 3 5 8 , t(점수) - F F F T == Logistic[논리] Regression 초창기 인공지능(1960년대) 알고리즘'Perceptron[퍼셉트론]'을 발전시킨 개념 이는 뇌공학에서 따왔으며 이를 알고리즘으로 바꿨다/ 가치가있음 통과 아님 불통과 W1X1 W2X2 W3X3를 다 더한다 →..
2021.09.02 -
Tensorflow 1.대버전
Tensorflow -구글에서 만들었다 경쟁사로 페이스북 파이토치가 있다 -파이썬과 sklearn으로만 하기에는 기능이 빈약하고, 어려운면이 있다 - 1.대버전과 2.대버전이 있다 / 두 버전은 호환성이 없다 (외적으로는 많이 안변했으나 내부적으로는 많이 변함) -도화지에 그래프를 그린다고 생각하면 된다 Tensorflow정의 -open surce software libray이다 -for Numerical computation (수치연산을 위해) -using dataflow graphs (Node, Edge로 구성된 방향성 있는 graph) Node : Numerical computation(수치연산, data입출력 담당) Edge : Node와 Node 사이에 data의 흐르는길 tensor :(동적크..
2021.09.02 -
Nomalization(정규화),Multiple Linear Regression (다중선형회기)
Nomalization (정규화) 데이터가 가진 scale(규모, 등급)이 심하게 차이가 나는 경우 학습이 잘 안 이루어지지 않아요 scale [즉 중요도]을 맞춰주는 작업이 필요 → Nomalization ex) 집의가격 (똑같은 숫자라도 중요도가 다르다) - 방의개수 : 1 ~ 20 ~ 연식(월) : 1 ~ 240 (20년) 정규화 방식이 많지만 그중 두개 # z - score Normalization (standardizaion 표준화 라고도 불린다) # Min - Max Normalization (가장 일반화된 방식) -모든 feature에 대해 최소값 0 최대값 1 사이의 값으로 scaling -편하고 간편하지만 이상치에 상당히 민감하므로 무조건 이상치 처리해야한다 Xscaled = X - X(..
2021.09.01