ai/Machine Learning(26)
-
Cancer 코드 sklearn ver(k-fold)
# 위스콘신 유방암 데이터셋을 이용한 Logistic Regression 구현 # SKlearn에서 학습용으로 사용할수 있는 유명한 data들이 있는데 그중 Cancer data를 불러올거다 # 유방암 데이터에는 유방암 세포의 특징들이 들어있어요! # 세포의 평균크기, 평균오차, 최대이상치, 등등등 30 feature의 데이터가 있어요! from sklearn.datasets import load_breast_cancer #Cancer Data Set을 불러오기 위한 함수 import numpy as np from sklearn.model_selection import train_test_split # bias(편향)문제 없이 trainning data와 validation data를 분리, from s..
2021.09.04 -
data 전처리 / 생각해야 할 문제들
1. Loss Function Overshooting : Learning rate의 값이 필요이상으로 크게 설정 즉 W의 값이 너무 크게 변하는걸 지칭 원래 w이 갱신이 되려면 w - w편미분 * learning rate 를 update 여기서 a를 너무 크게 주면 찾아야 할 값을 찾을수가 없다 local minima : Learning rate의 값이 필요이상으로 작게 설정 위와 반대로 a를 너무 작게 설정하면 많이 반복하여도 찾아야 할 값에 도달하지 못한다 2. Normalization(정규화) MinMax Normalization : (최대, 최소로 이용) 쉽고 간편하게 사용할 수 있어요. [ SKlearn 이용 ] 장점 : 0 ~ 1 사이로 고정: 단점 : 이상치에 상당히 민감한 방식 Standa..
2021.09.04 -
분류 성능 평가 지표(Metric)
분류 성능 평가 지표(Metric) : 우리가 만든 logistic Regression이 잘 만들어진 model인지를 평가하는 지표 우리의 Model이 예측한 결과와 실제정답(Lable)의 차이를 이용해서 모델의 정확도를 계산 - confusion[혼란스러운] Matrix True는 내가 맞췄다 False는 내가 틀렸다positive는 내 model의 예측값이 TrueNegative는 내 model의 예측값이 False - 평가지표의 종류가 몇가지가 있으나 대표적인 알아보자 아래의 식은 갯수를 이야기한다 Precsion (정밀도) = TP / TP + FP -Positive 정답율 / True라고 분류한 것 중에 정말로 True인 것들의 비율 Recall(재현율) = hit rate(일반) = sensi..
2021.09.03 -
Logistic[논리] Regression 코드
# Linear Regression으로 Classification문제를 해결할 수 있나요?? # 데이터에 따른 왜곡문제때문에 해결하기 힘들어요! import numpy as np from sklearn import linear_model import matplotlib.pyplot as plt # Training Data Set x_data = np.array([1,2,5,8,10]).reshape(-1,1) t_data = np.array([0,0,0,1,1]).reshape(-1,1) # sklearn을 이용해서 Linear Regression Model을 생성 model = linear_model.LinearRegression() # model이 생성되면 학습을 시켜요! model.fit(x_dat..
2021.09.03 -
Logistic[논리] Regression
machine Learning model이 어떤값을 예측하는가? -Regression(회기) → continuous[계속되는] value x(시간) - 1 3 5 8 , t(점수) - 5 15 70 100 -classification(분류) → discrete[별개의] value Linear Regression(선형회기)을 확장해서 classification model을 만들어 볼꺼에요!! x(시간) - 1 3 5 8 , t(점수) - F F F T == Logistic[논리] Regression 초창기 인공지능(1960년대) 알고리즘'Perceptron[퍼셉트론]'을 발전시킨 개념 이는 뇌공학에서 따왔으며 이를 알고리즘으로 바꿨다/ 가치가있음 통과 아님 불통과 W1X1 W2X2 W3X3를 다 더한다 →..
2021.09.02 -
Tensorflow 1.대버전
Tensorflow -구글에서 만들었다 경쟁사로 페이스북 파이토치가 있다 -파이썬과 sklearn으로만 하기에는 기능이 빈약하고, 어려운면이 있다 - 1.대버전과 2.대버전이 있다 / 두 버전은 호환성이 없다 (외적으로는 많이 안변했으나 내부적으로는 많이 변함) -도화지에 그래프를 그린다고 생각하면 된다 Tensorflow정의 -open surce software libray이다 -for Numerical computation (수치연산을 위해) -using dataflow graphs (Node, Edge로 구성된 방향성 있는 graph) Node : Numerical computation(수치연산, data입출력 담당) Edge : Node와 Node 사이에 data의 흐르는길 tensor :(동적크..
2021.09.02