ai(42)
-
결측치처리
https://workingwithpython.com/howtohandlemissingvaluewithpython/
2021.09.06 -
Cancer 코드 Tensorflow ver
# 이번에는 위스콘신 유방암 데이터를 이용해서 Logistic Regression을 Tensorflow를 # 이용해서 구현해 보아요! import numpy as np from sklearn.datasets import load_breast_cancer # 데이터셋 로딩하기 위한 함수 from sklearn.model_selection import train_test_split # train, validation data를 분리하기 위해서 사용 import tensorflow as tf # Raw data loading cancer = load_breast_cancer() x_data = cancer.data t_data = cancer.target # Training Data와 Validation Da..
2021.09.06 -
2차 정리
data preprocessing - 데이터 전처리 1.결측치 : nan 2.이상치(outlier) : data의 일반적인 값보다 상대적으로 큰 data (평균에 영향을 많이 끼침) - 독립변수 이상치 : 지대점, 지대값 / 종속변수 이상치 : outlier - 사분위를 이용한 "Turkey Fence" IQR ( Inter quartile range ) : 1사분위와 3사분위 사이를 지칭 IQR value : 3사분위값 - 1사분위값 matplotlib같은 visualieation modul (시각화 모듈) 은 Boxplat기능을 제공 -if "1사분위값(25%) - (IQR value * 1.5)" 이 값보다 더 작은 값은 "이상치" -if "3사분위값(75%) + (IQR value * 1.5)" ..
2021.09.05 -
1차 정리
X - 입력값 강아지사진 (feature - / 피쳐 / 독립변수 예측하기 위해 사용되는 입력) T - 사실값, label (레이블,라벨) 사진에 대한 설명 (target - 목표변수, 종속변수 / 예측목표가 되는 변수) model : data와 해답을 밀어넣어 패턴을 파악해 규칙성을 찾아낸다 learning(학습) : 새로운 data와 해답을 넣을때마다 기존 model과 비교해서 갱신 prediction(예측) Nevral Network : 신경망이라는 뜻이며 방대한 구조와 알고리즘이 있는데 이를 통칭해서 Deep Learning 정형적인 DATA : DB, CSV, EXCEL (Machine Learning에 적합) 비정형 DATA : 이미지, 소리, 대용량 text(Deep Learning에 적합)..
2021.09.05 -
Cancer 코드 sklearn ver(k-fold)
# 위스콘신 유방암 데이터셋을 이용한 Logistic Regression 구현 # SKlearn에서 학습용으로 사용할수 있는 유명한 data들이 있는데 그중 Cancer data를 불러올거다 # 유방암 데이터에는 유방암 세포의 특징들이 들어있어요! # 세포의 평균크기, 평균오차, 최대이상치, 등등등 30 feature의 데이터가 있어요! from sklearn.datasets import load_breast_cancer #Cancer Data Set을 불러오기 위한 함수 import numpy as np from sklearn.model_selection import train_test_split # bias(편향)문제 없이 trainning data와 validation data를 분리, from s..
2021.09.04 -
data 전처리 / 생각해야 할 문제들
1. Loss Function Overshooting : Learning rate의 값이 필요이상으로 크게 설정 즉 W의 값이 너무 크게 변하는걸 지칭 원래 w이 갱신이 되려면 w - w편미분 * learning rate 를 update 여기서 a를 너무 크게 주면 찾아야 할 값을 찾을수가 없다 local minima : Learning rate의 값이 필요이상으로 작게 설정 위와 반대로 a를 너무 작게 설정하면 많이 반복하여도 찾아야 할 값에 도달하지 못한다 2. Normalization(정규화) MinMax Normalization : (최대, 최소로 이용) 쉽고 간편하게 사용할 수 있어요. [ SKlearn 이용 ] 장점 : 0 ~ 1 사이로 고정: 단점 : 이상치에 상당히 민감한 방식 Standa..
2021.09.04