분류 전체보기(123)
-
Machine Learning 기본
AI(인공지능) : 사람의 사고능력을 구현한 시스템 OR 프로그램 - strong AI : 사람과 구분할 수 없을정도로 강력한 AI(영화에나 잇을법한..) AI연산속도 = 사람의 연산속도 100만배 / 때문에 반대도 한다.. - weak AI ; 특정한 영역에서 작업을 수행하는 ai (자율주행, 챗봇 등..) - marchine learning은 ai를 만드는 방법중 하나 기존 programming : explicit programming(명시적 프로그래밍) , Rule based programming marchine learning : - 사진안에 동물이 고양이 인가요? Rule based programming은 data를 만들어진 함수에 넣으면 처리해서 해답을 얻는다 명령 하지 않으면 1번만 수행한다..
2021.08.25 -
pandas Grouping
# 1단계 Gropuing Gropuing - 끼리끼리 묵는 것 , 그룹화 하는 것 import numpy as np import pandas as pd df = pd.DataFrame({'학과' : ['컴퓨터', '철학', '컴퓨터', '철학', '컴퓨터'], '이름' : ['아이유', '김연아', '홍길동', '강감찬', '신사임당'], '학년' : [1, 2, 3, 2, 3], '학점' : [1.5, 2.7, 3.5, 1.9, 4.0]}) display(df) # dept = df['학점'].groupby(df['학과']) # 학점을 학과기준으로 묶는다 [학점을 알고싶은 상황] # display(dept) # computer = dept.get_group('컴퓨터') # 학점을 학과기준으로 묶은거 ..
2021.08.23 -
pandas concat(연결), 결측치, 이상치, 중복행
# 이번에는 merge말고 연결(concat)에 대해서 알아보아요! merge는 연관성이 있는것끼리 연결, concat는 단순연결 concat(연결) # Series를 연결해 보아요! import numpy as np import pandas as pd s1 = pd.Series([0,1], index=['a','c']) s2 = pd.Series([4,3,2], index=['b','c','e']) s3 = pd.Series([5,6], index=['f','g']) print(s1) print(s2) print(s3) # s4 = pd.concat([s1,s2,s3], axis=0) # print(s4) result = pd.concat([s1,s2,s3], axis=1,sort=True) sort는..
2021.08.23 -
pandas merge (feat. join)
# DataFrame의 merge(결합, 합병하다) # Database의 table의 join과 같은 개념. import numpy as np import pandas as pd data1 = {'학번': [1, 2, 3, 4], '이름': ['아이유','김연아','홍길동','강감찬'], '학과': ['철학', '경영', '컴퓨터', '물리']} data2 = {'학번': [1, 2, 4, 5], '학년': [2, 4, 3, 1], '학점': [1.5, 2.0, 4.1, 3.8]} df1 = pd.DataFrame(data1) df2 = pd.DataFrame(data2) display(df1) display(df2) # merge ( inner join ) - 연결점이 있는것만 연결해서 만든다 df3 ..
2021.08.23 -
pandas 공분산, 정렬
약간 수학적인 함수 import numpy as np arr = np.array([4,6,1,3,8,8]) print(arr.sum()) # 합 print(arr.mean()) # 평균 5 # 편차( deviation ) : 확률변수 X와 평균의 차이 # -1 1 -4 -2 3 3 # 편차의 합은 => 0 # 편차의 제곱의 평균을 이용 => variance(분산) # 1 1 16 4 9 9 tmp = np.array([1,1,16,4,9,9]) print(tmp.mean()) # 6.666666666666667 print(arr.var()) # 6.666666666666667 분산 # 표준편차(standard deviation) : 분산의 제곱근(루트 - 분산을 구하는과정에서 제곱을했기 때문에) prin..
2021.08.21 -
pandas 인덱스 와 컬럼(index & colum)
# NaN # NaN : Not a Number ( 일반적인 NaN의 의미 ) => 숫자로 간주 => 숫자 연산이 가능 -> 10 + NaN = NaN (0) # Pandas에서는 NaN을 조금 다른의미로 사용해요! => missing value(결치값 : 값이없다 )를 의미하는 값. # NULL : 값이 없어요! (일반적인 프로그래밍에서 사용하는 값) / 가르키는 object가 없다 None -missing value 와 nan의 차이 missing value - 데이터를 뽑는도중 어느순간 망가져 값이 안나옴 / 원래 잇어야 되는데 없다 NULL - 임의로 값이 없음을 표현 (python은 None) # DataFrame의 index와 column명을 제어해보아요!! import numpy as np ..
2021.08.20