Today I Learned (2024-08-27)목차Today I Learned (2024-08-27)오늘 공부한 내용1. KDT (ML)회귀 모델 평가 지표분류 모델 평가 지표추천 시스템 모델의 평가 지표과적합이 일어나는 이유과적합 감지과적합 방지과소적합불균형 데이터 처리 imbalanced-learn어려웠던 내용궁금한 내용과 부족한 내용느낀 점오늘 공부한 내용1. KDT (ML)회귀 모델 평가 지표MAE(Mean Absolute Error)모델의 예측값과 실제값의 차이의 절대값의 평균절대값을 취하기 때문에 가장 직관적으로 알 수 있는 지표이다.오차가 커졌을 때 상대적으로 중요하지 않게 나타날 수 있다. MSE(Mean Squared Error)오차카 커질수록 가중치가 커진다.오차가 큰 값일 경우 더..
Today I Learned (2024-08-26)목차Today I Learned (2024-08-26)오늘 공부한 내용1. KDT (ML)머신러닝 모델 만들기2. 머신러닝 입문타이타닉 데이터 EDA어려웠던 내용궁금한 내용과 부족한 내용느낀 점오늘 공부한 내용1. KDT (ML)머신러닝 모델 만들기Random Forest Regression 사용만료 일자 예측하기2. 머신러닝 입문타이타닉 데이터 EDAEDAhead(), tail(), 각 feature 의미 확인다섯 수치 요약(5 number summary) 확인최소값(minium), 제1사분위수, 제2사분위수, 제3사분위수, 최대값(maximum) 확인하기데이터프레임.describe()EDA 에서는 사분위수를 사용Q1:제1사분위수 (25%에 해당하는 값..
Today I Learned (2024-08-22)목차Today I Learned (2024-08-22)오늘 공부한 내용1. KDT (ML)머신러닝 과제 하기2. 인프런(공공데이터 분석)마무리하기어려웠던 내용궁금한 내용과 부족한 내용느낀 점오늘 공부한 내용1. KDT (ML)머신러닝 과제 하기회원 만료및탈퇴 데이터를 이용하기Random Forest Regression 모델 사용과집합 데이터였다.시간이 부족하였다.2. 인프런(공공데이터 분석)마무리하기시도별 공원 비율구하기scatterplot 으로 전국 도시공원 시각화시도별 도시공원 빈도수 구하기pairplot 으로 서브플롯 그리기지도 표현(folium)어려웠던 내용머신러닝 실습 과제가 어려웠다.이유는 방향?을 못잡겠다.궁금한 내용과 부족한 내용머신러닝 잘..
Today I Learned (2024-08-21)목차Today I Learned (2024-08-21)오늘 공부한 내용1. KDT(ML)경사하강법의 종류다항 회귀로지스틱 회귀소프트 맥스 회귀차원의 저주차원축소비지도학습(Unsupervised Learning)군집화 (Clustering)2. CalculusLimits(극한)어려웠던 내용궁금한 내용과 부족한 내용느낀 점오늘 공부한 내용1. KDT(ML)경사하강법의 종류배치 경사하강법배치크기(Batch size)가 전체 학습데이터셋 크기와 같은, 즉 스텝이 1번 발생하는 경사하강법특징학습데이터 셋이 크면 많은 시간과 메모리 필요하다는 단점 존재 확률적 경사하강법(SGD)한번의 스텝에 하나의 데이터에 대한 예측값을 실행한 후에 그 결과를 이용해서 그래디언트를..
Today I Learned (2024-07-12)목차Today I Learned (2024-07-12)오늘 공부한 내용1. KDT(Machine Learning)Classification(분류)t-value(유의수준)결정 트리(Decision Tree)KNN(K-Nearest Neighbor) 알고리즘유클리드 거리(Euclidean Distance)앙상블 학습(모델)회귀(Regression)경사하강법(Gradient Descent)어려웠던 내용궁금한 내용과 부족한 내용느낀 점오늘 공부한 내용1. KDT(Machine Learning)Classification(분류)분류는 학습데이터로 주어진 데이터의 피쳐와 레이블값을 머신러닝 알고리즘으로 학습해 모델을 생성하고, 이렇게 생성된 모델에 새로운 데이터 값이..
Today I Learned (2024-08-16)목차Today I Learned (2024-08-16)오늘 공부한 내용1. 인프런(공공데이터 분석하기)정규식으로 마스킹 처리하기crosstab 으로 범주형 데이터 연산2. 분석 용어 공부어려웠던 내용궁금한 내용과 부족한 내용느낀 점오늘 공부한 내용1. 인프런(공공데이터 분석하기)정규식으로 마스킹 처리하기자동차, 이메일을 정규식을 이용해서 마스킹 처리crosstab 으로 범주형 데이터 연산범주형 데이터를 연산하기 위해 pandas 의 crosstab 함수를 이용함2. 분석 용어 공부범주란?범주형 데이터와 연속형 데이터의 차이어려웠던 내용딱히 없었던 것 같다.궁금한 내용과 부족한 내용pandas pivot-table 과 crosstab 의 차이느낀 점갈 길이..
Today I Learned (2024-08-17)목차Today I Learned (2024-08-17)오늘 공부한 내용1. 인프런(공공데이터 활용하기)정규표현식 - 전화번호 일부 마스킹 처리2. 데이터 과학을 위한 통계(도서)Chapter 01. 탐색적 분석어려웠던 내용궁금한 내용과 부족한 내용느낀 점오늘 공부한 내용1. 인프런(공공데이터 활용하기)정규표현식 - 전화번호 일부 마스킹 처리정규표현식을 이용해 전화번호 일부를 마스킹 처리한다.02-1-67010-**-89+82-10-**-78함수 만들기def mask_phone_number(phone): # 결측치가 있다면 그대로 반환 if pd.isna(phone): return phone # 번호를 - 기준으로 자른다. num = pho..
Today I Learned (2024-08-16)목차Today I Learned (2024-08-16)오늘 공부한 내용1. 인프런(공공데이터분석하기)정규 표현식으로 데이터 전처리 하기어려웠던 내용궁금한 내용과 부족한 내용느낀 점오늘 공부한 내용1. 인프런(공공데이터분석하기)정규 표현식으로 데이터 전처리 하기정규 표현식 라이브러리파이썬 내장 라이브러리이다.import redef get_string(text): if pd.isna(text): return text text = re.sub("[\d\.'\-(nan)\[\]\/]","",text) text = re.sub(" ","",text) text = re.sub(",{2,}","",text) text = re.sub("\+",",",..