Today I Learned (2024-09-01)목차Today I Learned (2024-09-01)오늘 공부한 내용1. 머신러닝K-Nearest Neighbor(KNN)Logistic Regression(로지스틱 회귀)SVM(Support Vector Machine) / SVCDecision Tree(의사결정나무)Ensemble(앙상블)편향(Bias) 와 분산(Variance)Ensemble과 Bagging, BoostingBagging : Random ForestBagging : Extra Tree2. 메타코드(Pandas와 Bigquery를 활용한 데이터 분석)Pandas어려웠던 내용궁금한 내용과 부족한 내용느낀 점오늘 공부한 내용1. 머신러닝K-Nearest Neighbor(KNN)기본적인 머..
Today I Learned (2024-08-31)목차Today I Learned (2024-08-31)오늘 공부한 내용1. 머신러닝타이타닉 데이터 피처엔지니어링원핫 인코딩레이블 인코딩어려웠던 내용궁금한 내용과 부족한 내용느낀 점오늘 공부한 내용1. 머신러닝타이타닉 데이터 피처엔지니어링머신러닝 전 피처엔지니어링새로운 피처 만들기pickle 로 데이터 저장원핫 인코딩각 문자열 범주마다 새로운 feature 를 만들고, 해당 범주에 해당하는 경우에만 1 값을 부여해주는 방식레이블 인코딩레이블 인코딩 : 문자열을 범주형 숫자값으로 변환어려웠던 내용없었다.궁금한 내용과 부족한 내용도메인지식?느낀 점내가 데이터 작업을 하려는 도메인에 대한 지식을 잘 가지고 있어야 전처리나 eda에 할 때 좋겠다.벌써 8월이 끝났..
Today I Learned (2024-08-30)목차Today I Learned (2024-08-30)오늘 공부한 내용1. KDT (ML)광고 데이터 분석하기2. 머신러닝타이타닉 데이터 피처엔지니어링어려웠던 내용궁금한 내용과 부족한 내용느낀 점오늘 공부한 내용1. KDT (ML)광고 데이터 분석하기SNS 광고 데이터 분석 후 다양한 머신러닝 모델 생성Random Forest ClassifierDecision TreeKNN2. 머신러닝타이타닉 데이터 피처엔지니어링머신러닝 적용을 위한 피처 엔지니어링어려웠던 내용머신러닝 모델 선정 후 모델평가궁금한 내용과 부족한 내용머신러닝 평가방법느낀 점아직 어떻게 평가를 하면 좋을지 잘 모르겠다.GPT의 도움을 많이 받는데 적당히 받아야지.. -->
Today I Learned (2024-08-29)목차Today I Learned (2024-08-29)오늘 공부한 내용1. KDT (ML) - 머신러닝 복습머신러닝 용어머신러닝의 분류역할에 따른 분류머신러닝의 장단점머신러닝을 배울 때 필요한 지식머신러닝 라이브러리데이터 전처리데이터 편향모델 평가 지표의사결정나무(Decision Tree)군집화 모델(GMM)선형 회귀(Linear Regression)교차검증(Cross Validation)K-Fold CVStratified K-Fold CV어려웠던 내용궁금한 내용과 부족한 내용느낀 점오늘 공부한 내용1. KDT (ML) - 머신러닝 복습머신러닝 복습머신러닝 용어인공지능(Artificial Intelligence) : 컴퓨터에 인간의 지능(직관)을 인공적으..
Today I Learned (2024-08-28)목차Today I Learned (2024-08-28)오늘 공부한 내용1. KDT (ML)XAI(설명 가능한 AI)ShapCalculusThe Squeeze TheoremMachine Learning타이타닉 수치형 데이터 EDA어려웠던 내용궁금한 내용과 부족한 내용느낀 점오늘 공부한 내용1. KDT (ML)XAI(설명 가능한 AI)화이트박스 모델이다.예) decision treeShap기계 학습 모델의 예측 결과를 설명하기 위한 방법론 중 하나이다.입력 특성의 기여도를 정량화하여, 모델이 왜 특정 예측했는지 예측할 수 있게 한다.feature importances와 거의 유사한 수치를 보여준다.예시 코드import xgboostimport shapfrom..
Today I Learned (2024-08-27)목차Today I Learned (2024-08-27)오늘 공부한 내용1. KDT (ML)회귀 모델 평가 지표분류 모델 평가 지표추천 시스템 모델의 평가 지표과적합이 일어나는 이유과적합 감지과적합 방지과소적합불균형 데이터 처리 imbalanced-learn어려웠던 내용궁금한 내용과 부족한 내용느낀 점오늘 공부한 내용1. KDT (ML)회귀 모델 평가 지표MAE(Mean Absolute Error)모델의 예측값과 실제값의 차이의 절대값의 평균절대값을 취하기 때문에 가장 직관적으로 알 수 있는 지표이다.오차가 커졌을 때 상대적으로 중요하지 않게 나타날 수 있다. MSE(Mean Squared Error)오차카 커질수록 가중치가 커진다.오차가 큰 값일 경우 더..
Today I Learned (2024-08-26)목차Today I Learned (2024-08-26)오늘 공부한 내용1. KDT (ML)머신러닝 모델 만들기2. 머신러닝 입문타이타닉 데이터 EDA어려웠던 내용궁금한 내용과 부족한 내용느낀 점오늘 공부한 내용1. KDT (ML)머신러닝 모델 만들기Random Forest Regression 사용만료 일자 예측하기2. 머신러닝 입문타이타닉 데이터 EDAEDAhead(), tail(), 각 feature 의미 확인다섯 수치 요약(5 number summary) 확인최소값(minium), 제1사분위수, 제2사분위수, 제3사분위수, 최대값(maximum) 확인하기데이터프레임.describe()EDA 에서는 사분위수를 사용Q1:제1사분위수 (25%에 해당하는 값..
Today I Learned (2024-08-25)목차Today I Learned (2024-08-25)오늘 공부한 내용1. 머신러닝어떻게 분류(Classification)할 수 있을까?샘플을 어떻게 컴퓨터에 전달할까?분류가 정확한지 어떻게 확인할까? - 성능평가조건부, 결합, 주변 확률 이해정리어려웠던 내용궁금한 내용과 부족한 내용느낀 점오늘 공부한 내용1. 머신러닝어떻게 분류(Classification)할 수 있을까?샘플 : 수집된 다양한 데이터(전체 데이터가 아님, 원본 데이터를 전처리한 데이터)샘플을 두 집합으로 분리훈련 집합(Training Set) : 정답까지 포함되어 있는 샘플들테스트 집합(Test Set) : 정답은 빠져 있는 샘플들분류기 설계 : 분류할 모델 선정 (알고리즘 또는 모델 -..