Today I Learned (2024-09-10)목차Today I Learned (2024-09-10)오늘 공부한 내용1. KDT(DL)생성형 AI(Diffusers)부동소수점Stable Diffusers딥러닝 어텐션 (Attention)2. 데이터 과학을 위한 통계변이추정데이터 분포 탐색이진 데이터와 범주형 데이터 탐색하기상관관계두 개 이상의 변수 탐색임의표본추출과 표본편향SQLLIKEBETWEENNOT BETWEEN어려웠던 내용궁금한 내용과 부족한 내용느낀 점오늘 공부한 내용1. KDT(DL)생성형 AI(Diffusers)의존성 설정딥러닝 모델 실행을 위해 Python 3.8에서 주로 사용파라미터 설정모델의 성능에 영향을 주는 주요 요소프롬프트모델에 명령어를 입력해 원하는 결과를 얻음네거티브 프롬프..
Today I Learned (2024-09-08)목차Today I Learned (2024-09-08)오늘 공부한 내용1. 머신러닝하이퍼 파라미터 튜닝 기법 이해하기주요 하이퍼 파라미터 튜닝 기법하이퍼 파라미터 튜닝 적용하기(SVC, Support Vector Classifier)RandomizedSearchCV + SVC2. SQL기본적인 SQL 예제 문제 풀기3. 메타코드 이커머스 데이터분석데이터 분석가란?데이터 분석가 역량 및 업무 FLOW역향 준비SQL어려웠던 내용궁금한 내용과 부족한 내용느낀 점오늘 공부한 내용1. 머신러닝하이퍼 파라미터 튜닝 기법 이해하기하이퍼 파라미터 튜닝하이퍼 파라미터란(Hyper Parameter)?모델 생성 시, 사용자가 직접 입력하는 변수하이퍼 파라미터와 파라미터의 ..
Today I Learned (2024-09-03)목차Today I Learned (2024-09-03)오늘 공부한 내용1. KDT (DL)딥러닝 개념딥러닝 모델 구축 단계통계모델/머신러닝/딥러닝 비교표이미지 데이터 처리2. 머신러닝교차 검증(Cross Validation)Holdout Cross ValidationK-fold Cross Validationsklearn 의 Cross Validation & K-fold 사용법3. Pandas & BigqueryBigquery 쿼리문제 풀기어려웠던 내용궁금한 내용과 부족한 내용느낀 점오늘 공부한 내용1. KDT (DL)딥러닝 개념입력층, 은닉층, 출력층입력층데이터를 받아들이는 역할은닉층입력 데이터를 처리하여 패턴을 학습. 은닉층의 개수가 많을수록 모델은 더..
Today I Learned (2024-09-01)목차Today I Learned (2024-09-01)오늘 공부한 내용1. 머신러닝K-Nearest Neighbor(KNN)Logistic Regression(로지스틱 회귀)SVM(Support Vector Machine) / SVCDecision Tree(의사결정나무)Ensemble(앙상블)편향(Bias) 와 분산(Variance)Ensemble과 Bagging, BoostingBagging : Random ForestBagging : Extra Tree2. 메타코드(Pandas와 Bigquery를 활용한 데이터 분석)Pandas어려웠던 내용궁금한 내용과 부족한 내용느낀 점오늘 공부한 내용1. 머신러닝K-Nearest Neighbor(KNN)기본적인 머..
Today I Learned (2024-08-27)목차Today I Learned (2024-08-27)오늘 공부한 내용1. KDT (ML)회귀 모델 평가 지표분류 모델 평가 지표추천 시스템 모델의 평가 지표과적합이 일어나는 이유과적합 감지과적합 방지과소적합불균형 데이터 처리 imbalanced-learn어려웠던 내용궁금한 내용과 부족한 내용느낀 점오늘 공부한 내용1. KDT (ML)회귀 모델 평가 지표MAE(Mean Absolute Error)모델의 예측값과 실제값의 차이의 절대값의 평균절대값을 취하기 때문에 가장 직관적으로 알 수 있는 지표이다.오차가 커졌을 때 상대적으로 중요하지 않게 나타날 수 있다. MSE(Mean Squared Error)오차카 커질수록 가중치가 커진다.오차가 큰 값일 경우 더..
Today I Learned (2024-08-26)목차Today I Learned (2024-08-26)오늘 공부한 내용1. KDT (ML)머신러닝 모델 만들기2. 머신러닝 입문타이타닉 데이터 EDA어려웠던 내용궁금한 내용과 부족한 내용느낀 점오늘 공부한 내용1. KDT (ML)머신러닝 모델 만들기Random Forest Regression 사용만료 일자 예측하기2. 머신러닝 입문타이타닉 데이터 EDAEDAhead(), tail(), 각 feature 의미 확인다섯 수치 요약(5 number summary) 확인최소값(minium), 제1사분위수, 제2사분위수, 제3사분위수, 최대값(maximum) 확인하기데이터프레임.describe()EDA 에서는 사분위수를 사용Q1:제1사분위수 (25%에 해당하는 값..
범주(Category)란 무엇인가서론데이터 분석 공부를 시작하고 범주라는 말을 참 많이 들었다...하지만 아직 "범주가 뭐야?"라고 물으면 대답을 하지 못하는 상황이다. 큰일이군.그래서 이를 해결하고자 전지전능하신 GPT를 이용해 범주란 무엇인가에 대한 글을 작성한다.What's 범주?범주란 데이터를 특정 기준에 따라 나눌 수 있는 그룹을 의미한다.데이터는 여러 가지 특성을 가질 수 있는데, 이 특성에 따라 데이터를 묶어서 관리하면 분석이 훨씬 수월해진다고 한다.예를 들어, '색깔', '종류', '지역' 같은 것이 범주가 될 수 있다.예시예를 들어, 고객 데이터를 분석한다고 생각해보자.고객 데이터에는 여러 가지 정보가 있을 수 있다. 예를 들어, 고객의 성별, 나이, 거주지, 구매 이력 등이 있다.여기서..
범주형 데이터와 연속형 데이터의 차이데이터 분석과 통계에서는 데이터를 이해하고 분석하기 위해 여러 가지 유형으로 분류한다.이 중에서 가장 기본적인 두 가지 데이터 유형은 범주형 데이터(Categorical Data) 와 연속형 데이터(Continuous Data) 이다.범주형 데이터 (Categorical Data)범주형 데이터는 데이터가 특정 범주 또는 그룹으로 구분되는 데이터를 의미한다.이러한 데이터는 고정된 수의 범주를 가지고 있다. 주로 텍스트 또는 숫자로 표현되지만, 이 숫자는 순서나 크기를 의미하지 않는다.예시성별(남성, 여성), 색상(빨강, 파랑, 초록), 지역(서울, 부산, 대구)특징범주형 데이터는 순서가 없는 명복형 데이터와 순서가 있는 순서형 데이터로 구분될 수 있다.명목형 데이터순서가..