Today I Learned (2024-10-01)목차Today I Learned (2024-10-01)오늘 공부한 내용1. 머신러닝RMSLE(Root Mean Square Log Error) 함수 만들기회귀 모델 사용법 익히기모델 블렌딩 전략으로 캐글 제출하기2. 토스 데이터분석 testSQL Query 테스트어려웠던 내용궁금한 내용과 부족한 내용느낀 점오늘 공부한 내용1. 머신러닝RMSLE(Root Mean Square Log Error) 함수 만들기캐글의 평가지표가 RMSLE 이고, sklearn에 rmsle 가 존재하지 않음def get_rmsle(y_actual, y_pred): # 음수 값을 방지하기 위해, 최소한 0 이상의 값을 갖도록 함 y_pred = np.maximum(0, ..
Today I Learned (2024-09-30)목차Today I Learned (2024-09-30)오늘 공부한 내용1. 데이터 과학을 위한 통계단순선형회귀다중선형회귀2. KDT(Database)SQL(Structured Query Language)데이터 스토어데이터 마트SLQ 문법 종류SELECTSQL 활용시의 중요 표현들어려웠던 내용궁금한 내용과 부족한 내용느낀 점오늘 공부한 내용1. 데이터 과학을 위한 통계단순선형회귀회귀방정식은 응답변수 Y와 예측변수 X 간의 관계를 선형함수로 모델링한다.회귀모형은 적합값과 진차, 즉 반응에 대한 예측과 그 예측 오차를 산출한다.회귀모형은 일반적으로 최소제곱법을 이용해 피팅한다.회귀는 예측과 설명 모두에 사용한다.다중선형회귀$Y = b_0+b_1X_1+b_2X_..
Today I Learned (2024-09-29)목차Today I Learned (2024-09-29)오늘 공부한 내용1. 데이터과학을 위한 통계선형회귀단순선형회귀2. 머신러닝자전거 공유 예측 EDA어려웠던 내용궁금한 내용과 부족한 내용느낀 점오늘 공부한 내용1. 데이터과학을 위한 통계선형회귀지도 학습(supervised learning) : 결과를 알고 있는 데이터로 모델을 훈련하고 이후에 아직 결과를 모르는 데이터에 적용하는 프로세스단순선형회귀응답변수(반응변수, response variable) : 예측하고자 하는 변수(유의어: 종속변수, 변수 Y, 목표, 출력)독립변수(Independent variable) : 응답치를 예측하기 위해 사용되는 변수(유의어: 예측변수, 변수 X,, 피처, 속성)레코..
Today I Learned (2024-09-28)목차Today I Learned (2024-09-28)오늘 공부한 내용1. B.D.A기초 통계(pandas)어려웠던 내용궁금한 내용과 부족한 내용느낀 점오늘 공부한 내용1. B.D.A기초 통계(pandas)query()조건식을 문자열로 입력받아 해당 조건에 만족하는 행을 추출해 출력해주는 함수쿼리 -> 내가 원하는 데이터의 조건을 질의한다.데이터프레임.query('조건')sort_values()값에 대한 정렬정렬의 기준이 필요하다오름차순내림차순groupby()데이터를 집계한다.groupby 기준 - 어떤 컬럼으로 묶을 것인가?어떤 통계치로 볼 것인가?문법df.groupby('기준컬럼)어려웠던 내용딱히 없었다.궁금한 내용과 부족한 내용어떻게 하면 group..
Today I Learned (2024-09-27)목차Today I Learned (2024-09-27)오늘 공부한 내용1. KDT (자연어 처리)영화리뷰 댓글 분류(PyTorch)Sentencepiece2. 데이터 과학을 위한 통계카이제곱검정멀티암드 밴딧 알고리즘검정력과 표본크기어려웠던 내용궁금한 내용과 부족한 내용느낀 점오늘 공부한 내용1. KDT (자연어 처리)영화리뷰 댓글 분류(PyTorch)데이터 전처리한글을 제외한 글자 모두 제외(Regex)불용어 처리한글자 단어 제외형태소 분리(konlpy)딥러닝 모델 학습TextClassifierLSTM긍정과 부정을 분류한다.이진분류로 분류한다.정확도가 높진 않았다.PyTorch를 사용했는데 Tensorflow만 쓰다가 이걸 쓰니까 더 어렵게 느껴졌다.Se..
Today I Learned (2024-09-26)목차Today I Learned (2024-09-26)오늘 공부한 내용1. KDT(NLP)TF-IDF2. 딥 러닝을 이용한 자연어 처리 입문(NLP)토큰화(Tokenization)정제(Cleaning)와 정규화(Normalization)어려웠던 내용궁금한 내용과 부족한 내용느낀 점오늘 공부한 내용1. KDT(NLP)TF-IDFTF (Term Frequency, 단어 빈도) : 어떤 단어가 문서 내에서 얼마나 자주 등장하는지를 나타내는 지표DF (Document Frequency, 문서 빈도) : 어떤 단어가 문서군 내에서 얼마나 자주 등장하는지를 나타내는 지표. 이 때, 등장 빈도는 해당 단어가 존재하는지 여부만 체크합니다IDF (Inverse Docum..
Today I Learned (2024-09-25)목차Today I Learned (2024-09-25)오늘 공부한 내용1. KDT자연어처리어려웠던 내용궁금한 내용과 부족한 내용느낀 점오늘 공부한 내용1. KDT자연어처리한국어 문법 문제 생성 프로그램 만들기DB에서 랜덤하게 문장을 읽어와서 형태소 분리 후 맞추는 퀴즈드래그 & 드랍으로 하려다 시작이 부족할 것 같아서 더 쉽게 변경..드래그 & 드랍 퀴즈 어려웠던 내용장고 웹프레임워크궁금한 내용과 부족한 내용드래그앤드랍느낀 점드래그앤드랍으로 완성하고 싶었지만 아쉬웠다.. -->
Today I Learned (2024-09-24)목차3. 8 분산분석어려웠던 내용궁금한 내용과 부족한 내용느낀 점오늘 공부한 내용1. KDT(NLP)정형 데이터 (Structured Data)정의: 미리 정의된 구조 또는 모형을 따르는 데이터.특징:계산 및 수학 연산이 가능.분석에 제약이 없음.예: Excel 파일, 웹 양식 결과, 예약 시스템, SQL 데이터베이스.관리 방법: 주로 RDB(Relational Database)에 저장.이점:사용이 쉽고 직관적 예측 가능.저장 및 확장이 용이.데이터 마이닝이 간소화되고 검색 가능성 향상.단점:특정 형식으로 제한됨.품질 저하 가능성.예: 학생 평가 데이터.비정형 데이터 (Unstructured Data)정의: 정형 데이터를 제외한 모든 데이터로 내부 구조가..