Today I Learned (2024-09-30)목차Today I Learned (2024-09-30)오늘 공부한 내용1. 데이터 과학을 위한 통계단순선형회귀다중선형회귀2. KDT(Database)SQL(Structured Query Language)데이터 스토어데이터 마트SLQ 문법 종류SELECTSQL 활용시의 중요 표현들어려웠던 내용궁금한 내용과 부족한 내용느낀 점오늘 공부한 내용1. 데이터 과학을 위한 통계단순선형회귀회귀방정식은 응답변수 Y와 예측변수 X 간의 관계를 선형함수로 모델링한다.회귀모형은 적합값과 진차, 즉 반응에 대한 예측과 그 예측 오차를 산출한다.회귀모형은 일반적으로 최소제곱법을 이용해 피팅한다.회귀는 예측과 설명 모두에 사용한다.다중선형회귀$Y = b_0+b_1X_1+b_2X_..
Today I Learned (2024-09-29)목차Today I Learned (2024-09-29)오늘 공부한 내용1. 데이터과학을 위한 통계선형회귀단순선형회귀2. 머신러닝자전거 공유 예측 EDA어려웠던 내용궁금한 내용과 부족한 내용느낀 점오늘 공부한 내용1. 데이터과학을 위한 통계선형회귀지도 학습(supervised learning) : 결과를 알고 있는 데이터로 모델을 훈련하고 이후에 아직 결과를 모르는 데이터에 적용하는 프로세스단순선형회귀응답변수(반응변수, response variable) : 예측하고자 하는 변수(유의어: 종속변수, 변수 Y, 목표, 출력)독립변수(Independent variable) : 응답치를 예측하기 위해 사용되는 변수(유의어: 예측변수, 변수 X,, 피처, 속성)레코..
Today I Learned (2024-09-28)목차Today I Learned (2024-09-28)오늘 공부한 내용1. B.D.A기초 통계(pandas)어려웠던 내용궁금한 내용과 부족한 내용느낀 점오늘 공부한 내용1. B.D.A기초 통계(pandas)query()조건식을 문자열로 입력받아 해당 조건에 만족하는 행을 추출해 출력해주는 함수쿼리 -> 내가 원하는 데이터의 조건을 질의한다.데이터프레임.query('조건')sort_values()값에 대한 정렬정렬의 기준이 필요하다오름차순내림차순groupby()데이터를 집계한다.groupby 기준 - 어떤 컬럼으로 묶을 것인가?어떤 통계치로 볼 것인가?문법df.groupby('기준컬럼)어려웠던 내용딱히 없었다.궁금한 내용과 부족한 내용어떻게 하면 group..
Today I Learned (2024-09-27)목차Today I Learned (2024-09-27)오늘 공부한 내용1. KDT (자연어 처리)영화리뷰 댓글 분류(PyTorch)Sentencepiece2. 데이터 과학을 위한 통계카이제곱검정멀티암드 밴딧 알고리즘검정력과 표본크기어려웠던 내용궁금한 내용과 부족한 내용느낀 점오늘 공부한 내용1. KDT (자연어 처리)영화리뷰 댓글 분류(PyTorch)데이터 전처리한글을 제외한 글자 모두 제외(Regex)불용어 처리한글자 단어 제외형태소 분리(konlpy)딥러닝 모델 학습TextClassifierLSTM긍정과 부정을 분류한다.이진분류로 분류한다.정확도가 높진 않았다.PyTorch를 사용했는데 Tensorflow만 쓰다가 이걸 쓰니까 더 어렵게 느껴졌다.Se..
Today I Learned (2024-09-26)목차Today I Learned (2024-09-26)오늘 공부한 내용1. KDT(NLP)TF-IDF2. 딥 러닝을 이용한 자연어 처리 입문(NLP)토큰화(Tokenization)정제(Cleaning)와 정규화(Normalization)어려웠던 내용궁금한 내용과 부족한 내용느낀 점오늘 공부한 내용1. KDT(NLP)TF-IDFTF (Term Frequency, 단어 빈도) : 어떤 단어가 문서 내에서 얼마나 자주 등장하는지를 나타내는 지표DF (Document Frequency, 문서 빈도) : 어떤 단어가 문서군 내에서 얼마나 자주 등장하는지를 나타내는 지표. 이 때, 등장 빈도는 해당 단어가 존재하는지 여부만 체크합니다IDF (Inverse Docum..
Today I Learned (2024-09-25)목차Today I Learned (2024-09-25)오늘 공부한 내용1. KDT자연어처리어려웠던 내용궁금한 내용과 부족한 내용느낀 점오늘 공부한 내용1. KDT자연어처리한국어 문법 문제 생성 프로그램 만들기DB에서 랜덤하게 문장을 읽어와서 형태소 분리 후 맞추는 퀴즈드래그 & 드랍으로 하려다 시작이 부족할 것 같아서 더 쉽게 변경..드래그 & 드랍 퀴즈 어려웠던 내용장고 웹프레임워크궁금한 내용과 부족한 내용드래그앤드랍느낀 점드래그앤드랍으로 완성하고 싶었지만 아쉬웠다.. -->
Today I Learned (2024-09-24)목차3. 8 분산분석어려웠던 내용궁금한 내용과 부족한 내용느낀 점오늘 공부한 내용1. KDT(NLP)정형 데이터 (Structured Data)정의: 미리 정의된 구조 또는 모형을 따르는 데이터.특징:계산 및 수학 연산이 가능.분석에 제약이 없음.예: Excel 파일, 웹 양식 결과, 예약 시스템, SQL 데이터베이스.관리 방법: 주로 RDB(Relational Database)에 저장.이점:사용이 쉽고 직관적 예측 가능.저장 및 확장이 용이.데이터 마이닝이 간소화되고 검색 가능성 향상.단점:특정 형식으로 제한됨.품질 저하 가능성.예: 학생 평가 데이터.비정형 데이터 (Unstructured Data)정의: 정형 데이터를 제외한 모든 데이터로 내부 구조가..
Today I Learned (2024-09-23)목차Today I Learned (2024-09-23)오늘 공부한 내용1. 데이터 과학을 위한 통계카이제곱분포F-분포푸아송 분포와 그 외 관련 분포들A/B 검정가설검정재표본추출어려웠던 내용궁금한 내용과 부족한 내용느낀 점오늘 공부한 내용1. 데이터 과학을 위한 통계카이제곱분포카이제곱분포는 일반적으로 범주에 속하는 주제 또는 항목의 수와 관련이 있다.카이제곱통계는 귀무 모델의 기댓값에서 벗어난 정도를 측정한다.F-분포F 분포는 측정된 데이터와 관련한 실험 및 선형 모델에 사용된다.F 통계량은 관심 요인으로 인한 변동성과 전체 변동성을 비교한다.푸아송 분포와 그 외 관련 분포들람다(lambda) : 단위 시간이나 단위 면적당 사건이 발생하는 비율푸아송 분포(..