[TIL] 2024-09-29 (DA/ML)TIL/2024.092024. 9. 30. 00:09
Table of Contents
728x90
Today I Learned (2024-09-29)
목차
오늘 공부한 내용
1. 데이터과학을 위한 통계
선형회귀
- 지도 학습(supervised learning) : 결과를 알고 있는 데이터로 모델을 훈련하고 이후에 아직 결과를 모르는 데이터에 적용하는 프로세스
단순선형회귀
- 응답변수(반응변수, response variable) : 예측하고자 하는 변수(유의어: 종속변수, 변수 Y, 목표, 출력)
- 독립변수(Independent variable) : 응답치를 예측하기 위해 사용되는 변수(유의어: 예측변수, 변수 X,, 피처, 속성)
- 레코드(record) : 한 특정 경우에 대한 입력과 출력을 담고 있는 벡터(유의어: 행, 사건, 예시(instance), 예제(example)
- 절편(intercept) : 회귀직선의 절편. 즉, X =0 일 때 예측값
- 회귀계수(regression coefficient) : 회귀적선의 기울기
- 적합값(fitted value) : 회귀선으로부터 얻은 추정치 Y
- 잔차(residual) : 관측값과 적합값의 차이(유의어: 오차)
- 최소제곱(least squre) : 잔차의 제곱합을 최소화하여 회귀를 피팅하는 방법(유의어: 보통최소제곱, OLS)
- 회귀식 : $Y = B_0+B_1X$
- X가 얼만큼 변하면 Y가 어느 정도 변하는지를 정확히 추정가능
- 위의 식으로 선형관계(즉, 직석)를 이용해서 변수 X로부터 변수 Y를 예측하고자 한다.
- 변수 Y는 X에 따라 달라지기 때문에, 응답변수 혹은 종속변수라고 불린다.
- 변수 X는 독립변수 혹은 예측변수라고 한다.
- 머신러닝 분야에서는 Y는 목표벡터, X는 피처벡터라고 달리 부른다.
2. 머신러닝
자전거 공유 예측 EDA
- 날씨에 따른 이용량
- 맑은날이 이용량이 제일 많음
- 계절에 따른 이용량
- 겨울은 거의 없고 봄, 여름, 가을은 비슷함
- 습도에 따른 이용량
- 습도가 높을수록 이용률이 낮아짐
어려웠던 내용
- EDA
- 기존 데이터를 가지고 어떻게 합치냐에 따라 다양한 결과를 얻을 수 있다고 생각들기 때문이다....
- 다양한 통계 용어들
궁금한 내용과 부족한 내용
- EDA 방향
- 도메인 지식 부족이겠지
느낀 점
- 통계 용어는 너무 어렵다.. 많다..
- EDA를 잘하기 위해 도메인 지식을 많이 쌓아두자
'TIL > 2024.09' 카테고리의 다른 글
[TIL] 2024-09-30 (DA/SQL) (0) | 2024.10.01 |
---|---|
[TIL] 2024-09-28 (DA) (0) | 2024.09.29 |
[TIL] 2024-09-27 (NLP, DA) (2) | 2024.09.28 |
[TIL] 2024-09-26 (NLP) (0) | 2024.09.27 |
[TIL] 2024-09-25 (NLP) (0) | 2024.09.27 |
@maneDataLab :: 마네의 데이터랩
배움에 즐거움을 느끼는 마네의 데이터랩 이미지 출처 : https://www.instagram.com/hoseobiiiiiii._.0410/
포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!