[TIL] 2024-08-19 (ML)TIL/2024.082024. 8. 19. 22:33
Table of Contents
728x90
Today I Learned (2024-08-19)
목차
오늘 공부한 내용
1. KDT(Machine Learning)
AI와 기계학습, 딥러닝
AI(Artificial Intelligence, 인공지능) : 컴퓨터가 인간처럼 사고하고 학습할 수 있도록 만드는 능력
Machine Learning(기계학습) : AI의 하위 분야로, 컴퓨터가 데이터를 통해 학습하고 경험을 바탕으로 예측하는 능력을 갖추게 함.
Deep Learning(딥러닝) : 기계학습의 한 종류로, 다층 신경망을 사용해 복잡한 패턴을 학습함.
참고 이미지
출처 : 인공지능·머신러닝·딥러닝 차이점은?
기계학습의 개념
- 입력 변수(X)를 통해 출력 변수(Y)를 예측하는 과정이다.
- 입력 변수와 출력 변수 간의 관게를 학습하며, 새로운 데이터가 주어졌을 때 결과를 예측할 수 있게 한다.
- Y = $f(X)$
- Y : 출력 변수(동족변수, 반응변수)
- $f$ : 모형(머신러닝 알고리즘)
- X : 입력 변수(독립변수, Feature)
- 예시
- X: 고객들의 개인 정보 및 금융 관련 정보 → Y: 대출 연체 여부 예측
- X: 고객의 상품 구매 내역 → Y: 고객의 취향 예측
- X: 학생의 인강 수강기록, 연습문제 풀이 이력 → Y: 중간고사 시험 점수 예측
기계학습의 종류
지도 학습(Supervised Learning)
- 정의 : 문제(입력 데이터)와 정답(레이블)을 모두 제공하여 학습
- 목적 : 예측 및 분류 작업
비지도 학습(Unsupervised Learning)
- 정의 : 정답(레이블)을 제공하지 않고 학습
- 목적 : 데이터 내의 규칙이나 군집 발견
강화 학습(Reinforce Learning)
- 정의 : 보상을 통해 학습, 보상을 최대화하고 벌을 최소화하는 방향으로 학습
- 목적 : 행동 최적화
참고 이미지
출처 : 1.2 머신 러닝의 세 가지 종류
기계학습 방법
분류(Classification)
- 정의 : 데이터를 정해진 범주로 분류, 입력 데이터가 어떤 범주에 속하는지 예측
- 특징 : 지도 학습을 필요로 함
군집화(Clustering)
- 정의 : 데이터 사이의 유사성을 기준으로 그룹화, 출력 변수(Y)가 없는 경우 사용
- 특징 : 비지도 학습에서 주로 사용, 라벨이 없는 데이터 처리
회귀(Regression)
- 정의 : 두 변수 간의 관계를 예측, 연속적인 숫자 값을 예측(예: 키, 점수)
- 특징 : 지도 학습을 사용, 예측 결과는 연속적인 값
참고이미지
기계학습의 입력값
- 훈련 데이터(Training Set)
- 정의 : 학습 과정에서 모델을 학습시키기 위해 사용하는 데이터
- 검증 데이터(Validation Data)
- 정의 : 모델 성능 평가 및 하이퍼파라미터 튜닝에 사용
- 특징 : 학습하지 않은 데이터로 과적합 방지에 도움
- 테스트 데이터(Test Set)
- 정의 : 최종 모델의 성능을 평가하기 위해 사용
- 특징 : 모델이 학습하지 않은 데이터
- 하이퍼파라미터(Hyperparameter)
- 정의 : 학습 과정 중 조정 가능한 매개변수
- 예 : 데이터셋의 분할 비율(훈련 80%, 검증 20%)
- 데이터 분할(Data Splitting)
- 정의 : 데이터셋을 훈련, 검증, 테스트 데이터로 나누는 과정
기계학습에서 발생하는 문제
과(대)적합(Overfitting)
- 정의 : 학습 데이터에 너무 특정된 모델이 만들어지는 문제
- 예 : 강아지 100장, 고양이 1장으로 학습하면 강아지만 인식
과소적합(Underfitting)
- 정의 : 모델이 너무 단순하여 데이터의 구조를 제대로 학습하지 못하는 문제
- 예 : 복잡한 데이터를 제대로 분류하지 못함
이상치(Outlier)
- 데이터의 일반적인 패턴에서 크게 벗어나는 값
참고 이미지
기계학습 모델이 평가
- 평가 항목
- TP(True Positive): 실제 참인 값을 참이라고 예측.
- TN(True Negative): 실제 거짓인 값을 거짓이라고 예측.
- FP(False Positive): 실제 거짓인 값을 참이라고 예측.
- FN(False Negative): 실제 참인 값을 거짓이라고 예측.
- 평가 지표
- 정확도(Accuracy): 전체 중 맞춘 비율. (TP+TN) / (TP+TN+FP+FN)
- 정밀도(Precision): 참이라고 예측한 것 중 실제 참인 비율. TP / (TP+FP)
- 특이도(Specificity): 거짓이라고 예측한 것 중 실제 거짓인 비율. TN / (TN+FP)
- 민감도(Sensitivity): 실제 참인 값 중 참으로 예측한 비율. TP / (TP+FN)
- 기타 지표
- 정확도 외에도 다양한 지표를 함께 봐야 함.
- 에를 들어, 정확도가 100%여도 정밀도가 0일 수 있음
사이킷런(scikit-learn)
- 사이킷런이란?
- 파이썬의 대표적인 기계학습 패키지로, 주요 모델이 클래스로 구현되어 있다.
- 주요 기능
- ~ Classifier : 지도 학습 모델
- ~ Regression : 지도학습에서 회귀 모델
- ~ Clustering : 비지도 학습
- RandomForest Classifier
- 여러 개의 무작위 의사결정나무를 만들어 평균을 내는 앙상블 모델
- 사용법
- 클래스 초기화
fit
predict
메서드로 예측(2차원 데이터 입력 필요
- 기타
feature_importances_
속성으로 중요한 피처 확인 가능
데이터 분석의 전처리
- 데이터 분석에서 약 80%의 시간이 전처리에 사용된다고 한다.
- 그러나 프로젝트에서는 효율적인 자료 수집과 전처리 과정이 필요함.
어려웠던 내용
- 머신러닝
궁금한 내용과 부족한 내용
- 머신러닝과 데이터분석의 활용
느낀 점
- 새로운 것을 배우기 시작해서 처음 접하는 것들의 정보가 많이 들어와서 재미도 있지만 어렵겠다...
'TIL > 2024.08' 카테고리의 다른 글
[TIL] 2024-08-21 (ML) (0) | 2024.08.21 |
---|---|
[TIL] 2024-08-20 (ML) (0) | 2024.08.21 |
[TIL] 2024-08-18 (DA) (0) | 2024.08.19 |
[TIL] 2024-08-17 (Regex, 도서) (1) | 2024.08.17 |
[TIL] 2024-08-16 (0) | 2024.08.17 |
@maneDataLab :: 마네의 데이터랩
배움에 즐거움을 느끼는 마네의 데이터랩 이미지 출처 : https://www.instagram.com/hoseobiiiiiii._.0410/
포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!