[DA] 데이터 전처리(Data Preprocessing)Data Analysis2024. 8. 5. 00:23
728x90
데이터 분석에서 데이터 전처리 과정 (Data Preprocessing)
목차
데이터 전처리란?
데이터 분석에서 데이터 전처리는 매우 중요한 단계이다.
데이터 전처리는 원시 데이터를 분석 가능한 형태로 변환하는 과정으로, 데이터의 품질을 높이고 분석 결과의 정확성을 보장하는 데 필수이다.
데이터 전치리 순서
1. 데이터 수집
데이터 전처리의 첫 단계는 데이터를 수집하는 것이다.
데이터는 다양한 출처에서 수집될 수 있으며, 일반적으로 다음과 같은 형태로 존재한다.
- 데이터베이스(DB)
- CSV 파일(.csv)
- JSON 파일(.json)
- 웹에서 스크래핑한 데이터
- API를 통해 수집한 데이터
2. 데이터 정제
수집된 데이터는 종종 불완전하거나 오류가 있을 수 있습니다.
데이터 정제 단계에서는 다음과 같은 작업을 수행하여 데이터를 정리한다.
결측값 처리: 결측값을 제거하거나 대체한다.
import pandas as pd # 예제 데이터프레임 생성 df = pd.DataFrame({ 'A': [1, 2, None, 4], 'B': [None, 2, 3, 4] }) # 결측값 제거 df.dropna() # 결측값 대체 df.fillna(0)
중복 데이터 제거 : 중복된 데이터를 식별하고 제거한다.
# 중복 데이터 확인 df.duplicated() # 중복 데이터 제거 df.drop_duplicates()
이상치 처리 : 이상치를 식별하고 처리한다.
# 이상치 식별 df.describe() # 이상치 제거 df = df[df['A'] < 100]
3. 데이터 변환
데이터 변환 단계에서는 데이터를 분석에 적합한 형태로 변환한다.
- 데이터 타입 변환: 필요한 데이터 타입으로 변환한다.
# 데이터 타입 변환 df['A'] = df['A'].astype(int)
4. 데이터 통합
데이터 통합 단계에서는 여러 출처의 데이터를 결합하여 하나의 일관된 데이터셋을 만든다.
데이터 결합 : 여러 데이터프레임을 하나로 결합한다.
코드 복사 df1 = pd.DataFrame({'A': [1, 2], 'B': [3, 4]}) df2 = pd.DataFrame({'A': [5, 6], 'B': [7, 8]}) # 세로 결합 df = pd.concat([df1, df2], axis=0) # 가로 결합 df = pd.concat([df1, df2], axis=1)
5. 데이터 축소
대량의 데이터를 처리하는 경우, 데이터 축소를 통해 분석 효율성을 높일 수 있다.
나는 수정변합소? 로 외워야겠다..
수집
, 정
제, 변
환, 통합
, 축소
'Data Analysis' 카테고리의 다른 글
[DA] 부트스트랩 (Bootstrap) (0) | 2024.09.23 |
---|---|
[통계] 이항분포(Binomial Distribution) (0) | 2024.09.23 |
[DA] 범주란? (0) | 2024.08.18 |
[DA] 범주형 데이터와 연속형 데이터의 차이 (0) | 2024.08.18 |
[통계] 독립변수와 종속변수 (0) | 2024.08.06 |
@mane Lab :: 마네의 연구소
배움에 즐거움을 느끼는 마네의 연구소입니다. 이미지 출처 : https://www.instagram.com/hoseobiiiiiii._.0410/
포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!