[TIL] 2024-08-17 (Regex, 도서)TIL/2024.082024. 8. 17. 22:54
Table of Contents
728x90
Today I Learned (2024-08-17)
목차
오늘 공부한 내용
1. 인프런(공공데이터 활용하기)
정규표현식 - 전화번호 일부 마스킹 처리
- 정규표현식을 이용해 전화번호 일부를 마스킹 처리한다.
- 02-1-67
- 010-**-89
- +82-10-**-78
- 함수 만들기
def mask_phone_number(phone): # 결측치가 있다면 그대로 반환 if pd.isna(phone): return phone # 번호를 - 기준으로 자른다. num = phone.split('-') # 가운데 번호를 마스킹 처리하기 위해 중간 위치를 구한다. num_len = len(num) // 2 # \w -> [a-zA-Z0-9_] 모든 숫자 영문자와 일치 # * 표현 대체한다. # re.sub("규칙", "패턴", "데이터") # 규칙 # (\d{3}) 는 숫자 3자리를 의미합니다. # (\d{1,2}) 는 숫자 1~2자리를 의미합니다. num[num_len] = re.sub('\\w','*',num[num_len]) num[-1] = re.sub('(\\d{2})(\\d{2})',r'**\2',num[-1]) return '-'.join(num)
2. 데이터 과학을 위한 통계(도서)
Chapter 01. 탐색적 분석
- 탐색적 분석 데이터 분석(Exploratory Data Analysis, EDA)
- 고전 통계학 -> 추론(Inference)
- 즉, 적은 표본(샘플)을 가지고 더 큰 모집단에 대한 결론을 도출하기 위한 일련의 복잡한 과정에 다루었다.
- 원시데이터 -> 정형화된 데이터
- 정형 데이터
- 행과 열이 있는 테이블 형태
- 가장 기본이 되는 2가지 종류
- 수치형 데이터
- 연속, 이산
- 범주형 데이터
- 이진, 순서
- 수치형 데이터
- 정형 데이터
어려웠던 내용
- 정규표현식 규칙
궁금한 내용과 부족한 내용
- 없었따.
느낀 점
- 데이터 과학을 위한 통계란을 책을 읽기 시작했는데 아무래도 기초지식이 부족하다보니 읽는데 시간이 오래걸릴듯하다.
'TIL > 2024.08' 카테고리의 다른 글
[TIL] 2024-08-19 (ML) (0) | 2024.08.19 |
---|---|
[TIL] 2024-08-18 (DA) (0) | 2024.08.19 |
[TIL] 2024-08-16 (0) | 2024.08.17 |
[TIL] 2024-08-15 (공공데이터/mariaDB (0) | 2024.08.16 |
[TIL] 2024-08-14 (rest api/algebra) (0) | 2024.08.15 |
@maneDataLab :: 마네의 데이터랩
배움에 즐거움을 느끼는 마네의 데이터랩 이미지 출처 : https://www.instagram.com/hoseobiiiiiii._.0410/
포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!