[DB] 일관성(Consistency)
DB2024. 12. 1. 16:36[DB] 일관성(Consistency)

데이터베이스의 일관성 (Consistency)데이터 일관성은 데이터베이스 및 시스템에서 중요한 개념으로, 데이터의 정확성과 신뢰성을 유지하기 위한 여러 원칙과 메커니즘으로 구성됨. 이를 크게 두 가지로 나눌 수 있음:1. 데이터 자체의 일관성 (Consistency in Data)데이터 자체의 일관성은 데이터가 시스템 내에서 항상 올바른 상태를 유지하는 것을 의미함. 이는 아래의 원칙들로 정의됨:- 사용자 정의 규칙 (Defined by the user)사용자가 설정한 비즈니스 규칙이나 데이터 제약 조건을 만족해야 함.예: 고객의 나이가 음수일 수 없거나, 제품의 가격이 0보다 작을 수 없음.- 참조 무결성 (Referential Integrity)데이터베이스에서 외래 키를 사용하는 경우 참조 무결성을 ..

[통계] 이항분포(Binomial Distribution)
Data Analysis2024. 9. 23. 00:38[통계] 이항분포(Binomial Distribution)

이항분포 (Binomial Distribution)1. 이항분포란?이항분포는 성공과 실패 두 가지 결과만 존재하는 실험을 여러 번 시행할 때, 각 시행에서 성공할 확률을 모델링하는 확률 분포임. 각 시행은 서로 독립적이며, 시행의 결과가 이항(두 가지 결과) 중 하나로 나타남.예를 들어, 동전을 10번 던졌을 때 앞면이 나오는 횟수를 구하는 문제에서 동전 던지기는 성공(앞면)과 실패(뒷면)로 나뉨. 이러한 상황에서 이항분포를 사용하여 앞면이 나오는 확률을 계산할 수 있음.2. 이항분포의 특징이항분포는 다음 네 가지 조건을 충족해야 함.시행 횟수가 정해져 있어야 함. (n번 시행) 각 시행은 독립적이어야 함. 한 번의 결과가 다른 시행에 영향을 미치지 않아야 함. 각 시행의 결과는 성공 또는 실패 두 ..

[TIL] 2024-09-07 (ML)
TIL (2024)/2024.092024. 9. 8. 00:33[TIL] 2024-09-07 (ML)

Today I Learned (2024-09-07)목차Today I Learned (2024-09-07)오늘 공부한 내용1. 머신러닝중요도에 따른 feature 정리디폴트 테스트어려웠던 내용궁금한 내용과 부족한 내용느낀 점오늘 공부한 내용1. 머신러닝중요도에 따른 feature 정리분류 확률을 계산하는데 기여한 정보를 피처 중요도라고 함결과에 유의미한 영향을 주는 feature 만을 중심으로 머신러닝 기법을 적용하기도 함디폴트 테스트하이퍼 파라미터 튜닝을 통해 각 머신러닝 모델을 보다 최적화할 수 있지만, 우선 디폴트값으로 바로 예측 가능어려웠던 내용없었다.궁금한 내용과 부족한 내용더 다양한 머신러닝 사용느낀 점이사때문에 자기전에 겨우 공부를 한다.이사 쉽지 않다... -->

[TIL] 2024-09-01 (ML)
TIL (2024)/2024.092024. 9. 2. 00:20[TIL] 2024-09-01 (ML)

Today I Learned (2024-09-01)목차Today I Learned (2024-09-01)오늘 공부한 내용1. 머신러닝K-Nearest Neighbor(KNN)Logistic Regression(로지스틱 회귀)SVM(Support Vector Machine) / SVCDecision Tree(의사결정나무)Ensemble(앙상블)편향(Bias) 와 분산(Variance)Ensemble과 Bagging, BoostingBagging : Random ForestBagging : Extra Tree2. 메타코드(Pandas와 Bigquery를 활용한 데이터 분석)Pandas어려웠던 내용궁금한 내용과 부족한 내용느낀 점오늘 공부한 내용1. 머신러닝K-Nearest Neighbor(KNN)기본적인 머..

[TIL] 2024-08-26 (ML)
TIL (2024)/2024.082024. 8. 27. 00:41[TIL] 2024-08-26 (ML)

Today I Learned (2024-08-26)목차Today I Learned (2024-08-26)오늘 공부한 내용1. KDT (ML)머신러닝 모델 만들기2. 머신러닝 입문타이타닉 데이터 EDA어려웠던 내용궁금한 내용과 부족한 내용느낀 점오늘 공부한 내용1. KDT (ML)머신러닝 모델 만들기Random Forest Regression 사용만료 일자 예측하기2. 머신러닝 입문타이타닉 데이터 EDAEDAhead(), tail(), 각 feature 의미 확인다섯 수치 요약(5 number summary) 확인최소값(minium), 제1사분위수, 제2사분위수, 제3사분위수, 최대값(maximum) 확인하기데이터프레임.describe()EDA 에서는 사분위수를 사용Q1:제1사분위수 (25%에 해당하는 값..

[DA] 범주형 데이터와 연속형 데이터의 차이
Data Analysis2024. 8. 18. 22:33[DA] 범주형 데이터와 연속형 데이터의 차이

범주형 데이터와 연속형 데이터의 차이데이터 분석과 통계에서는 데이터를 이해하고 분석하기 위해 여러 가지 유형으로 분류한다.이 중에서 가장 기본적인 두 가지 데이터 유형은 범주형 데이터(Categorical Data) 와 연속형 데이터(Continuous Data) 이다.범주형 데이터 (Categorical Data)범주형 데이터는 데이터가 특정 범주 또는 그룹으로 구분되는 데이터를 의미한다.이러한 데이터는 고정된 수의 범주를 가지고 있다. 주로 텍스트 또는 숫자로 표현되지만, 이 숫자는 순서나 크기를 의미하지 않는다.예시성별(남성, 여성), 색상(빨강, 파랑, 초록), 지역(서울, 부산, 대구)특징범주형 데이터는 순서가 없는 명복형 데이터와 순서가 있는 순서형 데이터로 구분될 수 있다.명목형 데이터순서가..

[TIL] 2024-08-17 (Regex, 도서)
TIL (2024)/2024.082024. 8. 17. 22:54[TIL] 2024-08-17 (Regex, 도서)

Today I Learned (2024-08-17)목차Today I Learned (2024-08-17)오늘 공부한 내용1. 인프런(공공데이터 활용하기)정규표현식 - 전화번호 일부 마스킹 처리2. 데이터 과학을 위한 통계(도서)Chapter 01. 탐색적 분석어려웠던 내용궁금한 내용과 부족한 내용느낀 점오늘 공부한 내용1. 인프런(공공데이터 활용하기)정규표현식 - 전화번호 일부 마스킹 처리정규표현식을 이용해 전화번호 일부를 마스킹 처리한다.02-1-67010-**-89+82-10-**-78함수 만들기def mask_phone_number(phone): # 결측치가 있다면 그대로 반환 if pd.isna(phone): return phone # 번호를 - 기준으로 자른다. num = pho..

[TIL] 2024-08-16
TIL (2024)/2024.082024. 8. 17. 16:22[TIL] 2024-08-16

Today I Learned (2024-08-16)목차Today I Learned (2024-08-16)오늘 공부한 내용1. 인프런(공공데이터분석하기)정규 표현식으로 데이터 전처리 하기어려웠던 내용궁금한 내용과 부족한 내용느낀 점오늘 공부한 내용1. 인프런(공공데이터분석하기)정규 표현식으로 데이터 전처리 하기정규 표현식 라이브러리파이썬 내장 라이브러리이다.import redef get_string(text): if pd.isna(text): return text text = re.sub("[\d\.'\-(nan)\[\]\/]","",text) text = re.sub(" ","",text) text = re.sub(",{2,}","",text) text = re.sub("\+",",",..

image