[TIL] 2024-09-24 (NLP/DA)TIL (2024)/2024.092024. 9. 25. 00:42
Table of Contents
728x90
Today I Learned (2024-09-24)
목차
오늘 공부한 내용
1. KDT(NLP)
정형 데이터 (Structured Data)
- 정의: 미리 정의된 구조 또는 모형을 따르는 데이터.
- 특징:
- 계산 및 수학 연산이 가능.
- 분석에 제약이 없음.
- 예: Excel 파일, 웹 양식 결과, 예약 시스템, SQL 데이터베이스.
- 관리 방법: 주로 RDB(Relational Database)에 저장.
- 이점:
- 사용이 쉽고 직관적 예측 가능.
- 저장 및 확장이 용이.
- 데이터 마이닝이 간소화되고 검색 가능성 향상.
- 단점:
- 특정 형식으로 제한됨.
- 품질 저하 가능성.
- 예: 학생 평가 데이터.
비정형 데이터 (Unstructured Data)
- 정의: 정형 데이터를 제외한 모든 데이터로 내부 구조가 없음.
- 예시: 고객 리뷰, 비디오, 제품 사진, 로그 데이터, 의료 이미징 데이터 등.
- 특징:
- 수집 및 생성이 비교적 간단.
- 전처리를 잘해야 함 (손실 위험 존재).
- 예시 사이트: Elastic - Unstructured Data
반정형 데이터 (Semi-structured Data)
- 정의: 명확한 구조가 없지만 일정한 패턴을 따르는 데이터.
- 예시: JSON, XML, 웹 로그, 압축 파일 등.
- 특징:
- 비정형 데이터와 유사한 방식으로 분석 가능.
- JSON: Python 딕셔너리 구조와 유사, value에 제한이 없음.
N-gram 분석
- 정의: N개의 단어가 연속해서 나오는 패턴을 분석하는 방법.
워드클라우드 (Word Cloud)
- 장점: 시각적으로 보기 좋음.
- 단점: 분석적인 측면에서 제한적.
정규표현식 (Regular Expression)
- 정의: 패턴을 정의하여 문자열을 변형, 분리, 삭제, 대체할 수 있는 방법.
import re # 예시 코드 pattern = re.compile('정규식패턴')
2. 데이터 과학을 위한 통계
통계적 유의성과 p 값
- 통계적 유의성이란, 통계학자가 자신의 실험(또는 기존 데이터에 대한 연구) 결과가 우연히 일어난 것인지 아니면 우연히 일어날 수 없는 극단적인 것인지를 판단하는 방법이다.
- p 값(p-value) : 귀무가설을 구체화한 기회 모델이 주어졌을 때 관측된 결과와 같이 특이하거나 극단적인 결과를 얻을 확률
- 알파(alpha) : 실제 결과가 통계적으로 의미 있는 것으로 간주되기 위해, 우연에 의한 결과가 능가해야하는 ‘비정상적인’ 가능성의 임계 확률
- 제 1종 오류(type 1 error) : 우연에 의한 효과를 실제 효과라고 잘못 결론 내리는 것
- 제 2종 오류(type 2 error) : 실제 효과를 우연에 의한 효과라고 잘못 결론 내리는 것
t 검정
- 검정통계량(test statistic) : 관심의 차이 또는 효과에 대한 측정 지표
- t 통계량(t-statistic) : 평균과 같이 표준화된 형태의 일반적인 검정통계량
- t 분포(t-distribution) : 관측된 t 통계량을 비교할 수 있는 기준 분포
다중검정
- 제1종 오류(type 1 error) : 어떤 효과가 통계적으로 유의미하다고 잘못된 결론을 내린다.
- 거짓 발견 비율(FDR, false discovery rate) : 다중검정에서 1종 오류가 발생하는 비율
- 알파 인플레이션(alpha inflation) : 1종 오류를 만들 확률인 알파가 더 많은 테스트를 수행할수록 증가하는 다중검정 현상
- p 값 조정(adjustment of p-value) : 동일한 데이터에 대해 다중검정을 수행하는 경우에 필요하다
- 과대적합(오버피팅, overfitting) : 잡음까지 피팅
자유도
- 표본 데이터에서 계산된 통계량에 적용되며 변화가 가능한 값들의 개수를 나타낸다.
- 자유도 : n - 1
- 예: 한 주에 7일이 있다고 가정한다. 월, 화, 수, 목, 금, 토, 일 중에 6일은 마음대로 정할 수 있다. 하지만 마지막 1일은 이미 정해진 나머지 6일을 기준으로 자동으로 결정해야 한다. 그래서 6일은 자유롭게 정할 수 있지만 마지막 1일은 이미 정해진 요일들에 따라 결정되기 때문에, 자유도는 6이다.
3분산분석
- 분산분석은 여러 그룹간의 통계적으로 유의미한 차이를 검정하는 통계적 절차이다.
- 줄여서 ANOVA(Analysis of Variance) 라고 한다.
- 쌍별 비교(pairwise comparison) : 여러 그룹 중 두 그룹 간의 가설 검정
- 총괄검정(omnibus test) : 여러 그룹 평균들의 전체 분산에 관한 단일 가설검정
- 분산분해(decomposition of variance) : 구성 요소 분리. 예를 들면 전체 평균, 처리 평균, 잔차 오차로부터 개별값들에 대한 기여
- F 통계량(F-statistic) : 그룹 평균 간의 차이가 랜덤 모델에서 예상되는 것에서 벗어나는 정도를 측정하는 표준화된 통계량
- SS(Sum of squares) : 어떤 평균으로부터 편차들의 제곱합
어려웠던 내용
- 다양항 통계 용어들과 정의
궁금한 내용과 부족한 내용
- 자연어 처리에 대해 더 알아보고 싶다
- 통계 용어 너무 많고...
느낀 점
- 통계란 무엇인가... 정답을 찾는 다는 생각은 버리자
- 답은 없다.
'TIL (2024) > 2024.09' 카테고리의 다른 글
[TIL] 2024-09-26 (NLP) (0) | 2024.09.27 |
---|---|
[TIL] 2024-09-25 (NLP) (0) | 2024.09.27 |
[TIL] 2024-09-23 (DA) (0) | 2024.09.24 |
[TIL] 2024-09-22 (통계/DA) (0) | 2024.09.23 |
[TIL] 2024-09-21 (ML/DA/NLP) (1) | 2024.09.22 |
@mane Lab :: 마네의 연구소
배움에 즐거움을 느끼는 마네의 연구소입니다. 이미지 출처 : https://www.instagram.com/hoseobiiiiiii._.0410/
포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!