[TIL] 2024-09-27 (NLP, DA)TIL/2024.092024. 9. 28. 01:36
Table of Contents
728x90
Today I Learned (2024-09-27)
목차
오늘 공부한 내용
1. KDT (자연어 처리)
영화리뷰 댓글 분류(PyTorch)
- 데이터 전처리
- 한글을 제외한 글자 모두 제외(Regex)
- 불용어 처리
- 한글자 단어 제외
- 형태소 분리(konlpy)
- 딥러닝 모델 학습
- TextClassifier
- LSTM
- 긍정과 부정을 분류한다.
- 이진분류로 분류한다.
- 정확도가 높진 않았다.
- PyTorch를 사용했는데 Tensorflow만 쓰다가 이걸 쓰니까 더 어렵게 느껴졌다.
Sentencepiece
- 내부 단어 분리 패키지
- 구글의 센텐스피스
- 내부 단어 분리 알고리즘을 사용하기 위해서, 데이터 단어 토큰화를 먼저 진행해야 한다.
2. 데이터 과학을 위한 통계
카이제곱검정
- 카이제곱검정(chi-square test) : 횟수 관련 데이터에 주로 사용되며 예상되는 분포에 얼마나 잘 맞는지를 검정한다.
- 카이제곱통계량(chi-square statistic) : 기댓값으로부터 어떤 관찰값까지의 거리를 나타내는 측정치
- 기댓값(expectation) : 어떤 가정(보통 귀무가설)으로부터 데이터가 발생할 때, 그에 대해 기대하는 정도
- d.f(degrees of freedom) : 자유도
멀티암드 밴딧 알고리즘
- 멀티암드 밴딧(MAB, multi-armed bandit) : 고객이 선택할 수 있는 손잡이가 여러 개인 가상의 슬롯머신을 말하며, 각 손잡이는 각기 다른 수익을 가져와준다. 다중 처리 실험에 대한 비유라고 생각할 수 있다.
- 손잡이(arm) : 실험에서 어떤 하나의 처리를 말한다. (예를 들면 ‘웹 테스트에서 헤드라인 A’
- 상금(수익, win) : 슬롯머신으로 딴 상금에 대한 실험적 비유 (예를 들어 ‘고객들의 링크 클릭 수’)
검정력과 표본크기
- 효과크기(effect size) : ‘클릭률의 20% 향상’과 같이 통계 검정을 통해 판단할 수 있는 효과의 최소 크기
- 검정력(power) : 주어진 표본크기로 주어진 효과크기를 알아낼 확률
- 유의수준(significance level) : 검증 시 사용할 통계 유의수준. 통계에서 귀무가설을 기각할 기준을 설정하는 값.
어려웠던 내용
- 파이토치 학습... 모델 만들기
- 이해를 못하고 우선 넘어간거같다.
- 허깅페이스를 사용하면 된다고 하셨다.
궁금한 내용과 부족한 내용
- 정규식
- 자연어 데이터 전처리
느낀 점
- 역시 어렵다... 자연어 전처리는 좀 더 까다로운것같다.
'TIL > 2024.09' 카테고리의 다른 글
[TIL] 2024-09-29 (DA/ML) (0) | 2024.09.30 |
---|---|
[TIL] 2024-09-28 (DA) (0) | 2024.09.29 |
[TIL] 2024-09-26 (NLP) (0) | 2024.09.27 |
[TIL] 2024-09-25 (NLP) (0) | 2024.09.27 |
[TIL] 2024-09-24 (NLP/DA) (2) | 2024.09.25 |
@maneDataLab :: 마네의 데이터랩
배움에 즐거움을 느끼는 마네의 데이터랩 이미지 출처 : https://www.instagram.com/hoseobiiiiiii._.0410/
포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!