[TIL] 2024-09-10 (DL/DA/SQL)TIL/2024.092024. 9. 11. 00:31
Table of Contents
728x90
Today I Learned (2024-09-10)
목차
오늘 공부한 내용
1. KDT(DL)
생성형 AI(Diffusers)
- 의존성 설정
- 딥러닝 모델 실행을 위해 Python 3.8에서 주로 사용
- 파라미터 설정
- 모델의 성능에 영향을 주는 주요 요소
- 프롬프트
- 모델에 명령어를 입력해 원하는 결과를 얻음
- 네거티브 프롬프트
- '이 스타일은 피하라'는 의미
- 예: 카툰 스타일로 그려달라고 했을 때, 입체감이 있는 스타일은 피하도록 설정
- 파인튜닝
- 기존 학습된 모델에 추가적인 학습을 통해 성능을 개선
- 이미지 분류 모델 (Vision Transformer)
- 이미지를 분류하는 데 사용되는 모델
- 이미지를 정방형 패치로 쪼개어 학습
- 그라디언트 배니싱 문제를 줄일 수 있음
부동소수점
- 32비트 부동소수점
- 높은 정밀도
- 잔차가 적지만 연산 속도는 느림
- 16비트 부동소수점
- 기본적인 부동소수점 연산
- 8비트 부동소수점
- 반정밀도 부동소수점
Stable Diffusers
- 입력된 프롬프트를 기반으로 이미지를 생성
- Base 모델에서 작은 사이즈의 이미지에 다양한 노이즈를 합성하여 이미지를 생성
딥러닝 어텐션 (Attention)
- 앞에서 입력된 정보가 다음 학습 정보에 영향을 미침
- ChatGPT 같은 모델에서 사용됨
2. 데이터 과학을 위한 통계
변이추정
편차(deviation) | 관측값과 위치 추정값 사이의 차이(유의어: 오차, 잔차) |
---|---|
분산(variance) | 평균과 편차를 제곱한 값들을 n-1로 나눈 값. n은 데이터 개수(유의어:평균제곱오차) |
표준편차(standard deviation) | 분산의 제곱근 |
평균절대편차(mean absolute deviation) | 평균과의 편차의 절댓값의 평균 |
중앙값의 중위절대편차(mean absolute deviation from the median) | 중앙값과의 편차의 절댓값의 중간값 |
범위(range) | 데이터의 최댓값과 최솟값의 차이 |
순서통계량(order statistics) | 최소에서 최대까지 정렬된 데이터 값에 따른 계량형(유의어: 순위) |
백분위수(percentile) | 어떤 값들의 P퍼센트가 이 값 혹은 더 작은 값을 갖고, (100-P)퍼센트가 이 값 혹은 더 큰 값을 갖도록 하는 값 |
사분위범위(IQR, Interquartile range) | 75번째 백분위수와 25번째 백분위수 사이의 차이 |
- 가장 대표적으로 사용되는 변이 추정들은 관측 데이터와 위치 추정값 사이의 차이, 즉 편차를 기본으로 한다.
데이터 분포 탐색
- 상자그림(box plot) : 데이터의 분포를 시각화하기 위한 간단한 방법
- 도수분포표(frequency table) : 어떤 구간에 해당하는 수치 데이터 값들의 빈도를 나타내는 기록
- 히스토그램(histogram) : x축은 구간들을, y축은 빈도수를 나타내는 도수 테이블의 그림
- 밀도 그림(density plot) : 히스토그램을 부드러운 곡선으로 나타낸 그림. 커널밀도추정을 주로 사용한다.
이진 데이터와 범주형 데이터 탐색하기
- 최빈값(mode) : 데이터에서 가장 등장하는 범주 혹은 값
- ex) 미국 내 종교적 선호도 자료의 최반값은 아마 기독교일 것이다.
- 기댓값(expected value) : 범주에 해당하는 어떤 수치가 있을 때, 범주의 출현 확률에 따른 평균
- $\Sigma_{i}결과값*발생 확률$
- 막대도표(bar chart) : 각 범주의 빈도수 혹은 비율을 막대로 나타낸 그림
- x축 : 각 범주
- y 축 : 각 범주에 해당하는 횟수나 비율
- 파이그림(pie chart) : 각 범주의 빈도수 혹은 비율을 원의 부채꼴 모양으로 나타낸 그림
상관관계
- 상관계수(correlation coefficient) : 수치적 변수들 간에 어떤 관계가 있을지를 나타내기 위해 사용되는 측정량(-1에서 +1까지의 범위)
- 상관행렬(correlation matrix) : 행과 열이 변수들을 의미하는 표를 말하며, 각 셀은 그 행과 열에 해당하는 변수들 간의 상관관계를 의미한다.
- 산점도(scatter plot) : x축과 y축이 서로 다른 두 개의 변수를 나타내는 도표
두 개 이상의 변수 탐색
- 분할표(contingency table) : 두 가지 이상의 범주형 변수의 빈도수를 기록한 표
- 육각형 구간(hexagonal binnig) : 두 변수를 육각형 모양의 구간으로 나눈 그림
- 등고 도표(contour plot) : 지도상에 같은 높이의 지점을 등고선으로 나타내는 것처럼, 두 변수의 밀도를 등고선으로 표시한 도표
- 바이올린 도표(violin plot) : 상자그림과 비슷하지만 밀도추정을 함께 보여준다.
- 일변량분석 : 한 번에 하나의 변수를 다룬다.
- 이변량분석 : 두 변수를 비교한다.
- 다변량분석 : 셋 이상의 변수
임의표본추출과 표본편향
- 임의표본추출 : 대상이 되는 모집단 내의 선택 가능한 원소들을 무작위로 추출하는 과정, 그 결과를 단순임의표본이라고 한다.
- 복원추출 : 중복 추출이 가능하도록 해당 샘플을 다시 모집단에 포함시켜 표본을 얻는다.
- 비복원 추출 : 한번 뽑힌 원소는 추후 추첨에 사용하지 않는다.
- 표본(sample) : 더 큰 데이터 집합으로부터 얻은 부분집합
- 모집단(population) : 어떤 데이터 집합을 구성하는 전체 대상 혹은 전체 집합
- N(n) : 모집단(표본)의 크기
- 임의표본추출(임의표집, 랜덤표본추출, random sampling) : 무작위로 표본을 추출하는 것
- 층화표본추출(층화표집, stratified sampling) : 모집단을 층으로 나눈 뒤, 각 층에서 무작위로 표본을 추출하는 것
- 계층(stratum) : 공통된 특징을 가진 모집단의 동종 하위 그룹
- 단순임의표본(단순램덤표본, simple random sample) : 모집단 층화 없이 임의표본추출로 얻은 표본
- 편향(bias) : 계통상의 오류
- 표본편향(sample bias) : 모집단을 잘못 대표하는 표본
3. SQL
LIKE
문자열에서 원하는 문자가 포함되어 있는지를 검색
SELECT * FROM table WHERE LIKE '%CARS' : CARS 로 끝나는 데이터 검색 WHERE LIKE 'CARS%' : CARS 로 시작하는 데이터 검색 WHERE LIKE '%CARS%' : CARS를 포함하는 데이터 검색
BETWEEN
A 이상 B 이하의 데이터를 출력
SELECT * FROM table WHERE column1 BETWEEN 10 AND 30 -- column1 이 10 이상 30 이하인 모든 데이터 출력
NOT BETWEEN
A 이상 B 이하를
제외한
데이터를 출력SELECT * FROM table WHERE column1 NOT BETWEEN 10 AND 30 -- column1 이 10 이상 30 이하 제외 모든 데이터 출력
어려웠던 내용
- 이미지 학습 내용
궁금한 내용과 부족한 내용
- 아직 뭐가 뭔지 모르곘다. 딥러닝 모델... 너무 많다.
느낀 점
- 화이팅!
'TIL > 2024.09' 카테고리의 다른 글
[TIL] 2024-09-12 (DL) (0) | 2024.09.12 |
---|---|
[TIL] 2024-09-11 (DL) (0) | 2024.09.12 |
[TIL] 2024-09-09 (DL/ML/SQL) (0) | 2024.09.10 |
[TIL] 2024-09-08 (ML/SQL) (2) | 2024.09.09 |
[TIL] 2024-09-07 (ML) (0) | 2024.09.08 |
@maneDataLab :: 마네의 데이터랩
배움에 즐거움을 느끼는 마네의 데이터랩 이미지 출처 : https://www.instagram.com/hoseobiiiiiii._.0410/
포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!