LLM에서 Zero-shot, One-shot, Few-shot 학습대규모 언어 모델(LLM, Large Language Model)에서 흔히 언급되는 학습 방식으로 Zero-shot, One-shot, Few-shot 학습이 있음. 이 방식들은 주어진 과제에서 모델이 얼마나 많은 예시를 보고 학습해야 하는지를 기준으로 나누어지며, 각각의 개념을 아래에서 자세히 설명함.1. Zero-shot 학습Zero-shot 학습은 모델이 특정 과제에 대해 아무런 예시를 제공받지 않은 상태에서 바로 문제를 해결하는 능력을 말함. 이는 LLM이 방대한 데이터로 사전 학습되었기 때문에 새로운 과제에 대해 일반화된 지식을 적용할 수 있다는 것을 의미함.예시: 모델에게 "한글로 번역해보세요: 'The sky is blue...
컨텍스트 윈도우(Context Window)란?1. 컨텍스트 윈도우의 정의LLM(Large Language Model)에서 컨텍스트 윈도우란 모델이 한 번에 처리할 수 있는 텍스트의 범위를 의미함. 모델이 텍스트를 이해하거나 예측할 때, 동시에 참조할 수 있는 단어 또는 토큰의 수를 제한하는 창(window)임.즉, 모델이 한 번에 처리할 수 있는 최대 입출력 토큰 수(최대 토큰 길이)2. 컨텍스트 윈도우의 역할컨텍스트 윈도우는 모델이 텍스트 내에서 문맥을 파악하고, 그에 따라 적절한 응답을 생성하는 데 매우 중요한 역할을 함. 윈도우 크기가 클수록 모델은 더 많은 문맥 정보를 바탕으로 예측할 수 있지만, 그만큼 계산 비용도 증가함.예시다음과 같은 문장을 보자:"지난 주말에 나는 친구들과 산책을 하면서 ..
LLM(대규모 언어 모델)에서의 토큰(Token)1. 토큰이란 무엇인가?LLM(Large Language Model)은 텍스트 데이터를 처리하고 이해할 때 '토큰(token)'이라는 기본 단위를 사용함.토큰은 단어, 부분 단어, 심지어 문장 부호 등으로 구성되며, 모델이 입력 텍스트를 학습하거나 예측할 때 사용하는 최소 단위임.예를 들어, 다음과 같은 문장이 있다고 가정함:"오늘 날씨가 정말 좋다."이 문장을 토큰으로 나누면 다음과 같을 수 있음:"오늘", "날씨", "가", "정말", "좋", "다", "."토큰화 과정에서 단어를 부분적으로 나누는 이유는 모델이 더 작은 단위로 텍스트를 처리함으로써 더 유연하게 다양한 언어 패턴을 학습할 수 있기 때문임.2. 토큰화(Tokenization)토큰화를 통해..