[TIL] 2024-10-12 (Network/AWS/ADsP/LangChain)TIL (2024)/2024.102024. 10. 22. 01:38
Table of Contents
728x90
Today I Learned (2024-10-21)
목차
오늘 공부한 내용
1. KDT (Network/AWS)
서버와 클라이언트
서버: 클라이언트가 요청을 보내면 데이터를 처리하고 응답하는 역할.
- 웹 서버, 애플리케이션 서버, 데이터베이스 서버로 구분됨.
- 클라이언트가 사용 중인 기기나 프로그램에서 요청을 서버에 보내면 서버는 이에 응답함.
클라이언트: 서비스를 요청하는 주체.
- 클라이언트는 사용자가 사용하는 프로그램(브라우저, 모바일 앱 등)에서 서버로 요청을 보냄.
네트워크 기본 개념
LAN: Local Area Network, 근거리 네트워크로 작은 범위 내에서 기기들을 연결.
WAN: Wide Area Network, 광범위한 영역을 연결하는 네트워크.
Router: 데이터의 흐름을 안내해주는 장치.
Gateway: 네트워크의 경계를 넘어 다른 네트워크로의 통신을 돕는 장치.
IP Address: 인터넷 상에서 각 기기를 구분하기 위한 주소 체계.
- IPv4는 3자리 숫자가 4번 나오는 형식(192.168.0.1).
- 사설 IP는 외부 통신에 직접 사용되지 않으며, NAT를 통해 공용 IP로 변환됨.
클라우드 컴퓨팅 개요
온프레미스: 자체 서버를 직접 보유하고 운영하는 방식. 물리적 서버가 존재.
- 높은 초기 비용, 유연성 부족, 운영 및 유지보수 부담이 있음.
클라우드: 인터넷을 통해 필요한 만큼의 IT 자원을 사용하고 비용을 지불하는 방식.
- 비용 효율적, 유연성과 확장성이 높음, 운영이 간소화됨.
클라우드 서비스의 종류
- IaaS: 인프라를 제공하는 서비스(Infrastructure as a Service).
- PaaS: 플랫폼을 제공하는 서비스(Platform as a Service).
- SaaS: 소프트웨어를 제공하는 서비스(Software as a Service).
AWS 기초 - IAM (Identity and Access Management)
- IAM: AWS 서비스 및 리소스에 대한 액세스를 관리하는 시스템.
- AWS 사용자와 그룹 단위로 액세스 권한을 관리.
- 정책(Policy): JSON 형식으로 권한을 정의하는 객체.
- 역할(Role): 사용자나 리소스에 할당되며 최소 권한의 원칙을 따름.
2. ADsP
- 문제풀기
3. LangChain
LangChain 이란
- 대규모 언어 모델(LLMs)로 구동되는 애플리케이션을 개발하기 위한 프레임워크이다.
RAG(Retrieval-Augmented Generation) - 검색, 증강, 생성
- 최신 정보를 기반으로 답변할 수 있다. 정보를 찾을 수 없는 경우 “검색” 기능을 활용하여 답변할 수 있다.
- 나(개인) 혹은 회사에 제한되어 있는 내부데이터를 참고하여 답변할 수 있다.
- 문서의 내부 DB에 저장할 수 있고, DB에 축적해 나갈 수 있다. 저장된 DB에서 원하는 정보를 검색하여 검색된 정보를 바탕으로 답변할 수 있다.
- 답변에 대한 출처를 역으로 저장되어 있는 DB 에서 검색 후 검증하는 방식으로 할루시네이션 현상을 줄일 수 있다.
즉, 궁극적으로 더 나은 답변 품질을 기대할 수 있으며, 방대한 지식 기반으로 답변하는 도메인 특화 챗봇을 생성하는 것이 가능하다.
토큰(Token)
- 토큰(Token)은 자연어 처리(NLP)에서 텍스트를 작은 단위로 나누어 처리하기 위해 사용되는 기본 단위이다.
- 단어, 부분 단어, 문자 등이 토근이 될 수 있다.
- LLM대형 언어 모델에서 토큰은 텍스트 데이터를 모델이 이해하고 처리하기 위해 분할된 기본 단위입니다.
- 텍스트를 토큰으로 나누는 과정을 토큰화 라고 한다.
- 종류
- 문자 기반 토큰화 : 텍스트를 문자 단위로 나누는 방법
- 효율적이지 못하다. -> 문자 단위로 쪼개기 때문에 비용과 시간이 많이 든다.
- 틀릴 확률이 높다.
- 문자 단위로 쪼개면 유추하기 힘들어진다.
- 단어 기반 토큰화 : 텍스트를 단어 단위로 나누는 방법
- 문자 기반 토큰화보다는 틀릴 확률이 적지만, 단어 사전을 만들어서 예측을 해야한다.
- 하나의 단어에서 나올 수 있는 모든 형태에 대한 정보를 가지고 있어야 한다.
- 서브워드 기반 토큰화 : 단어를 더 작은 단위(서브워드)로 나누는 방법
- 빈도수를 계산한다.
- 자주 사용되는 서브워드를 기준으로 분할한다.
- 문자 기반 토큰화 : 텍스트를 문자 단위로 나누는 방법
토큰의 중요성
- 문맥 이해 : 모델이 문맥을 이해하고 적절하게 응답할 수 있게 도와준다.
- 효율성 : 적절한 크기의 토큰을 사용함으로써 연산 자원을 효율적으로 사용할 수 있다.
- 토큰은 모델이 텍스트를 이해하고 처리하는데 핵심적인 역할을 한다.
- 토큰화의 결과에 따라 모델의 성능이 크게 영향을 받을 수 있다.
- 잘 정의된 토큰화 방법을 사용하면 모델이 텍스트의 의미를 더 정확하게 파악할 수 있다.
어려웠던 내용
- 네트워크
궁금한 내용과 부족한 내용
- 네트워크
느낀 점
- 네트워크는 잘 모르는 부분이라 쉬운 내용이였어도 잘 외워지지 않았다.
'TIL (2024) > 2024.10' 카테고리의 다른 글
[TIL] 2024-10-23 (AWS/LangChain/ADsP) (0) | 2024.10.24 |
---|---|
[TIL] 2024-10-22 (AWS/ADsP/LangChain) (3) | 2024.10.23 |
[TIL] 2024-10-20 (ADsP) (0) | 2024.10.21 |
[TIL] 2024-10-19 (ADsP) (0) | 2024.10.21 |
[TIL] 2024-10-18 (AWS/ADsP/SQLD) (0) | 2024.10.19 |
@mane Lab :: 마네의 연구소
배움에 즐거움을 느끼는 마네의 연구소입니다. 이미지 출처 : https://www.instagram.com/hoseobiiiiiii._.0410/
포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!