2023. 12. 26. 23:28ㆍ기술정보
openAI의 chatGPT-3.0이 출시되고 현재 4.0 모델에 이르면서
AI가 급속도로 발전하고 있다는 것이 느껴지고있다.
그래서 chatGPT의 기반인 언어모델에대해 알아보겠다.
1. 언어모델 ( Language Model : LM )
: 인간의 언어를 이해하고 생성하도록 훈련된 일종의 AI 모델
유형 :
- SLM ( Small Language Model )
> 제한된 양의 text 데이터 학습
> 가볍고 빠름
- NLM ( Neural Language Model )
> 기존 통계 기반 언어모델보다 정확함
> 다양한 NLP 작업 수행
- PLM ( Pretrained Language Model )
> 대규모 데이터셋으로 미리 학습
> 다양한 NLP작업에 전이학습 통해 적용
> ex) BERT, GPT
2. 거대언어모델 ( Large Language Model : LLM )
: 대용량 언어모델(LM)
- 문장 구조, 문법, 의미 등을 이해하고 생성
- 딥러닝 알고리즘과 통계 모델링을 통해 자연어 처리* 작업을 수행
- 종류 :
> (1) GPT ( Generate Pre-trained Transformer)
> (2) BERT ( Bidirectional Encoder Representaions from Transformers )
- 차이점 :
> GPT : transformer 신경망 중 디코더만 쓰기 때문에 문맥파악 보다는 문장 생성 쪽에 특화된 모델
> BERT : transformer 신경망 중 인코더만 쓰기 때문에 문장생성 보다는 문맥 파악 쪽에 특화된 모델
- 정교한 LLM 개발에 필요한 것 :
> 대용량 훈련데이터 + 큰 모델 아키텍쳐
- 작동원리 :
> (1) 기계 학습 알고리즘에 텍스트 데이터 입력
> (2) 토큰화 ( 전처리 과정 중 하나 )
> (3) BERT, GPT 등의 LLM 모델에 학습
- 주요 용어 설명 :
> 단어 임베딩
- 단어들을 고차원 벡터로 표현하여 각 단어간의 유사성과 관계를 캡처하는 기술
> 주의 메커니즘
- 입력 시퀀스의 다양한 부분에 가중치를 부여해서 모델이 중요한 정보에 집중할 수 있게 하는 기술
> 트랜스포머
- 주의 메커니즘을 기반으로 한 인코더와 디코더 구조의 신경망 모델
- 길이가 다른 시퀀스를 처리하는 데 탁월한 성능
> Fine-tuning LLMs
- 사전 학습된 대규모 언어 모델을 특정작업에 적용하기 위해 추가 학습하는 과정
> Prompt engineering
- 모델에 입력하는 질문이나 명령을 구조화하여 모델의 성능을 향상시키는 과정
> Bias (편향)
- 모델이 학습 데이터의 분포형이나 잘못된 패턴을 포착해 현실과 일치하지 않는 결과를 내놓는 결과
> 전이학습 ( Transfer Learning )
- 한 작업을 위해 학습된 모델을 다른 관련 작업에 적용하는 방식
- 이미 만들어진 아키텍처와 새로 계산한 가중치를 사용해 머신러닝 모델을 훨씬 효율적으로 교육하는 것
- AI프로젝트에 대한 초기 투자비용을 낮출 수 있음
3. 자연어 처리 ( Natural Language Process : NLP)
: 컴퓨터가 자연어 텍스트를 이해하고 분석하는 기술
- 용도 :
> (1) 문장 구문 분석
> (2) 텍스트 분류
> (3) 감정 분석
> (4) 질의응답 시스템 .... 등
- NLP는 LM의 상위 개념이라 생각하면 된다. LM은 NLP를 하기위한 도구이다.
즉, NLP > LM > LLM
'기술정보' 카테고리의 다른 글
[클라우드 네이티브] 개념 정리 (1) | 2024.02.13 |
---|---|
[ Docker ] Docker Container vs Virtual Machine (1) | 2024.01.31 |
[ AI ] 머신러닝 vs 딥러닝 (0) | 2023.12.26 |
[ JWT ] JWT를 활용한 로그인 (0) | 2023.11.27 |
블록체인 (0) | 2023.06.05 |