[ AI ] 언어모델

2023. 12. 26. 23:28기술정보

 openAI의 chatGPT-3.0이 출시되고 현재 4.0 모델에 이르면서

 

AI가 급속도로 발전하고 있다는 것이 느껴지고있다.

 

그래서 chatGPT의 기반인 언어모델에대해 알아보겠다.

 


1. 언어모델 ( Language Model : LM )

: 인간의 언어를 이해하고 생성하도록 훈련된 일종의 AI 모델

 

유형 :

 - SLM ( Small Language Model ) 

    > 제한된 양의 text 데이터 학습

    > 가볍고 빠름

 

 -  NLM ( Neural Language Model )

    > 기존 통계 기반 언어모델보다 정확함

    > 다양한 NLP 작업 수행

 

 -  PLM ( Pretrained Language Model )

    > 대규모 데이터셋으로 미리 학습

    > 다양한 NLP작업에 전이학습 통해 적용

    > ex) BERT, GPT 

 


2. 거대언어모델 ( Large Language Model : LLM )

 : 대용량 언어모델(LM)

    -  문장 구조, 문법, 의미 등을 이해하고 생성

    -  딥러닝 알고리즘과 통계 모델링을 통해 자연어 처리* 작업을 수행

 

    -  종류 : 

           > (1) GPT ( Generate Pre-trained Transformer)

           > (2) BERT ( Bidirectional Encoder Representaions from Transformers )

 

    -  차이점 : 

          > GPT : transformer 신경망 중 디코더만 쓰기 때문에 문맥파악 보다는 문장 생성 쪽에 특화된 모델

          > BERT : transformer 신경망 중 인코더만 쓰기 때문에 문장생성 보다는 문맥 파악 쪽에 특화된 모델 

 

    -  정교한 LLM 개발에 필요한 것 :

          > 대용량 훈련데이터 + 큰 모델 아키텍쳐

 

    -  작동원리 :

          > (1) 기계 학습 알고리즘에 텍스트 데이터 입력

          > (2) 토큰화 ( 전처리 과정 중 하나 )

          > (3) BERT, GPT 등의 LLM 모델에 학습

 

    -  주요 용어 설명 :

          > 단어 임베딩

                -  단어들을 고차원 벡터로 표현하여 각 단어간의 유사성과 관계를 캡처하는 기술

 

          > 주의 메커니즘

                - 입력 시퀀스의 다양한 부분에 가중치를 부여해서 모델이 중요한 정보에 집중할 수 있게 하는 기술

 

          > 트랜스포머

                - 주의 메커니즘을 기반으로 한 인코더와 디코더 구조의 신경망 모델

                - 길이가 다른 시퀀스를 처리하는 데 탁월한 성능

 

          > Fine-tuning LLMs 

                - 사전 학습된 대규모 언어 모델을 특정작업에 적용하기 위해 추가 학습하는 과정

 

          > Prompt engineering

                - 모델에 입력하는 질문이나 명령을 구조화하여 모델의 성능을 향상시키는 과정

 

          > Bias (편향) 

               -  모델이 학습 데이터의 분포형이나 잘못된 패턴을 포착해 현실과 일치하지 않는 결과를 내놓는 결과

 

          > 전이학습 ( Transfer Learning )

               - 한 작업을 위해 학습된 모델을 다른 관련 작업에 적용하는 방식

               - 이미 만들어진 아키텍처와 새로 계산한 가중치를 사용해 머신러닝 모델을 훨씬 효율적으로 교육하는 것

               -  AI프로젝트에 대한 초기 투자비용을 낮출 수 있음


3. 자연어 처리 ( Natural Language Process : NLP)

 : 컴퓨터가 자연어 텍스트를 이해하고 분석하는 기술

 

 - 용도 :

    > (1) 문장 구문 분석

    > (2) 텍스트 분류 

    > (3) 감정 분석 

    > (4) 질의응답 시스템  .... 등

 

-  NLP는 LM의 상위 개념이라 생각하면 된다. LM은 NLP를 하기위한 도구이다.

 즉, NLP > LM > LLM

 

    

'기술정보' 카테고리의 다른 글

[클라우드 네이티브] 개념 정리  (1) 2024.02.13
[ Docker ] Docker Container vs Virtual Machine  (1) 2024.01.31
[ AI ] 머신러닝 vs 딥러닝  (0) 2023.12.26
[ JWT ] JWT를 활용한 로그인  (0) 2023.11.27
블록체인  (0) 2023.06.05