본문 바로가기
최신IT 정보/IT 개발정보

초거대 AI 기술 공부하기: Prompt Paper

by cool21th 2023. 5. 19.
728x90

초거대 AI는 2017년 Google에서 발표한. Transformer 알고리즘에 시작되었습니다. 알고리즘의 핵심 학습방법은 다음 단어를 예측하는 것과, 다음문장을 예측하는 것입니다.

Transformer 알고리즘 설명

Transformer는 자연어처리(NLP)분야에서 최근 가장 큰 획기적인 발전 중 하나로 꼽히고 있는 모델 아키텍처입니다. 모델은 입력 문장 내에서의 단어들 간의 관계를 계산하여 문장 전체의 임베딩을 생성합니다. Transformer 모델은 기존의 시퀀셜 한모델 구조에서 벗어나, 입력 시퀀스출력 시퀀스를 동시에 다루는 "Encoder-Decoder" 구조를 사용합니다. 이 구조에서 Encoder는 입력 시퀀스를 받아 이를 임베딩하고, 출력 시퀀스를 생성하는 Decoder는 앞서 생성된 입력 시퀀스의 임베딩 정보를 함께 활용합니다.

Transformer의 가장 큰 특징은 Attention(어텐션) 메커니즘을 이용한다는 점입니다. 어텐션 메커니즘은 입력 시퀀스 내의 모든 위치를 동시에 고려하여 각 위치의 중요도를 계산한 벡터를 생성합니다. 이러한 어텐션을 여러 개 쌓아올려, 입력 시퀀스와 출력 시퀀스 간의 상관관계를 처리하는 모델이 바로 Transformer 입니다. 특히, Transformer에서는 멀티헤드 어텐션을 사용했습니다.

 

멀티 헤드 어텐션(Multi-head Attention)은 Transformer 모델에서 사용되는 어텐션 메커니즘 중 하나입니다. Transformer 모델에서 각종 자연어 처리 작업에 대해 다양한 인코더(encoder) 아키텍처를 사용하는데, 멀티 헤드 어텐션은 이러한 인코더 중 하나로 사용됩니다.
멀티 헤드 어텐션은 기존 어텐션과 비슷하지만, 여러 개의 어텐션 헤드를 사용해 입력 시퀀스 간 상관관계를 계산합니다. 특정 인코딩 과정에서 입력 시퀀스의 구조, 패턴, 패러다임 등에서 적합한 상관 관계를 찾는 것이 매우 중요하며, 멀티헤드 어텐션은 이를 위해 개발되었습니다. 이를 톱니바퀴와 같은 구조로 생각할 수 있습니다. Transformer 모델의 멀티 헤드 어텐션은 먼저 입력 시퀀스를 여러 개의 헤드로 나눈 후, 각 헤드에서 어텐션 계산을 수행합니다. 어텐션 연산을 헤드 내부에서 수행하면서 서로 다른 관점에서 입력 시퀀스를 인코딩하고, 이를 통해 모델은 입력 시퀀스 간 부분적인 차이나 패턴을 파악할 수 있습니다. 이러한 멀티 헤드 어텐션을 통해 Transformer 모델은 입력 시퀀스 간의 좀 더 다양한 상관관계를 파악하고, 이를 기반으로 자연어 처리 작업을 수행합니다.

 

Transformer 모델은 RNN과 같은 순환 모델이 아닌, 어텐션 메커니즘을 사용하여 입력 시퀀스 내의 단어들 간의 상관관계를 계산하므로, 입력 문장의 길이에 대한 제약이 적어지고 높은 성능을 발휘합니다. 이로 인해 Transformer 기반 모델은 다양한 자연어 처리 작업에서 좋은 성능을 보여주고 있습니다.

BERT 알고리즘

BERT는 "Bidirectional Encoder Representations from Transformers"의 약자로, 구글에서 개발한 자연어 처리 알고리즘입니다. BERT 모델은 Transformer 아키텍처를 기반으로 하면서, 두 가지 형태의 사전학습 방법을 사용합니다.

하나는 "Masked Language Modeling(MLM)"이라는 방법으로, 문장에서 임의의 토큰을 마스킹한 후, 이를 모델에 입력하고, 마스킹한 위치의 단어를 예측하는 방법입니다. 다른 하나는 "Next Sentence Prediction (NSP)"이라는 방법으로, 두 문장을 입력으로 넣고, 이 두 문장이 이어지는 문장인지 아니면 무작위로 선택된 두 문장인지 예측하는 방법입니다.
BERT 모델은 이러한 방법으로 사전학습을 수행하며, 그 결과 학습된 모델은 자연어 처리의 다양한 태스크에서 좋은 성능을 내고 있습니다. 이를 "fine-tuning"을 통해 다양한 자연어 처리 태스크에 적용할 수 있습니다.

 

GPT 알고리즘

GPT는 "Generative Pre-trained Transformer"의 약자로, OpenAI에서 개발한 언어 생성 모델입니다. GPT 모델은 Transformer 아키텍처를 기반으로 하며, 대규모 데이터셋에서의 사전 학습 결과를 fine-tuning을 통해 다양한 자연어 처리 태스크에 적용할 수 있습니다. GPT 모델에서는 unsupervised learning 방법인 언어 모델 학습에 집중합니다.
GPT 모델은 BERT와 같이 사전학습된 모델로, 사전학습 단계에서 대량의 언어 데이터를 학습하며, 이를 통해 얻은 임베딩 벡터를 이용하여 다양한 자연어 처리 작업을 수행할 수 있습니다. 이 모델은 기본적으로 입력된 문장 다음에 나올 단어를 예측하는 언어 모델입니다. GPT 모델은 임베딩 단계에서 언어의 문맥 정보를 반영하는 방법을 적용하고 있습니다. 또한, GPT 모델은 문장의 끝까지 왔을 때 문맥 전체를 이용해 출력 단어를 예측하는 Autoregressive 한 방식을 적용하여, 자연스러운 문장 생성을 구현합니다.
GPT 모델의 딥러닝 학습 및 적용 분야는 매우 다양합니다. 최근에는 자동 생성된 기사, 대화 모델, 질문답변 모델, 감성 분석 등 다양한 NLP 분야에서 인간의 문장을 흉내내는 성능을 보이며 매우 큰 인기를 끌고 있습니다.

 

Prompt Learning

그중에서 Masking 된 다음단어를 예측하는 학습방법이 지금과 같이 초거대 AI 언어모델을 만들게 되었습니다.

현재는. Finetuning 하는 태스크기반의 학습방법보다는, 적절한 샘플 입력으로 모델로부터 원하는 결과를 얻는 형태로 발전되었습니다.

그것이 바로 현재. ChatGPT에서도 사용하고 있는 핵심 방법중에 하나인 Prompt learning을 활용한 방법입니다.

 

Finetuning을 하면, 처음 만들어진 모델자체를 변형해야 하기 때문에 도메인별, 태스크 별로 모델을 개별 생성하고, 관리해야 하는 어려움이 있지만, Prompt learning은 처음 만들어진 모델의 성능을 믿고 모델을 크게 건들지 않는다는 것이 장점입니다.

 

아래 링크는 중국 칭화대의 github 자료로서 초거대AI 모델에서 prompt에 대한 연구진행사항을 보실 수 있습니다.

https://github.com/thunlp/PromptPapers

 

GitHub - thunlp/PromptPapers: Must-read papers on prompt-based tuning for pre-trained language models.

Must-read papers on prompt-based tuning for pre-trained language models. - GitHub - thunlp/PromptPapers: Must-read papers on prompt-based tuning for pre-trained language models.

github.com

이번 기회에 Prompt에 대해 잘 이해하는 시간을 가지길 바랍니다.

 

2023.05.19 - [최신IT 정보/IT 개발정보] - 초거대 AI 프롬프트 배우기 좋은 사이트 소개

 

초거대 AI 프롬프트 배우기 좋은 사이트 소개

최근 ChatGPT를 필두로 인공지능 기술 중 가장 주목받고 있는 분야는 단연 '초거대 AI'입니다. 구글, 페이스북 등 글로벌 IT 기업들이 앞다투어 개발하고 있는 이 기술은 대용량의 데이터셋에서 사

cool21th.com

2023.07.08 - [최신IT 정보/IT 개발정보] - 생성AI 학습 방법 설명 및 Prompting의 패러다임 변화 (23년 상반기 기준)

 

생성AI 학습 방법 설명 및 Prompting의 패러다임 변화 (23년 상반기 기준)

OpenAI의 ChatGPT 출시 이후, 많은 사람들이 프롬프트에 대해 알게 되었고, 공부하고 있습니다. 대부분의 사람들이 ChatGPT에 입력하는 프롬프트는 사실 초거대 AI 또는 생성 AI의 학습의 결과물입니다.

cool21th.com

 

반응형