이번 리뷰할 논문은 GPT-3 입니다. 배경지식기존 GPT와의 차이점을 간단하게 살펴보면 GPT3는 기존의 GPT1, GPT2 모델에 비해 크기를 엄청나게 키웠습니다. GPT-1: 1.17B 파라미터GPT-2: 1.5B 파라미터GPT-3: 175B 파라미터 (무려 1759억개...)파라미터 개수를 보면 GPT-2 대비 100배 이상 증가했습니다. 또한 기존 GPT1, GPT2는 주로 Fine-Tuning을 필요로 했고 특정 도메인에 맞게 모델을 추가 학습하는 방식이었습니다. 하지만 GPT-3는 Pre-Trained된 상태에서 추가적인 학습 없이 Zero-Shot, One-Shot, Few-Shot 세팅으로도 충분한 결과를 도출할 수 있다는 것을 보여주었습니다.(Fine-Tuning은 Gradient Up..
1편에 이어 작성합니다. 아래 링크를 남겨두었으니 1편을 보고 오시는 것을 추천드립니다! https://chlduswns99.tistory.com/56 [논문리뷰]Transformer: Attention Is All You Need [1]이번 논문은 그 유명한 Transformer입니다. Transformer는 기존의 RNN, CNN 기반 모델들에서 벗어나 오직 Attention 기법만을 이용해 설계했습니다. 현재 GPT, BERT 같은 널리 쓰이는 모델의 근간이 되는 아키chlduswns99.tistory.com 이해를 돕기 위해 이미지를 다시 불러오겠습니다. 3.1. Encoder and Decoder Stacks먼저 인코더입니다.인코더의 layer는 여러개 중첩해서 사용할 수 있습니다. 본..
이번 논문은 그 유명한 Transformer입니다. Transformer는 기존의 RNN, CNN 기반 모델들에서 벗어나 오직 Attention 기법만을 이용해 설계했습니다. 현재 GPT, BERT 같은 널리 쓰이는 모델의 근간이 되는 아키텍처입니다. 또한 대부분의 언어 모델들은 Transformer를 기반으로 작동한다 해도 과언이 아닙니다. 기존의 방식들은 단어를 순차적으로 연산하는 직렬 연산으로 작동했습니다. 이러한 방식은 연산 시간이 매우 오래 걸린다는 치명적인 단점이 있습니다. 하지만 Transformer는 Attention만을 사용하여 문장 자체를 한 번에 입력하는 방식으로 병렬 연산으로 작동합니다. 이는 GPU를 효과적으로 사용할 수 있고 연산 시간 또한 획기적으로 단축되는 결과를 가져왔습니다..
이번 논문도 파괴적 망각이라 불리는 Catastrophic forgetting에 관련된 논문입니다. 이에 대한 내용은 아래 포스팅을 참고해 주세요!https://chlduswns99.tistory.com/51 Catastrophic forgetting(파괴적 망각)이란?Catastrophic forgetting (파괴적 망각)파괴적 망각이란 사전 학습을 마친 모델이 추가 학습을 진행할 때 이전의 지식을 잃어버리는 현상을 말합니다.즉, Task A를 학습한 모델이 Task B를 학습하면 Task A에chlduswns99.tistory.com Abstract & Introduction 요약 및 정리 파괴적 망각을 해결하기 위해 본 논문에서는 DGR 기법을 제안했습니다. 기존의 Replay-based 방식은 ..