728x90
반응형
Catastrophic forgetting (파괴적 망각)
- 파괴적 망각이란 사전 학습을 마친 모델이 추가 학습을 진행할 때 이전의 지식을 잃어버리는 현상을 말합니다.
- 즉, Task A를 학습한 모델이 Task B를 학습하면 Task A에 대한 해결 능력이 저하하는 것입니다.
- 모델을 fine-tuning(미세조정)하는 과정에서 자주 일어나는 문제점이며 수많은 방안이 나와있지만 현재도 논문은 지속적으로 제시되고 있습니다.
Task A를 학습시키고 Task B를 학습시키면 본래 우리가 원하던 결말은 Task A, Task B에 대한 지식을 모두 가지고 있는 것입니다. 하지만 Task B 학습 시 이전의 가중치가 과도하게 Task B에 집중되어 Task A에 대한 상당 부분의 지식을 잃게 될 수 있습니다. 이를 해결하기 위한 대표적인 기법들을 요약하자면 아래와 같습니다.
Regularization-based Learning
- 일정 가중치에 제약을 걸어 이전 지식을 잃지 않게 하는 방식입니다.
- 간단하게 말하면 Task A와 Task B의 타협점을 찾는 방식입니다.
- 대표적으로 EWC 기법이 있으며 이는 이전 데이터와 새로운 데이터의 유사도를 판단하여 중요도를 판별합니다. 중요도가 낮을 경우 가중치 제약으로 이어집니다.
Regularization-based 관련 논문은 아래 포스팅을 참고하세요!
https://chlduswns99.tistory.com/52
[논문 리뷰] Overcoming catastrophic forgetting in neural networks
https://www.pnas.org/doi/pdf/10.1073/pnas.1611835114 본 논문은 Catastrophic forgetting(파괴적 망각)에 대한 해결 방안을 제시하고 있습니다. 파괴적 망각에 대한 글은 아래의 제 이전 포스팅을 먼저 읽어주시면
chlduswns99.tistory.com
Replay-based Learning
- 모델이 이전에 학습한 데이터를 추가 학습 시 잊지 않도록 재학습 시키는 방식입니다.
- Task A를 학습시킨 모델에 Task B를 학습시킬 때 Task A+B를 학습하게 되는 것입니다.
- 크게 두가지 방식으로 나뉘며 아래와 같습니다.
- Memory-Replay-based: 별도의 메모리 공간에 이전 학습 데이터를 저장하고 이를 이용하여 추가 학습 시 같이 학습합니다.
- Generative-Replay-based: 별도의 메모리 공간 대신 GAN과 같은 생성형 모델을 이용하여 이전 학습 데이터를 생성합니다. 마찬가지로 이 데이터를 추가 학습 시 같이 학습합니다. 메모리 공간을 요구하지 않는 장점이 있습니다.
Architecture-based Learning
- 앞서 설명한 방식들을 이용하지만 동적으로 Architecture가 변한다는 점에서 차이가 있습니다.
- 여러 방식으로 가중치를 조절한 뒤 효율적인 구조를 위해 변화가 필요하다면 네트워크 구조를 변형합니다.
현재까지도 여러 기법들이 제시되고 있도 기법들을 융합한 hybrid 방식 또한 존재합니다. Catastrophic forgetting은 분야를 막론하고 전반적인 신경망 모델에서 발생하는 문제이고 직접적인 성능 저하를 일으키는 아주 악랄한 놈입니다...(저도 실제 문제를 겪고 관심을 갖게 되었습니다.)
다음에는 각 기법들에 대한 대표적 논문들을 분석해볼 예정이니 참고해주시면 좋을 것 같습니다!
728x90
반응형
'AI지식' 카테고리의 다른 글
AI(인공지능), ML(머신러닝), DL(딥러닝)의 차이 (2) | 2024.10.12 |
---|