- 강의 목록
-RNN 첫걸음
-Sequential Models - RNN
-Sequential Models - Transformer
- 요약
강의
이전의 CNN까지는 Sequential data를 다룰 수 없었다.
오늘의 강의에서는 Sequential data를 다루는 여러가지 모델에 대한 설명과, 그 활용법을 익혔다.
피어세션
어제의 학습을 복습하는 시간을 가졌고, 분류에 관한 각종 알고리즘 (랜덤 포레스트, 결정 트리 등)에 대해 학습했다.
- 학습정리
Sequential data (시퀀스 데이터)
- 독립동등분포 조건을 만족하지 않는 순차적 데이터
- 순서를 바꾸거나 과거 정보에 손실이 발생하게 되면 확률 분포도 변경되는 데이터
- 소리, 문자열, 주가, 동영상 등이 있다.
- 이벤트의 발생 순서가 중요한 요소이다.
- 과거 정보 또는 앞 뒤 맥락 없이는 예측이 불가능하다.
*시계열 데이터는 시간 순서에 따라 나열된 데이터로, 시퀀스 데이터에 속한다.
시퀀스 데이터를 다루는 법
1) 조건부 확률
- 조건부확률을 통해 이전 시퀀스의 정보로 앞으로 발생할 데이터의 확률분포를 다룰 수 있다.
- 단, 시퀀스 데이터를 분석할 때 모든 정보가 필요하지는 않다.
- 또한 조건부에 들어가는 데이터는 가변적일 수 있다.
- 그래서 시퀀스 데이터를 다루기 위해선 길이가 가변적인 데이터를 다룰 수 있는 모델이 필요하다.
2) AR 모델 (Autoregressive Model)
- 고정된 길이 t 만큼의 시퀀스만 사용하는 경우 AR 자기회귀 모델이라 부른다.
- 직전 정보를 제외한 나머지 정보들을 H라는 잠재변수로 인코딩해서 활용한다.
- 즉, 직전의 정보와 그 이전의 정보를 따로 묶어 모델을 만든다.
- 해당 방식 사용 시 가변적인 길이의 입력값을 고정된 길이의 시퀀스 데이터로 다룰 수 있고, 과거의 모든 데이터를 활용해 예측할 수 있다.
- 그러나 잠재변수 H를 어떻게 인코딩 할 것인가가 문제였다.
- 이를 해결해 잠재변수 H를 신경망을 통해 반복 사용해 시퀀스 데이터의 패턴을 학습하는 모델을 RNN이라 한다.
RNN
- 가장 기본적인 RNN 모형은 MLP와 유사한 모형이다.
- RNN은 이전 순서의 잠재변수와 현재의 입력을 활용하여 모델링한다.
- H를 계산할 때 새로운 가중치 행렬이 등장한다. 입력으로부터 전달되는 Wx 가중치 행렬과, 이전 잠재 변수로부터 전달받아 만든 Wh 행렬을 만든다.
- t 번째 잠재변수는 현재 들어온 입력 벡터인 Xt와 이전 시점의 잠재변수인 Ht1을 만들어내고, 이를 이용해 현재 시점의 Ot를 만들고, 이 잠재변수를 O(t+1)에 이용한다.
- 잠재변수인 H를 복제해 다음 순서의 잠재변수를 인코딩하는데 사용한다.
- RNN의 역전파는 잠재변수의 연결 그래프에 따라 순차적으로 계산하는데, 이를 Backpropagation Through Time (BPTT)라고 한다.
Backpropagation Through Time (BPTT)
- RNN의 역전파는 잠재변수의 연결 그래프에 따라 순차적으로 계산
- 다음 시점인 t+1 에 들어오는 경사도와 출력에서 들어오는 경사도를 입력과 그 이전의 잠재변수로 전달하고 이를 통해 학습이 이루어진다.
- BPTT를 통해 각 가중치 행렬을 미분하면 위의 PRODUCT TERM에서 I+1부터 t 시점까지 모든 잠재변수의 미분값이 곱해진다.
- 이 때 시퀀스의 길이가 길어지면 곱해지는 term들이 불안정해진다. 미분값이 1보다 크면 발산하고, 작으면 수렴한다. (경사도 손실, 발산)
- 그래서 관찰된 모든 데이터를 고려하는 것보다, 너무 길어지지 않게 하는 것이 중요하다.
Truncated BPTT
- 시퀀스 길이가 길어지는 경우 BPTT를 통한 역전파 알고리즘의 계산이 불안정해져 길이를 끊어야 한다. 이를 Truncated BPTT라 한다.
Sequential Model
- 입력의 차원을 알 수 없는 Sequential Data들이 모델에 들어올 때, 모델은 입력의 개수에 관계없이 동작해야 한다.
- 기존의 MLP, CNN 등의 모델은 고정적인 차원을 가지지 않는 Sequential data의 처리가 어렵다.
Naive Sequential model
- 가장 간단한 시퀀스 모델. 이전의 데이터들을 받아 다음의 데이터를 예측한다.
- 입력값의 길이가 가변적이기 때문에 일반화가 어렵다.
- 시간이 지날수록 고려해야 하는 과거의 정보가 점점 늘어난다.
Autoregressive model
- 참조하려는 과거의 데이터를 제한해 차원을 고정시키는 방법
- AR-n 모델은 과거 n개의 시점까지만 고려하는 모델이다.
- 현재는 과거 n개의 step에만 dependent 하다고 가정하는 것이다.
Markov Model (first-order autoregressive model)
- Markovian assumption을 따르는 모델.
- 현실적으로 매우 많은 정보의 손실이 일어나지만, 결합 분포를 매우 간단히 표현할 수 있다.
*Markovian assupmption : 현재는 바로 직전의 과거에만 영향을 받는다.
Latent autoregressive model
- Markov model의 단점인, 과거의 정보를 너무 많이 잃어버리는 상황을 극복
- Latent AR 모델은 중간에 Hidden state(h),가 과거의 정보를 요약하여 담고 있다.
- 겉으로 보기에는 하나의 과거 상태 h(t)에만 의존하지만, 여기서 어떻게 latent state을 만드느냐에 따라 많은 종류로 나뉜다.
Recurrent Neural Networks (RNN)
- 구조 자체는 MLP와 유사하나, 자기 자신에게 돌아오는 구조가 추가되었다.
- t 시간에서의 hidden state ht는 xt에만 의존하는 것이 아니라, 그 이전의 hidden state ht-1에도 의존한다는 것이 요지이다.
- RNN을 시간순으로 풀어 표현하면, 중간의 가중치를 공유하고 입력이 굉장히 많은 완전 연결층의 형태로 표현할 수 있다.
- 하지만 RNN은 Long-term dependency가 어렵다.
Long short term memoty (LSTM)
- RNN의 Long-term dependency 문제를 극복한 모델이다.
- LSTM은 3개의 게이트를 통해 경사도 손실 문제를 방지하고 경사도가 효과적으로 흐르게 한다.
- Forget gate : 과거 정보를 잊기 위한 게이트로, sigmoid 결과가 0이면 버린다.
- input gate : 현재 정보를 업데이트하기 위한 게이트이다. sigmoid와 tanh 결과로 음수가 출력될 수 있다.
- outpuy gate : 최종 결과 h(t)를 위한 게이트
Gated Recurrent Unit (GRU)
- Reset gate, update gate로 구성된다.
- LSTM을 간소화한 것으로, cell state를 없애고 hidden state로 역할을 수행한다.
- LSTM보다 GRU가 파라미터 수가 적기에 성능을 더 좋게 내기도 한다.
Transformer
- RNN의 재귀적인 구조를 사용하지 않는다.
- attention이라는 구조에 기반을 둔 모델이다.
- 입력과 출력 데이터의 길이가 다를 수 있다. (CNN/RNN 은 동일했음)
- 입력과 출력의 차원(도메인)이 다를 수 있다.
*주변 입력값에 따라 출력값이 변경되므로 훨씬 많은 것을 표현할 수 있다.
*다만 그만큼 연산이 길어진다. RNN의 경우는 길이가 아무리 길어도 입력이 한 개씩 들어오기에 시간만 있으면 학습이 가능. 그런데 트랜스포머는 한 번에 모든 단어를 넣어 공간복잡도가 O(n^2)으로 매우 긴 길이의 시퀀스에 대해서는 computational bottleneck 현상이 발생한다.
Transformer 구조
- Transformer는 크게 보면 같은 갯수로 stack된 인코딩 파트와 디코딩 파트로 나눌 수 있다.
- RNN 모델은 단어를 시간에 따라 하나씩 넣었지만, Transformer는 단어 시퀀스를 한 번에 받는다.
- 인코딩 파트 : 들어온 단어 시퀀스에서 특징 추출
- 디코딩 파트 : 추출한 특징들로 새로운 시퀀스 표현
*결과적으로 Sequence-Sequence 모델이다.
*Stack된 각 인코더와 디코더는 동일한 구조를 가지지만, 파라미터는 다르게 학습된다. (별개의 모델)
Encoder의 구조
- 먼저 단어 시퀀스를 input으로 넣기 위해 각 단어를 특징 벡터로 표현한 Embedding Vector로 변환한다.
- Embedding vector는 self-attention층을 거쳐 새로운 벡터로 변환된다.
- 인코더와 디코더 모두 self-attention 구조가 포함된다.
- self-attention 구조는 Transformer 모델의 핵심 구조이다.
- self-attention 층에서는 입력값들이 서로 의존적이다.
- 즉, z1을 도출하는 데 x1 뿐 아니라 x2, x3의 정보도 함께 활용한다.
Encoder의 동작
- 각 임베딩 벡터를 각각의 가중치와 곱하여 Query vector, key vector, value vector를 뽑는다.
- 한 임베딩 벡터 당 세 개의 벡터가 나온다.
- 참고로 모든 단어에서 각 벡터를 뽑아내기 위한 행렬이 똑같다.
- 작동 과정은 다음과 같다.
- 쿼리 벡터와 벨류 벡터를 이용해 score를 계산한다.
- 그 벡터의 쿼리 벡터를 n개 임베딩 벡터의 키 벡터에 각각 내적해 값을 구한다.
- 두 임베딩 단어 간 유사도를 구할 수 있는데, 내적 값이 클수록 유사도가 큼을 의미한다.
- 소프트맥스 함수를 거쳐 확률로 나타낸다. (attention weight)
- attention weight과 벨류 벡터를 곱한다.
- 벨류 벡터의 차원과 키/쿼리 벡터의 차원은 달라도 된다.
- 모든 임베딩 벡터에 대한 소프트맥스 * 밸류 값을 모두 더한 값이 출력이 된다. (weight sum)
*1에서 self-attention의 의미가 스코어링을 통해 어떤 단어를 주의깊에 보아야 하는가를 찾아내는 작업임을 알 수 있다.
Multi-headed attention
- 헤드를 여러 개 두어 하나의 임베딩 벡터에 대해 여러 개의 쿼리, 키, 밸류 벡터를 만든다.
- 원논문에서는 8개의 헤드에서 별대로 인코딩하여 8개의 인코딩 벡터를 언든다.
- 병렬처리의 이점을 가지며 여러 관점에서 연관도를 찾아내는 방법.
- 그런데 인코더는 stack 되어 있기에 input과 output의 차원이 같아야 한다.
*100차원 input이 있다면 헤드가 8개인 MH를 통과하면 800차원이 된다. 하지만 input과 output을 같게하기 위해 100차원 임베딩 벡터를 10차원 10개로 쪼개 10개 head에서 학습하면 인코딩 후 concatenation을 해 다시 100차원으로 돌아오게 한다. 이럼으로써 linear mapping을 해주지 않아도 된다.
Positional Encoding
- 위 과정에서 sequence 정보에 대한 이야기를 하지 않았다.
- sequence 정보에서 데이터의 순서에 대한 정보를 넣기 위해 Positional encoding이라는 과정을 거친다.
- 위치 정보에 일종의 bias를 넣어 더해주는 과정.
Noramalize
- ResNet의 Skip connection과 비슷한 역할을 한다.
- 역전파에 의해 positional encoding이 손실될 위험이 있어 위와 같은 처리를 한다.
- 이를 Layer Norm (Add & Normalize)라 표현한다.
Decoder
- Encoder와 구조는 거의 똑같으나, 작동 방식이 다르다.
- 작동 순서는 다음과 같다.
- 최하단의 mask attention을 수행한다. 아직 출력되지 않은 미래의 단어에 대한 attention을 적용하지 않기 위함
- 여기는 self attention으로 인코더의 출력과는 관계가 없다.
- 여기서 미래 정보들은 모두 masking out 된다.
- 다음 단에서 encoder stack의 최종 출력의 key, value 벡터와 현재 디코더에 들어온 입력 벡터를 query 벡터로 사용하는 Encoder-Decoder Attention을 수행한다.
- 최종적으로 Feed Forward를 거쳐 최종값을 벡터로 출력
- 디코더 또한 stack되어 있어 위의 과정을 반복한다.
- 매 첫단계에는 넣어줄 입력값이 없기에 일반적으로 special token을 넣어주고, 다음부터는 이전의 출력값을 입력값으로 넣는다.
- 디코더에서도 multi-headed attention과 positional encoding 사용
- 최종 레이어에서는 디코더의 출력 벡터를 학습한 단어의 갯수만큼의 차원으로 linear mapping 후 sofrmax를 통해 최종 출력 단어 예측
- 이 떄 원 핫 인코더가 아닌 라벨 인코딩을 사용해 한쪽으로 편향되는 학습을 방지한다.
- 피어세션 회의 내용
Prameter가 많으면?
1) 오버피팅이 발생할 수 있다.
2) 그라디언트 소실/폭주로 인한 학습 저하가 발생할 수 있다.
Semantic Segmentation heat map을 생성하기 위해 결과적으로 output이 1*1*c 가 아닌 w*h*c가 나와야 한다.
(w, h > 1)
- 해야할 일
'BOOSTCAMP AI TECH > 3주차_Deep Learning Basics' 카테고리의 다른 글
[BOOSTCAMP AI TECH] 15일차_Generative model (0) | 2021.02.07 |
---|---|
[BOOSTCAMP AI TECH]13일차_Convolution Neural Network (0) | 2021.02.03 |
[BOOSTCAMP AI TECH] 12일차_최적화 & CNN (0) | 2021.02.02 |
[BOOSTCAMP AI TECH] 11일차_딥러닝 기초 (0) | 2021.02.01 |