[Transformer] 2. Attention Is All You Need
앞선 포스트에서는 Transformer 에 대해서 간락하게 정리했다. 여기서는 논문을 기반으로 자세하게 Transformer 에 대해 다뤄보자.
Attention is all you need (2017)
- 자연어 처리 분야 연구의 중심에는 문장과 문서를 이해하고, 이를 기반으로 머신이 인간처럼 텍스트를 처리할 수 있도록 하는 모델들이 있다. 그러나 기존의
Seq2Seq
방식은 여러 가지 문제점을 가지고 있었고, 이를 해결하기 위해 Transformer 라는 새로운 모델이 제안되었다. - 이 포스트에서는 기존 방법의 한계를 시작으로, Transformer 의 핵심 철학과 구조에 대해 깊게 알아보자.
- Transformer 의 핵심 철학을 통해 순차적 입력 대신, 한 덩어리의 입력을 받는 방법과 Self Attention 의 중요성에 대해 이해할 수 있다. 따라서 Transformer 가 어떻게 기존의 문제를 극복하고 더 나은 성능과 효율성을 제공하는지 이해할 수 있다.
- 다음으로, Transformer 의 핵심 개념들인 Self Attention(SA), Multi Head Attention(MHA), Positional Encoding, Position Wise FFNN, Residual Connection, Layer Normalization 등을 다뤄보면서 이 모델이 어떻게 구성되고 작동하는지에 대한 깊은 이해를 할 수 있다. 이러한 개념들은 Transformer 성공의 핵심이며, 이를 통해 높은 성능을 달성할 수 있다.
- 논문의 본문에서는 Transformer 의 구조, 즉 Encoder 와 Decoder 의 각 구성 요소에 대해 상세히 설명한다. 이를 통해 Transformer 의 전체적인 아키텍처와 작동 원리를 명확하게 이해할 수 있다. 이어서, Self Attention 의 중요성과 이로 인한 Transformer 의 장점을 실험 결과를 통해 확인한다.
- 다양한 작업에 대한 실험 결과를 통해 Transformer 의 뛰어난 성능을 실제로 확인할 수 있다. 이러한 성능은 Transformer 를 다양한 자연어 처리 작업에서 효과적으로 사용할 수 있게 만든다. 그러나 모든 것이 완벽하지는 않다. 따라서 마지막에 Transformer 의 장단점에 대해서도 알아보자.
기존 방법의 문제점
- 기존 Time Series 입력 데이터를 다루는 대표적인 방법은 RNN 과 LSTM 이었다. 이 두 모델은 아래 그림과 같이 입력값을 순차적으로 받는다.
댓글 남기기