multi-head attention (1) 썸네일형 리스트형 Lec 9) Self-Attention & Transformers 지난 강의에 이어 ○NLP에서의 재귀(recurrent) 모델 2016년을 전후로, NLP의 사실상의 전략은 다음과 같다. 이번 시간에는 색다른 것을 배운다기보다 모델에서 최적의 building blocks가 뭔지 찾아볼 것이다. ○ RNNs의 문제: 선형 상호작용 거리 (Linear interaction distance) RNNs은 "왼쪽에서 오른쪽으로" 전개되며 이는 선형 인접성을 인코딩한다 그러나 문제는 RNNs이 거리가 떨어진 단어간 상호작용하려면 O(시퀀스 길이) step이 필요하다 먼 거리 의존성은 기울기 소실 문제 때문에 제대로 학습하기 어렵다. 단어의 선형 순서는 우리가 집어넣은 것으로 우리는 문장을 생각할 때 순서대로 보지 않는다. ○ RNNs의 문제: 병렬화의 부재 앞 혹은 뒤로의 흐름.. 이전 1 다음