본문 바로가기

분류 전체보기

(41)
Lec 8) Attention 어텐션 (Attention) ○ Sequnce-to-sequence: 병목 문제 (the bottleneck problem) 감성 분석 문제에서는 문장 전체를 보지않고 마지막의 hidden state만으로도 좋은 성능을 낼 수 있었지만, 기계 번역 작업의 경우엔 각각의 단어가 무엇이고 그 배열이 어떤지가 중요하기 때문에 해당 방식으로 접근할 경우 encoder RNN의 마지막 hidden state에 모든 정보가 쏠리는 정보 병목 문제 (information bottleneck problem)이 발생한다. 단순히 사람이 번역을 할 경우에도 변역하면서 원문장 (source sentence)를 확인하며 어떤 단어가 어떻게 배열되어 있는지를 확인한다. 이 개념에서 시작된 것이 Attention이다. ○ 어텐션..
Lec 7) Translation, Seq2Seq 기계 번역 (Machine Translation) ○ Section 1: Pre-Neural Machine Translation 1950`s 기계 번역(Machine Translation, MT)랑 하나의 언어 x(Source language)를 또 다른 언어 y로(Targent language)로 번역하는 작업이다. x: L'homme est né libre, et partout il est dans les fers ▽ y: Man is born free, but everywhere he is in chains 개발 배경은 1950년도 냉전 시대에 미국과 소련이 서로의 통신 혹은 기밀 문서를 빠르게 번역하여 정보를 얻기 위함입니다. 이 당시는 주로 rule-based 방식으로 번역이 되었으며, 이 이후..
Lec 6) Simple and LSTM RNNs 지난 강의에 이어 ○ 단순 RNN 언어 모델 (Simple RNN Language Model) 지난 수업에서 n-gram 언어 모델의 단점을 보완하기 위해 fixed-window 신경망 언어 모델을 사용하여 희소성(sparsity) 문제와 용량 문제를 해결하였다. 이후 simple RNN을 사용하여 입력값의 크기에 의존하지 않으며 어순에 대한 고려도 가능하게 되었다. ○ RNN 언어 모델의 학습 단어들의 나열인 $x^{(1)}, x^{(2)}, ..., x^{(T)}$ 큰 말뭉치를 준비 RNN 언어 모델에 넣어 결과 확률 분포 $\hat{y}^{(t)}$을 매 timestep t마다 구한다 timestep t에서의 손실 함수(Loss function)은 예측 확률 분포 $\hat{y}^{(t)}$와 실제..
Lec5) Language Models and RNNs 이전 강의: https://enjoythehobby.tistory.com/entry/Lec-4-Dependency-Parsing Lec 4) Dependency Parsing 이전 강의: https://enjoythehobby.tistory.com/entry/Lec3-Backprop-and-Neural-Networks Lec3) Backprop and Neural Networks 이전 강의: https://enjoythehobby.tistory.com/entry/Lec-2-Neural-Classifiers Le.. enjoythehobby.tistory.com 지난 강의에 이어 ○ Neural dependency parsing 에서 행동 결정 문제점 sparse vectors (one-hot encodi..
Lec 4) Dependency Parsing 이전 강의: https://enjoythehobby.tistory.com/entry/Lec3-Backprop-and-Neural-Networks Lec3) Backprop and Neural Networks 이전 강의: https://enjoythehobby.tistory.com/entry/Lec-2-Neural-Classifiers Lec2) Neural Classifiers 이전 강의: https://enjoythehobby.tistory.com/entry/Lec1-Word-Vectors Lec1) Word Vectors Denotati.. enjoythehobby.tistory.com 언어 구조를 보는 관점 이전까지 수업에서 우리는 언어학적 관점에서 단어의 의미를 공간에 embedding하고 NER..
Lec3) Backprop and Neural Networks 이전 강의: https://enjoythehobby.tistory.com/entry/Lec-2-Neural-Classifiers Lec2) Neural Classifiers 이전 강의: https://enjoythehobby.tistory.com/entry/Lec1-Word-Vectors Lec1) Word Vectors Denotational semantics(표시적 의미론) ○ 텍스트를 분석을 위해 단어의 뜻을 어떻게 표현(represent)할 것인가? si.. enjoythehobby.tistory.com NLP 대표 작업: 개체명 인식(Named entity recognition, NER) 글에서 단어를 찾아서 분류하는 작업 (사람, 장소, 날짜) Last night, Paris Hilton wo..
특이값분해(Singular Value Decomposition, SVD) ○ Full singular value decomposition(SVD) Reference) SVD와 PCA, 그리고 잠재의미분석(LSA) Singular Value Decomposition Tutorial 직사각형 행렬 $A$는 직교성 행렬 $U$와 대각행렬 $S$그리고 직교성 행렬의 전치행렬인 $V$로 분해된다. $A_{mn}=U_{mm}S_{mn}V_{nn}^T$ 이 때 $U^{T}U=I$, $V^{T}V=I$일 때, $U$는 $AA^{T}$의 직교성 eigenvectors($m,m$ 차원), $V$는 $A^{T}A$의 직교성 eigenvecter($n,n$ 차원) $S$는 $U$또는 $V$의 eigenvalue의 제곱근을 대각행렬로 갖는다. 예시를 들어보자 $A$가 하기와 같을 때 $A = \be..
Lec2) Neural Classifiers 이전 강의: https://enjoythehobby.tistory.com/entry/Lec1-Word-Vectors Lec1) Word Vectors Denotational semantics(표시적 의미론) ○ 텍스트를 분석을 위해 단어의 뜻을 어떻게 표현(represent)할 것인가? signifier (symbol) ↔ signified (idea or thing) 표시론적 의미론에서 특정 기호(symbol)에 해.. enjoythehobby.tistory.com ○ Word2vec 복습 임의의 단어 벡터로 시작 주어진 중심단어에 대한 주변 단어 확률($P(o|c)$) 예측을 수행 전체 말뭉치(corpus)의 각 단어에 대해 반복수행 $P(o|c)=\frac{\texttt{exp}(u_{o}^{T}v..