본문 바로가기

교육

(13)
Clean your desk! Transformers for unsupervised clustering of document images Abstract 문서 분류를 위해 Clustering 을 목표로 한다 Multi-modal Transformer-based encoder : LayoutLM과 LayoutLMv2 사용 RVL-CDIP 문서, SROIE 영수증 및 machine learning 논문에 테스트 수행 텍스트가 많은 문서에 LayoutLM이 이점이 있음에도 LayoutLMv2가 항상 성능을 상회한다 [CLS] 토큰이 Clustering에 항상 최선의 representation은 아니다 1. Introduction 문서 분류를 돕기위해 unsupervised document clustering을 수행했다. 이는 문서 분류와 다르게 라벨이 필요없다. Document understanding은 본질적으로 multimodal이며 강력한..
1-2) Elementary of mathmatics 출처: https://www.edwith.org/bayesiandeeplearning/lecture/24678?isDesc=false Probability 학습 목표 Set이 정의되어 있어야 그 위에 Measure를 정의할 수 있고, Measure가 있어야 Probability를 정의할 수 있습니다. 그래서 이전 학습을 통해 Set과 Measure에 대해서 공부해보았습니다. 이제부터는 베이지안 딥러닝을 공부하기에 앞서 꼭 필요한 개념인 Probability에 대해서 구체적으로 공부해보도록 합시다. Keywords 확률(Probability) 표본공간(Sample space) 확률 시행(Random experiment) 확률 질량 함수(Probability mass function) 베이즈정리(Bayes'..
1-1) Elementary of mathmatics 출처: https://www.edwith.org/bayesiandeeplearning/lecture/24678?isDesc=false Introduction 학습 목표 이번 챕터에서는 Elementary of mathematics에 대해서 소개할 예정입니다. 베이지안 딥러닝에 대해서 구체적으로 공부하기 이전에 확률에 대해서 구체적으로 정의하고, 앞으로 자주보게 될 여러 용어에 대해서 정확하게 이해할 수 있도록 학습하려고 합니다. 본격적으로 학습하기에 앞서 어떤 내용을 배우게 될 지 간략하게 살펴보도록 해요. Keywords Set theory Measure theory Probability Random variable Random process Functional analysis Whats Wrong w..
Lec10) Transformers and Pretraining ○단어 구조와 subword 모델 단어 임베딩 단계에서 수만개의 단어로 이루어진 vocabulary를 이용해 훈련셋을 만들었다고 가정하자. 모든 테스트 때 새롭게 마주한 단어는 UNK로 매핑된다. 이러한 유한한 vocabulary 가정은 많은 언어들에서 효과적이지 못하다. 대부분의 많은 언어가 복잡한 형태 또는 단어 구조를 나타낸다. 예를 들어 Swahili어는 백여개의 동사 활용이 존재하며 각 활용은 광범위의 다양한 활용을 내포한다. 따라서 훨씬 길고 더욱 복잡한 복합어가 될수록 각 단어는 더욱 적게 등장할 것이다. Byte-pair 인코딩 알고리즘 NLP의 subword 모델링은 단어 수준 기저에 깔린 구조에 대한 추론을 위한 광범위한 방법을 포함한다. (단어 일부, 문자, 바이트) • 현대에는 단어..
Lec 9) Self-Attention & Transformers 지난 강의에 이어 ○NLP에서의 재귀(recurrent) 모델 2016년을 전후로, NLP의 사실상의 전략은 다음과 같다. 이번 시간에는 색다른 것을 배운다기보다 모델에서 최적의 building blocks가 뭔지 찾아볼 것이다. ○ RNNs의 문제: 선형 상호작용 거리 (Linear interaction distance) RNNs은 "왼쪽에서 오른쪽으로" 전개되며 이는 선형 인접성을 인코딩한다 그러나 문제는 RNNs이 거리가 떨어진 단어간 상호작용하려면 O(시퀀스 길이) step이 필요하다 먼 거리 의존성은 기울기 소실 문제 때문에 제대로 학습하기 어렵다. 단어의 선형 순서는 우리가 집어넣은 것으로 우리는 문장을 생각할 때 순서대로 보지 않는다. ○ RNNs의 문제: 병렬화의 부재 앞 혹은 뒤로의 흐름..
Lec 8) Attention 어텐션 (Attention) ○ Sequnce-to-sequence: 병목 문제 (the bottleneck problem) 감성 분석 문제에서는 문장 전체를 보지않고 마지막의 hidden state만으로도 좋은 성능을 낼 수 있었지만, 기계 번역 작업의 경우엔 각각의 단어가 무엇이고 그 배열이 어떤지가 중요하기 때문에 해당 방식으로 접근할 경우 encoder RNN의 마지막 hidden state에 모든 정보가 쏠리는 정보 병목 문제 (information bottleneck problem)이 발생한다. 단순히 사람이 번역을 할 경우에도 변역하면서 원문장 (source sentence)를 확인하며 어떤 단어가 어떻게 배열되어 있는지를 확인한다. 이 개념에서 시작된 것이 Attention이다. ○ 어텐션..
Lec 7) Translation, Seq2Seq 기계 번역 (Machine Translation) ○ Section 1: Pre-Neural Machine Translation 1950`s 기계 번역(Machine Translation, MT)랑 하나의 언어 x(Source language)를 또 다른 언어 y로(Targent language)로 번역하는 작업이다. x: L'homme est né libre, et partout il est dans les fers ▽ y: Man is born free, but everywhere he is in chains 개발 배경은 1950년도 냉전 시대에 미국과 소련이 서로의 통신 혹은 기밀 문서를 빠르게 번역하여 정보를 얻기 위함입니다. 이 당시는 주로 rule-based 방식으로 번역이 되었으며, 이 이후..
Lec 6) Simple and LSTM RNNs 지난 강의에 이어 ○ 단순 RNN 언어 모델 (Simple RNN Language Model) 지난 수업에서 n-gram 언어 모델의 단점을 보완하기 위해 fixed-window 신경망 언어 모델을 사용하여 희소성(sparsity) 문제와 용량 문제를 해결하였다. 이후 simple RNN을 사용하여 입력값의 크기에 의존하지 않으며 어순에 대한 고려도 가능하게 되었다. ○ RNN 언어 모델의 학습 단어들의 나열인 $x^{(1)}, x^{(2)}, ..., x^{(T)}$ 큰 말뭉치를 준비 RNN 언어 모델에 넣어 결과 확률 분포 $\hat{y}^{(t)}$을 매 timestep t마다 구한다 timestep t에서의 손실 함수(Loss function)은 예측 확률 분포 $\hat{y}^{(t)}$와 실제..