본문 바로가기

transformer

(4)
PatentNet: multi‑label classification of patent documents using deep learning based language understanding Abstract 특허 문서 분류는 multi-label classification을 많은 labels에 대해 수행하는 것 사전 학습된 언어 모델 (BERT, XLNet, RoBERTa, ELECTRA)를 미세조정하여 성능 확인 USPTO-2M 데이터와 M-patent 데이터로 실험 수행 XLNet이 가장 좋은 성능 Introduction 특허 전문가와 특허 정보 사용자에게 특허 분석과 관련된 기술의 자동화의 필요성이 대두되고 있다. 특허 분류에는 IPC(국제 특허 분류) 또는 CPC(협력 특허 분류)와 같은 일반적인 표준 분류 구조가 사용(Shalaby & Zadrozny, 2019). 그러나 전통적인 텍스트 처리 방법을 활용하면 특허 텍스트를 성공적으로 처리하지 못했으며 이는 특허가 길고 복잡한 법적 ..
ERNIE-Layout: Layout Knowledge Enhanced Pre-trainingfor Visually-rich Document Understanding Abstract 최근 많은 visuall-rich document understanding의 pre-training 기법이 많은 발전을 이루었지만 여전히 layout-centered knowledge의 사용에는 부족함이 있다. 이 논문에서는 ERNIE-Layout이라는 text와 layout 및 image 정보를 잘 합쳐서 layout 지식을 향상시키는 모델을 제안한다. 구체적으로 먼저 input sequence를 재정렬한 다음 문서의 적절한 읽기 순서를 학습하기 위해 pre-training task인 읽기 순서 예측을 제시한다. 모델의 layout 인식을 향상시키기 위해 spatial-aware disentengled attion을 multi-modal transformer에 합치고 replaced r..
Unifying Vision, Text, and Layout for Universal Document Processing Abstract 논문에서 다양한 task 형식에 text, image, layout을 통합하는 foundation Document AI 모델인 Universal Document Processing(UDOP)을 제안한다. UDOP는 text와 image 간의 spatial 상관 관계를 활용하여 uniform representation으로 표현하고, 새로운 Vision-Text-Layout Transformer를 통해 UDOP는 pretrain 및 multi 도메인 downstream task를 prompt-based sequence generation scheme으로 통합한다. UDOP는 혁신적인 self-supervised objectives 와 다양한 label이 지정된 데이터를 사용하여 lebel이 ..
Lec 9) Self-Attention & Transformers 지난 강의에 이어 ○NLP에서의 재귀(recurrent) 모델 2016년을 전후로, NLP의 사실상의 전략은 다음과 같다. 이번 시간에는 색다른 것을 배운다기보다 모델에서 최적의 building blocks가 뭔지 찾아볼 것이다. ○ RNNs의 문제: 선형 상호작용 거리 (Linear interaction distance) RNNs은 "왼쪽에서 오른쪽으로" 전개되며 이는 선형 인접성을 인코딩한다 그러나 문제는 RNNs이 거리가 떨어진 단어간 상호작용하려면 O(시퀀스 길이) step이 필요하다 먼 거리 의존성은 기울기 소실 문제 때문에 제대로 학습하기 어렵다. 단어의 선형 순서는 우리가 집어넣은 것으로 우리는 문장을 생각할 때 순서대로 보지 않는다. ○ RNNs의 문제: 병렬화의 부재 앞 혹은 뒤로의 흐름..