본문 바로가기

논문/Multimodal

(8)
Do-GOOD: Towards Distribution Shift Evaluation for Pre-Trained Visual Document Understanding Models ABSTRACT 기존 visual document understanding (VDU) 모델은 다른 분포의 데이터에 좋은 성능을 보여주지 못함 out-of-distribution (OOD) benchmark Do-GOOD을 개발 (9 OOD dataset, 3 VDU related tasks) 5개의 최신 VDU 모델 평가 결과 OOD에 취약한 결과 1 INTRODUCTION Background. 문서 이미지 처리는 삶에서 빈번하게 일어나고 있으며 최근 AI 모델을 통해 어느 정도 성능을 달성 Motivation. 모델 성능이 OOD dataset에 저하된다는 것을 알았으며 robustness를 평가하기 위한 benchmark도 보고되었다. 비록 RVL-CDIP OOD dataset의 이미지가 문서 분류에..
Evaluating Out-of-Distribution Performance on Document Image Classifier Abstract RVL-CDIP는 좋은 문서 분류 benchmark지만 out-of-distribution 문서에 대한 평가가 포함되어 있지 않다. 따라서 본 논문에서는 새로운 out-of-distribution benchmark를 소개한다. 새 데이터에는 두 종류의 out-of-distribution 문서가 추가되었다. RVL-CDIP-O: 16개의 domain 에 속하지 않음 RVL-CDIP-N: 16개 안에 속하지만 새로운 분포에 속함 기존의 RVL-CDIP 성능대비 새로운 benchmark를 기준으로 accuracy는 15-30% 떨어졌다. 새로운 문서 분류 benchmark는 문서 분류기의 out-of-distribution 성능을 분석할 수 있다. Introduction RVL-CDIP는 si..
End-to-end Document Recognition and Understanding with Dessurt Abstract Document understanding transformer인 Dessurt를 소개 Document image와 task string을 입력으로 받고 autoregressive하게 텍스트를 출력 End-to-end 아키텍쳐로 document understanding에 text recognition까지 추가로 수행 9개의 다른 task에 대해 효과적인 성능을 달성 Introduction Document understanding 분야에 많은 연구가 진행중이며 대표적으로 LayoutLM이 있다. LayoutLM Family BERT-like transformers에 spatial/layout 정보와 visual feature 추가 Document image로 사전학습되었으며 각 task로 미..
MGDoc: Pre-training with Multi-granular Hierarchyfor Document Image Understanding Abstract 문서는 fine granularity(e.g., words), medium granularity(e.g., paragraphs or figures), coarse granularity(e.g., the whole page)와 같이 계층적 구조로 이루어져 있다. 각 granularity 수준 차이와 계층적 상관관계는 문서 이미지 파악에 중요하다. 과거의 모델 중 word-level 모델은 상위 계층의 정보를 활용하지 못하는 반면 region-level 모델은 paragraphs 나 text blocks를 단일 embedding하여 word-level 특징을 뽑는데는 부족했다. 이러만 문제에 입각하여 MGDoc을 제안한다. Multi-modal multi-granular pre-trainin..
ERNIE-Layout: Layout Knowledge Enhanced Pre-trainingfor Visually-rich Document Understanding Abstract 최근 많은 visuall-rich document understanding의 pre-training 기법이 많은 발전을 이루었지만 여전히 layout-centered knowledge의 사용에는 부족함이 있다. 이 논문에서는 ERNIE-Layout이라는 text와 layout 및 image 정보를 잘 합쳐서 layout 지식을 향상시키는 모델을 제안한다. 구체적으로 먼저 input sequence를 재정렬한 다음 문서의 적절한 읽기 순서를 학습하기 위해 pre-training task인 읽기 순서 예측을 제시한다. 모델의 layout 인식을 향상시키기 위해 spatial-aware disentengled attion을 multi-modal transformer에 합치고 replaced r..
Unifying Vision, Text, and Layout for Universal Document Processing Abstract 논문에서 다양한 task 형식에 text, image, layout을 통합하는 foundation Document AI 모델인 Universal Document Processing(UDOP)을 제안한다. UDOP는 text와 image 간의 spatial 상관 관계를 활용하여 uniform representation으로 표현하고, 새로운 Vision-Text-Layout Transformer를 통해 UDOP는 pretrain 및 multi 도메인 downstream task를 prompt-based sequence generation scheme으로 통합한다. UDOP는 혁신적인 self-supervised objectives 와 다양한 label이 지정된 데이터를 사용하여 lebel이 ..
LayoutLM: Pre-training of Text and Layout for Document Image Understanding Abstract Pre-training 기법은 다양한 NLP 작업에서 최근 몇 년 간 효과적이라고 검증되었다. 그러나 대부분의 NLP application은 text-level에 집중되어있고 문서의 layout이나 style은 무시되었다. 본 논문에서는 LayoutLM을 제안하며, text와 문서 image로부터 scan된 layout 정보의 상호작용을 효과적으로 연결한다. 또한 image feature를 leverage하여 단어의 visual 정보를 모델에 잘 녹였다. 이는 최초로 text와 layout 정보를 single framework에서 document level pre-training을 jointly하게 수행한 몇몇 downstream task에서 비약적인 성능 향상을 보였다. 1. Intro..
BEIT: BERT Pre-Training of Image Transformers Abstract BEIT는 Bidirectional Encoder representation form Image Transfomers의 약자로 self-supervised vision representation model이다. NLP에서의 BERT처럼 vision Transformers의 pretrain task로 masked image modeling을 제안한다. 각 image는 image patches (예를들어 16×16 pixels)와 visual tokens 두 가지로 분류된다. 우선, image를 visual token으로 "tokenize"한다. 이후 임의로 몇몇 image patch를 mask한 후 Transformer backbone에 넣어줍니다. Pre-training objective..