본문 바로가기

논문/Multimodal

Unifying Vision, Text, and Layout for Universal Document Processing

Abstract

논문에서 다양한 task 형식에 text, image, layout을 통합하는 foundation Document AI 모델인 Universal Document Processing(UDOP)을 제안한다. UDOP는 text와 image 간의 spatial 상관 관계를 활용하여 uniform representation으로 표현하고, 새로운 Vision-Text-Layout Transformer를 통해 UDOP는 pretrain 및 multi 도메인 downstream task를 prompt-based sequence generation scheme으로 통합한다. UDOP는 혁신적인 self-supervised objectives 와 다양한 label이 지정된 데이터를 사용하여 lebel이 지정되지 않은 대규모 document corpora에 대해 pretrain 된다. UDOP는 또한 masked image reconstruction을 통해 text와 layout으로부터 문서 image를 생성하는 방법을 학습한다. 우리가 아는 한, 문서 AI 분야에서 하나의 모델이 고품질 neural document editing과 content customization을 동시에 달성한 것은 이번이 처음이다. UDOP는 DUE(DocumentUnderstanding Benchmark) 순위표에서 1위를 차지했다.

1. Introduction

 Document AI는 사업 송장, 세금 양식, 학술 논문 등 디지털 문서의 정보 추출, 이해 및 분석을 연구한다. Text가 구조적으로 그리고 figure 및 양식 등의 image가 배치되어 있는 문서의 내용 이해는 multimodal task이다. 기존의 비전 언어 연구와는 달리, 문서 데이터는 2D 공간 레이아웃을 가지고 있다.

  • Text는 다양한 문서 유형과 형식(예: 송장 대 세금 양식)에 따라 다른 위치에 구조적으로 분산.
  • Figure, table 그리고 plot과 같은 형식화된 데이터는 문서 전반에 걸쳐 배치.

따라서, 레이아웃을 효과적이고 효율적으로 모델링하고 이해하는 것은 문서 정보 추출 및 내용 이해에 필수적이다.

 

 Document AI는 다른 vision-language domain과 차이가 존재한다. 예를 들어, 텍스트 양식이 이미지에서 시각적으로 위치하기 때문에 텍스트와 시각적 양식 간의 교차 양식 상호 작용은 일반적인 비전 언어 데이터보다 훨씬 강하다. 또한 downstream task는 document question answering, layout detection, 분류, 정보 추출 등 domain과 패러다임이 다양하다.

Challenges:

  1. Image, text 그리고 layout format 간의 강력한 상관 관계를 활용하고 이를 통합하는 방법?
  2. Model이 다양한 domain에 걸쳐 다양한 vision, text, layout task를 효과적으로 학습할 수 있는 방법?

Recent progress:

  • One line of work [1, 11, 28, 29,35, 36, 50–53] inherits vision-language models that encode images with a vision network (e.g., vision transformer) and feed the encodings to the multimodal encoder along with text [17, 26, 43, 46]
  • Another line of work uses one joint encoder [21, 45] for both text and image [16]. Some models regard documents as text-only inputs [10, 12, 15, 25, 47].

[53] LAMPRET Framework Overview, IMG가 우선 CNN으로 embedding된 후 multimodal encoder에 입력
[16] The architecture and pre-training objectives of LayoutLMv3. Text와 Image에 대해 joint encoding 수행

기존 방식의 단점)

1) 이러한 작업에서 layout format은 shallow position embeddings(예: text embedding에 2D position embedding 추가)으로 표현된다. 이는 document data에 내재된 modalities 간의 강력한 상관관계가 완전히 활용되지 않는다. 또한 다양한 task를 수행하기 위해 많은 모델이 task specific head를 사용해야 하는데 이는 비효율적이며 각 작업에 대한 수작업이 필요하다.

>>  AI 모델인 UDOP(Universal Document Processing)의 경우, 과거 연구들에서 image와 text를 두 개의 개별 입력으로 간주하는 것과 달리 UDOP에서는 uniform layout-induced representation(Sec. 2.1, text token과 그 text가 위치한 image patch의 feature)으로 표현한다.

 그 외에도 layout, 즉 bounding box를 이산화된 token으로 변환하는 text와 document layout에 대한 동일한 vocabulary를 구축한다. 둘째, 양식에 구애받지 않는 encoder, text layout 및 vision decoder로 구성된 VTL(Vision-Text-Layout) transformer를 제안한다. VTL Transformer를 사용하면 UDOP에서 vision, text 및 layout을 공동으로 encoding 및 decoding할 수 있다. UDOP는 모든 downstream tasks를 seq2seq framework와 통합한다.

2) 또 다른 문제는 기존 연구들에서 사용된 masked language modeling 또는 고전적 vision-language pretraining(예: contrastive learning)과 같은 single-modality learning을 위한 설계이다. 이 논문에서는 'layout modeling, text and layout reconstruction, text, vision 및 layout modeling을 함께 설명하는 vision recognition'을 포함한 holistic document learning을 위한 새로운 self-supervised leaning objectives를 제안한다(Sec. 3). Sequence generation 외에도 UDOP는 text 및 layout modalities에서 document image를 재구성하여 masking된 auto encoder(MAE)를 활용하여 vision document를 생성할 수 있다. UDOP는 문서 편집 및 생성을 달성한 최초의 문서 AI 모델이다.

 전반적으로 UDOP는 1,100만 개의 레이블이 없는 공개 문서와 180만 개의 예제로 된 11개의 supervised dataset에 대해 pretrain됐다. 표 4의 abalation study는 self-supervised objectives로만 pretrain된 UDOP이 이전 모델에 비해 크게 개선되었으며, 여기에 supervised data를 추가하면 성능이 더욱 향상된다는 것을 보여준다.

 우리는 FUNSD[18], CORD[33], RVL-CDIP[13], DocVQA[32] 및 DUE-Benchmark[2]에서 UDOP를 평가한다.

요약하면,

  1. Unified representation
  2. Unified all document taks to seq2seq generation framework
  3. Self-supervised objectives와 supervised datasets를 합친 pretraining
  4. Text, vision, 그리고 layout modalities를 한번에 생성
  5. 9개의 task에서 SOTA 달성

2. Universal Document Processing

Figure 1. UDOP unifies vision, text, and layout through vision-text-layout Transformer and unified generative pretraining tasks including vision task, text task, layout task, and mixed task. We show the task prompts (left) and task targets (right) for all self-supervised objectives (joint text-layout reconstruction, visual text recognition, layout modeling, and masked autoencoding) and two example supervised objectives (question answering and layout analysis).

UDOP의 개요는 Figure 1. 에 있다. 이번 장에서는 Transformer에 대해 설명할 것이다. 주어진 document image $\upsilon$에 대해 optical character recognition (OCR)을 통해 text tokens $\{s_i\}$와 bounding boxes $\{(x^1_i, y^1_i, x^2_i, y^2_i)\}$ layout 정보를 추출한다. 여기서 bounding boxes의 1은 좌측 상단, 2는 우측 하단의 좌표 값이다. 즉, $M$ 개의 단어 tokens가 존재할 경우 입력은 $(\upsilon, \{s_i\}^M_{i=1}, \{(x^1_i, y^1_i, x^2_i, y^2_i)^M_{i=1}\})$가 된다. 

2.1. A Unified Vision, Text, and Layout Encoder

 주어진 document image $\upsilon \in \mathbb{R}^{H\times W\times C}$에 대해서, $M$ 단어 tokens  $\{s_i\}^M_{i=1}$와 layout 정보 $\{(x^1_i, y^1_i, x^2_i, y^2_i)^M_{i=1}\}$ 을 추출하고, $\upsilon$을 $\frac{H}{P}\times \frac{W}{P}$로 나누어 $P \times P \times C$의 크기로 나누어준다. 이후 각 patch를 $D$-차원 벡터로 encode 해주고 모든 patch embedding을 벡터의 sequence $\{\upsilon_i \in \mathbb{R}^D\}^N_{i=1}$로($N= \frac{H}{P}\times \frac{W}{P}$) 묶어준다. Text tokens 또한 $D$-차원으로 embedding 해준다.

 

Layout-Induced Vision-Text Embedding.

Figure 2. Layout-induced vision-text embedding.

Unified representation의 설명을 Figure 2에 기술하였다. Layout indicator function $\phi$는 token embedding $s_i$와 image patch $\upsilon_j$에 대해 다음과 같다:

$$\phi(s_i, \upsilon_j) =
\left\{\begin{matrix} 
1, \texttt{if the center of bounding box is within the image patch} \\ 0, \texttt{otherwise}
\end{matrix}\right.$$

이후 각 text token embeddings $s_i$에 대해서 joint representation은 image patch feature와의 합으로 표현된다.

$$s'_i=s_i+\upsilon_j,\texttt{ where } \phi(s_i, \upsilon_j)=1$$

만약 image patches $\upsilon_j$에 text tokens가 존재하지 않는다면, $\forall i, \phi (s_i, \upsilon_j)=0$, joint representation은 다음과 같다:
$$\upsilon'_j =\upsilon_j$$

 위와 같이 joint representation을 구성하여 VTL transformer encoder에 입력하면 각 modal 간의 spatial correlation을 leverage할 수 있다.

 추가적으로 연속된 좌표인 text bounding box를 layout tokens로 이산화한다.

Bounding box $\{(x^1_i, y^1_i, x^2_i, y^2_i)^M_{i=1}\}$를 $[0,1]$로 정규화했다고 가정하면, 결과 layout token은 vocabulary 크기로 곱해지고 정수로 반올림 된다.

ex) Bounding box가 $(0.1, 0.2, 0.5, 0.6)$ 이고 vocab_size = 500 이면, <50><100><250><300> 이 된다.

이렇게 생성된 layout tokens은 text context와 함께 layout generation task 등에 사용할 수 있다. (Section 3.)

* $S_0$ Task prompt도 tokenize 되며, bounding box는 [0,0,0,0]을 부여한다.

* 동일 단어 내의 token들은 동일한 bounding box를 갖는다.

```

0 ('▁document', [0, 0, 0, 0])
1 ('▁classification', [0, 0, 0, 0])
2 ('.', [0, 0, 0, 0])
3 ('▁', array([0.092, 0.197, 0.162, 0.215]))
4 ('AU', array([0.092, 0.197, 0.162, 0.215]))
5 ('TH', array([0.092, 0.197, 0.162, 0.215]))
6 ('ORS', array([0.092, 0.197, 0.162, 0.215]))
7 ('▁T', array([0.092, 0.225, 0.137, 0.239]))
8 ('IT', array([0.092, 0.225, 0.137, 0.239]))
9 ('LE', array([0.092, 0.225, 0.137, 0.239]))
10 ('▁RE', array([0.391, 0.31 , 0.535, 0.33 ]))
11 ('COM', array([0.391, 0.31 , 0.535, 0.33 ]))

```

 

Position Bias.

T5에서 사용된 relative attention bias와 유사하게 TILT의 2D text token position을 encoding 했다. 이전 document AI 연구들과 다른 점은 2D position bias와 joint embedding으로 layout 구조 정보는 충분하기 때문에 1D position embedding을 사용하지 않았다.

 

Modality-Specific Model Variant.

Multimodal learning에서 일반적으로 vision과 text로 각각 인코딩 하는 two tower model을 사용한다. (즉 , text encoder, vision encoder가 별도 존재) Position bias는 두 encoder에서 모두 layout 정보를 표현하기 위해 사용되며 해당 variant를 UDOP-Dual이라고 명명한다.

2.2. Vision-Text-Layout Decoder

 VTL encoder가 vision, text, layout 정보를 공동으로 encoding한 것처럼 VTL decoder도 document generative task를 위해 vision, text, layout 정보를 공동으로 생성하도록 디자인됐다. VTL decoder는 Figure 1(가운데)과 같이 text-layout decoder와 vision decoder로 구성된다.

  • Text-layout decoder는 seq2seq 방식으로 text, layout tokens을 생성하는 단방향 Transformer decoder
  • Vision decoder의 경우 MAE(masked autoencoder)의 decoder를 채택하고 text 및 layout 정보로 image pixel을 직접 생성

 text-layout decoder와 vision decoder는 모두 VTL encoder와 cross-attention 계산을 한다(2개의 encoder가 있는 UDOP-Dual의 경우 decoder는 두 encoder의 출력을 연결하여 cross-attention 계산)

3. Unified Generative Pretraining

Table 1. A summary of all generative pretraining objectives with task names, task prompts, and task targets.

 서로 다른 training objectives와 datasets를 통합하기 위해 task prompt가 있는 universal generative task format을 만든다. Human labels가 있거나 없는 대규모 문서에서 UDOP를 사전 교육한다. 상위 및 하위 블록에 각각 모든 self-supervised와 supervised tasks을 포함하는 task prompt 및 target을 Table 1에 요약한다.

3.1. Self-Supervised Pretraining Tasks

 Unlabeld documents에 대한 다양한 self-supervised learning objectives를 제안한다. 또한 unlabeled dataset은 token-level bounding boxes와 documents image가 있는 OCR text입력이 포함된다. 

(1) Joint Text-Layout Reconstruction

:Text를 image로부터 재구성하는 것으로 일부 text token을 mask하고 token과 bounding boxes를 맞추도록 한다. 

 

예시) Ship Date와 of를 masking 한 경우

 

여기서 <text_layout_#>는 text-layout sentinel tokens이며, <###>는 layout tokens를 의미한다. 여기서 Masking 비율은 15%로 엄밀히 말하면 Masked text-layout modeling이라고 볼 수 있다.

(2) Layout Modeling

: Model에게 text tokens의 position을 예측하도록 한다.

예시) Ship Date와 of의 layout tokens을 예측하는 경우

주목할 점은 joint text-layout reconstruction과 다른 sentinel token을 사용한다는 것이다. 작은 비율로 masking하면 작업이 쉬워지므로 75%의 큰 masking 비율을 사용한다.

(3) Visual Text Recognition identifies

: image 내의 지정된 위치의 text를 인식하도록 한다.

예시) Ship Date와 of에 해당하는 layout token으로부터 text token을 예측하는 경우

이 경우 역시 sentinel token이 <text_#>로 다르다. 이 task를 "Joint text-layout reconstruction"과 구별하기 위해 masking 비율을 50%를 사용하고 sentinel token에 layout(bounding box)를 설정한다. e.g. sentinel token과 layout token의 position 을 (0,0,0,0)으로 설정 <0><10><2><20> to (0,0,0,0)

(4) Masked Image Reconstruction with Text and Layout

: Figure 3.와 같이 text와 layout 정보로부터 image를 recontruct 한다.

Figure 3. Masked autoencoding with text and layout.

Vision self-supervised learning을 위해 MAE objective를 채택한다. 원래 MAE는 image patch의 일부분을 mask하고 non-masked patch를 vision encoder에 넣어준다. Encoder의 출력을 vision decoder에 보내 masked patch를 reconstruct 하도록 한다. 이때 평균 제곱 오차를 사용하여 masked patch에만 손실을 구한다. 해당 논문에서는 MAE decoding process를 변경하여 사용한다:

(4.a) Cross-Attention with Character Embeddings.

: 문서에서 글자내용은 대부분 알파벳과 숫자 및 구두점으로 이루어져 있다. Character-level text tokens는 vision 생성에 도움을 줄 수 있다. Vision decoder에 text token encoder features와 character-level embedding 양쪽 모두 cross-attention을 취해준다. Character embeddings는 학습가능하며 encoder로부터 encoding된 값이 아니다. 이 cross-attention은 연산량을 선형으로 증가시키지만 image generation quality는 상당히 증가시킨다. 

(4.b) Image Decoding. 

: MAE decoding 중 two-tower 모델인 UDOP-Dual 에서 decoding process를 설명
1) Vision encoder와 text encoder가 non-masked image patches와 text tokens를 각각 encoding

2) 기존 MAE 모델처럼 masked image patch를 나타내는 placeholder embeddings과 non-masked image가 vision decoder에 입력으로 들어갑니다. 입력 sequence의 길이와 순서는 target image patch와 같다.

3) Vision decoder는 character embeddings를 포함한 text encoder와 vision decoder 출력에 cross-attention 수행

: UDOP의 경우, unified encoder에서 joint vision-text embedding은 non-masked image patches만 포함하고 image patch는 text tokens와 융합되어 있기 때문에 unified encoder 출력을 직접 vision decoder로 입력할 수 없다(masked된 정보가 encoding 되지 않음). 그러므로 vision decoder가 학습가능한 placeholder embeddings의 sequence를 사용한다. Placeholder sequence의 길이와 순서는 target image patch와 같다. Placeholder의 종류는 두 가지로 image patch의 mask 여부를 구분한다. Vision decoder는 vision-text encoder output과 character embdding을 cross-attension을 통해 encoding한다. (Figure 3)

 

3.2. Supervised Pretraining Tasks

 Supervised tasks는 documents classification, layout analysis, information extraction, question answering(QA), 그리고 document natural language inference(NLI)를 포함한다. Self-supervised learning 단계에서 해당 data는 사용되지 않았다.

  • Classification
    Document type을 예측하기 위한 tasks. Task prompt는 "Document Classification on <Dataset Name>"이고 이후에 text tokens가 따라온다. Target은 document class로 16개의 categories를 가진 RVL-CDIP를 사용하였다. (training:320k / validation:40k / test:40k)
  • Layout Analysis
    Document 내의 entity(title, paragraph 등)의 위치를 예측하는 tasks. Task prompt는 "Layout Analysis on <Dataset Name>"이고 이후에 entity name이 따라온다. Target은 해당 entity의 bounding boxes이다. PubLayNet은 medical publication 기반으로 생성됐으며 360k 이상의 document images로 일반적인 document layout (title, paragraph, table, figure, ...)를 구분한다. 
  • Information Extraction
    Text query의 entity type과 위치를 예측하는 tasks. Task Prompt는 "Information Extraction on <Dataset Name> <Text Query>" 이다. Target은 각 token의 entity label과 bounding boxes이다. 
    - DocBank: IE dataset으로 500k(training:400k/validation:50k/test:50k)의 document page로 구성, 12개의 structure label이 있다.
    - Kleister Charity: 복잡한 송장 page layout이 있는 IE dataset으로 UK Charity Commission의 21.6k 엔터티와 2.7k 문서 이미지가 있다. Invoice date, invoice number, net amount 등의 entities들이 있다. 
    - PWC: 2,291개의 leaderboards가 있는 IE dataset로, data는 Papers with Code labelling interface에서 수집된다. 원래 구성과 다르게 DUE-Benchmark에서는 전체 문서를 입력한다.
    - DeepForm: 미국 선거 정치 선전과 관련된 IE dataset으로, 20k개의 영수증과 100k개 이상의 document image로 구성된다. Task는 advertiser name, contract number, amount paid 등의 entities를 예측한다. 
  • Question Answering (QA)
    Document image와 관련된 질문에 답을 하는 tasks. Task prompt는 "Question Answering on <Dataset Name>"이고 이후에 question과 전체 document tokens가 따라온다. Target은 답이다.
    - WebSRC: Web-based Structural Reading Comprehension.  440k의 질문이 6.5k의 web pages로부터 수집됐다. 정답은 문맥의 text span 혹은 yes/no 이다.
    - VisualMRC: 10,197개의 images와 30,562개의 abstractive question-answer로 구성된다.
    - DocVQA: 산업 문서에서 발췌한 50k의 질문과 12k document images로 구성된 QA dataset이다. 질문은 text content, non-textual elements(marks or diagerams), layout, style 등을 물어본다.
    - InfographicsVQA: Infographic images 위주의 30k 질문과 5.3k의 document images로 구성된 QA dataset. Text content, images, datavisualization, layout 등을 질문한다.
    - WTQ: Wikipedia에서 수집한 HTML table 기반은 QA dataset으로 2.1k 표와 22k의 사람이 생성한 질문으로 구성된다. Table lookup, superlatives, arithmetic operation 등을 물어본다. 

Figure 8. Document QA and answer localization with UDOP on VisualMRC dataset. As shown, besides generating the answer, UDOP can predict the region of interest (RoI) that answer is located in by generating the layout tokens. Note that the the labeled RoI VisualMRC dataset is at paragraph level.

  • Document NLI
    Document Natural Language Ingerence는 document 내 두 문장의 수반관계를 예측한다. Prompt는 "Document Natual Language Inference on <Dataset Name>"이고 이후에 문장쌍이 따라온다. Target은 "Entailment" 또는 "Not Entailment"이다. 
    - TabFact: Open-domain table-based NLI task로 16k의 Wikipedia 표와 118k의 사람이 주석한 statement로 구성된다.

4. Experimental Setup

4.1. Model Pretraining

Model Configuration

 UDOP(unified encoder와 text-layout decoder)는 T5-large의 encoder-decoder architecture를 따른다. Vision decoder는 MAE-large다. UDOP은 794M의 학습 파라미터로 구성된다. UDOP-Dual의 경우 text-layout encoder-decoder는 T5-large로 vision encoder-decoder는 MAE-large와 같다. 학습 파라미터는 1098M개이다.

Data

 Self-supervised learning에 IIT-CDIP Test Collevtion 1.0을 사용한다. 11M개의 scanned document image와 OCR로 생성된 text와 token-level bounding boxes 정보가 있다. 

Curriculum Learning

 낮은 해상도는 detection과 generation에서 문제가 발생하기 때문에 1024 해상도를 사용한다. $(1024/16)^2=4096$ 개의 image patch sequence length를 가지기 때문에 연산량이 많다. 그러므로 curriculum learning을 통해 낮은 해상도에서 점차적으로 1024까지 규모를 키워가며 학습한다. 실제로는 224→512→1024로 세 단계에 걸쳐 학습을 진행했다.

Traning

Adam optimizer | lr=5e-5 | 1000 warmup steps | batch size=512 | weight decay=1e-2 | $\beta_1=0.9$ | $\beta_2=0.98$ 각 curriculum learning 단계에서 1 epoch 학습했다.

4.2. Downstream Evaluations

Finetuning Experiment Setting

DUE-Benchmark: Adam optimizer | lr=5e-5 | 1000 warmup steps | batch size=16 | weight decay=1e-2 | $\beta_1=0.9$ | $\beta_2=0.98$

FUNSD & CORD: lr=3e-4

RVL-CDIP: lr=1e-3

Table 2. Comparison with existing published models on the DUE-Benchmark. Modality T, L, V denote text, layout, or vision. Model
Table 3. Performance on FUNSD, CORD, and RVL-CDIP datasets. Modality V, T, L denote vision, text and layout.

- FUNSD: (training:149/test:50) Entity recognition task: "question", "answer", "header", or "other"
encoder input: "Name :" → generation target: "Name : [I-QUESTION]" / metric: F1 score

- CORD: (training:800/validation:100/test:100) Key infomation extraction: 30 labels under 4 categories / metric: F1 score

- RVL-CDIP: (training:320k/validation:40k/test:40k) Documents classification / metric: classification accuracy

- DUE-Benchmark: 7 datasets & 3 domains / 3.2 section 참고

UDOP과 UDOP-Dual은 모든 DUE-Benchmark와 CORD 및 RVL-CDIP에서 SOTA를 달성했다. (Nov, 11, 2022)

 Image 해상도에 대한 curriculum learning은 해상도가 클수록 UDOP이 더 높은 성 을 보여준다.

Table 5. Comparison of different image size in curriculum learning on the DUE-Benchmark. Modality T, L, V denote text, layout, or vision.

해상도가 224, 512 및 1024인 DUE-Benchmark의 UDOP 평균 성능은 각각 63.9, 64.3 및 65.1이다. 224 해상도의 UDOP은 이미 이전 최고 모델을 능가한다(예: DUE-Benchmark의 평균 62.9). 또한 pretraining에 supervised learning을 도입한 이전 연구들과 마찬가지로, 평가 dataset은 pretraining에 사용되는 supervised dataset과 부분적으로 겹친다.

Table 8. Ablation study on pretraining objectives. Performance is reported on validation sets.

Self-supervised objectives(224 해상도)로만 UDOP 및 UDOP-Dual을 훈련한다. 모델의 성능은 Table 8과 같이 이미 baseline을 넘는다. 이는 unified representation의 효과를 보여준다. 

5. Analysis

5.1. Visualization Analysis

Masked Image Reconstruction.

Figure 6. MAE demonstrations with 75% masking. Middle: recon- struction, Right: original.

Figure 6는 Masked Image Reconstruction 을 보여준다. 높은 masking 비율에도 모델은 고품질로 text와 layout에서 document image를 reconstruct할 수 있습니다. 

Document Generation & Editing.

Figure 4. Document generation with customized content (right). Left is the original document. We show four document edits within the same figure including title replacement, text addition, text replacement, and tilted text replacement. All edits are done with one model run.

Document AI 분야에서 처음으로 UDOP 은 고품질의 document 생성과 편집을 성공했다. Figure 4에서 보는바와 같이 괜찮은 수준으로 작업이 가능하다.  이 작업은 해당 지역의 image를 masking하고 text와 layout 정보를 입력하여 수행한다. 

Layout Customization.

Figure 5. Document generation with customized layout (right). Left is the original document. We change the layout of the document text including line breaks change and text rearrangement. All edits are done with one model run.

UDOP은 figure 5처럼 처음부터 document를 재생성하여 레이아웃을 편집할 수 있다. 이 작업은 몇 개의 image patch만 prompt로 유지하고 내용의 bounding box를 변경한 다음 새 layout으로 document image를 reconstruct하여 수행된다. 

5.2. Ablation Analysis

Table 8. Ablation study on pretraining objectives. Performance is reported on validation sets.

Table 4 layout/text self-supervised objectives(“Layout Modeling”, “Visual Text Dataition”, “Joint Text-
Layout Reconstruction”) pre-trained된 모델은 MLM으로 훈련된 모델보다 성능이 우수하여 그 효과를 확인했다. Vision self-supervised learning(masked image reconstruction)과 supervised learning을 추가하면 성능이 더욱 향상된다.

6. Related Work

Unifying Model Architectures in Multimodal Learning.

Text token embedding와 projected image patches를 concatenates 하여 하나의 입력으로 만든 후 transformer에 입력한다. 다른 접근은 two-tower 혹은 three-tower를 설계하여 각 modality를 따로 encoding한다. Projection heads나 fusion networks가 tower위에서 multimodal representation을 생성한다.

Unifying Tasks with the Generative Framework.

서로 다른 tasks과 domain에 걸쳐 training process를 통합하는 연구는 최근 상당한 진전을 이루었다. [8] 1.8k tasks에 대한 지침으로 언어 모델을 finetune한다. [7]은 training objectives를 sequence generation으로 변환하여 여러 vision-language task을 통합한다. [30, 48, 49]는 image와 bounding box를 discrete tokens로 변환하여 더 많은 tasks(예: image generation)을 결합한다.

Document Artificial Intelligence.

<skip>

7. Conclusion

 UDOP은 documnets의 vision과 text 및 layout modalities를 합쳐서 강한 spatial 상관관계를 이용한 layout-induced vision-text representation을 VTL transformer에 입력한다. 또한 모든 self-supervised와 supervised document tasks를 하나의 generative framework로 구성했다. UDOP은 9개의 작업에서 SOTA를 달성하였다. Document AI 분야 처음으로 UDOP은 document 생성 및 편집이 가능하다.