본문 바로가기

논문/Multimodal

Evaluating Out-of-Distribution Performance on Document Image Classifier

Abstract

RVL-CDIP는 좋은 문서 분류 benchmark지만 out-of-distribution 문서에 대한 평가가 포함되어 있지 않다. 따라서 본 논문에서는 새로운 out-of-distribution benchmark를 소개한다. 새 데이터에는 두 종류의 out-of-distribution 문서가 추가되었다.

  • RVL-CDIP-O: 16개의 domain 에 속하지 않음
  • RVL-CDIP-N: 16개 안에 속하지만 새로운 분포에 속함

기존의 RVL-CDIP 성능대비 새로운 benchmark를 기준으로 accuracy15-30% 떨어졌다. 새로운 문서 분류 benchmark는 문서 분류기의 out-of-distribution 성능을 분석할 수 있다.

Introduction

RVL-CDIPsingle-label 문서 분류 benchmark16개의 문서 카테고리로 구성되어 있다. 이는 담배 산업과 관련된 소송 및 합의 합의의 결과로 공개된 대규모 문서 모음에서 채취한 샘플이다.

Figure 1: Samples from the RVL-CDIP corpus.

RVL-CDIP의 대부분은 2006년 이전 미국 담배 산업과 관련되어 있다 (Fig. 1)

 현대의 많은 모델들은 RVL-CDIP에 대해 높은 accuracy를 달성하였으나 out-of-distribution 입력에 대한 분석은 제한되었다. 따라서 본 연구에서는 새로운 두 종류의 out-of-distribution (OOD) test set을 생성했다. (1) 16개 카테고리에 해당하지만 다른 분포의 데이터 (2010년대 혹은 2020년대의 담배 산업과 관련 없는 디지털 문서) (2) 16개의 카테고리에 해당하지 않는 문서. 다음 RVL-CDIP로 학습된 분류기를 OOD data로 테스트한 결과 (1) 다른 분포를 일반화 하지 못함 (2) OOD 문서 분류에 어려움을 겪음.

Related Work

1. RVL-CDIP Document Classification

 RVL-CDIP는 스캔 문서 이미지로 구성되며, 처음에는 convolutional neural networks (CNN)으로 분류하려는 노력이 있었다. 이후 text modalvisual feature에 추가하려고 하였다. 최근 발전은 연구자들이 transformers 아키텍쳐를 image feature만 쓰던가 혹은 layoutOCR 결과를 추가로 사용하여 분류 작업에 사용하고자 했다. 그러나 OOD 데이터에 대한 모델 성능 분석은 이루어진 적이 없다.

2. Out-of-Distribution Performance Benchmarking

다른 task를 위한 OOD 성능 평가 목적의 benchmark를 개발했다. Benchmark는 두 개중 하나에 속한다.

(1)   Out-of-domain 또는 out-of-scope (RVL-CDIP-O)

 모델의 in-domainout-of-domain 입력의 차이를 측정하기 위한 benchmark. 이 경우 모델은 in-domain 데이터로 학습하고 이를 높은 accuracy로 분류하며 in-, out-of-domain 데이터를 confidence score로 구분할 수 있다. Out-of-domain benchmarktext 분류를 포함하고(e.g. 대화 의도 분류) image 분류와 분류기가 혼동할 수 있는 natural adversarial 입력이 있는 경우 개체 감지가 포함된다.

(2)   Distribution shift benchmarks

 해당 benchmark는 모델이 “unseen” 입력을 얼마나 잘 일반화 하는가와 perturbationcorruption에 대해 얼마나 robust한지를 평가한다. 여기서 “unseen”이란 사진, 스케치, 클립아트와 같이 다른 그림체(?)를 의미한다.

Other domain-shift benchmark (WILDSbenchmark)

 OOD 성능 평가를 위한 10개의 imagetext dataset. 예로 Camelyon17 조직병리학 dataset에서 taskimage분류지만 test settraining set과 다른 병원의 데이터로 구성된다. 사전 연구는 CIFAR-10/100에서 학습된 image 분류기에 다른 image dataset을 통해 OOD detection을 평가한 적은 있지만 OOD 입력을 구별하는 문제를 설명한 적은 없다.

모델의 robustness 평가를 위해 ImageNet-C(ImageNet datanoisy version)를 포함한 corrupted data를 생성했다. Data augmentation toolpipelines를 이용하여 perturbation을 통해 in-distribution datacorruption을 주는 것은 기존에 많이 사용되던 방식이다. 이 논문에서는 문서 분류기에 대한 OODshifted distribution에 대한 모델 평가도 가능한 benchmark를 소개한다.

Datasets

1.     RVL-CDIP

 RVL-CDIP는 담배 관련 회사 및 조직에 대한 소송의 일부로 공개된 공개 문서인 IIT-CDIP에서 스캔한 문서의 grayscale image로 구성된다. 문서는 16종류(advertisement, budget, email, file_folder, form, handwritten, invoice, letter, memo, news_article, presentation, questionnaire, resume, scientific_publication, scientific_report, and specification)로 구분된다. RVL-CDIP는 스캔 문서 image이므로 데이터 자체가 noise를 포함한다. 각 카테고리는 20,000 training sample (320,000)40,000 validation, 40,000 test 문서로 구성된다. 모든 문서는 2006년 이전 문서이다.

2.     New Out-of-Distribution Data

 새로운 OOD benchmark는 기존 16개의 카테고리에 속하지 않거나 (RVL-CDIP-O), 속하지만 IIT-CDIP 또는 담배와 연관이 없는 (RVL-CDIP-N)데이터로 구성된다. RVL-CDIP-OFig. 2RVL-CDIP-NFig. 3에 예시가 있다.

Figure 2: Example out-of-distribution document images from our RVL-CDIP-O set, prior to grayscale transformation.
Figure 3: Samples from the RVL-CDIP-N evaluation set, prior to grayscale transformation.


 OOD
문서는 두 인터넷 소스로부터 수집됐다. (1) Google & Bing 웹 검색 (2) 공용 DocumentCloud(https://www.documentcloud.org). DocumentCloud 저장소에는 FOIA(정보자유법) 요청을 통해 제공되는 정부, 법률 또는 공공 서비스 관련 문서가 많이 포함되어 있다. 저자는 데이터 추가를 위해 RVL-CDIP를 우선 분석하였으며 몇몇은 여러 label을 가질 수 있음을 알았다. (예를 들어 손편지의 경우 handwrittenletter 둘 다 될 수 있다.) 그러나 RVL-CDIP는 이런 경우 한 가지로 일관되게 label 했기에 새로운 데이터도 이 규칙에 따라 label했다. (손편지는 handwritten으로 label)

 각 데이터는 16 카테고리에 포함되는지 여부를 우선 판단하였으며, 명확하게 구분되는 경우만 RVL-CDIP-N에 포함시켰다. 위의 검색 방법을 이용 시 ‘file_folder’와 같은 카테고리는 충분히 찾기 힘들다. RVL-CDIP-N의 카테고리 별 개수는 Table. 1에 기술된다.

Table 1: Per-category counts for RVL-CDIP-N

 여러 장의 문서는 일관성을 위해 첫 장만 사용하여 grayscale로 변환했다. RVL-CDIP 데이터 세트의 규칙에 따라 최대 치수(: 높이 또는 너비) 1000픽셀이 되도록 각 이미지를 저장하고 RVL-CDIP와 마찬가지로 OOD 이미지를 TIFF 파일에 저장한다.

Table 2: Out-of-distribution dataset count statistics. DC and WS refer to DocumentCloud and Web Search, respectively.

 총 4,417 개의 수집된 OOD 문서 imagesTable. 2에 요약되어 있다. 65%DocumnetCloud 문서와 95%web search 문서는 디지털 문서이다. 이런 이유로 Augraphy 도구를 이용하여 scanner-like noise를 추가했다.

Figure 4: Examples of document images from the RVL-CDIP-O set (top row) with corresponding Augraphy-augmented grayscale images (bottom row).

 따라서 새로운 OOD 데이터는 다음과 같은 특징이 있다. (1) 디지털 문서 (2) 상당수가 2006년 이후 생성 (3) 담배와 무관한 자료

Experiments

OOD 데이터에 대한 모델 분류기 성능 평가를 위한 모델과 평가지표 그리고 결과를 공유한다.

1.     Models

  • CNNs(VGG-16, ResNet-50, GoogLeNet, and AlexNet)
  • LayoutLMv2(Tesseract OCR을 사용하여 학습)
  • Image-only transformer DiT (직접 학습한 다른 모델과 달리 Hugging Face에 올라온 그대로 평가)
  • 입력 image resolution (224, 224) pixel

2.     Evaluation Metrics

 RVL-CDIP-N16개의 카테고리에 포함되므로 Accuracy를 이용하여 평가가 가능하다.

 RVL-CDIP-O의 경우 출력 logits를 이용한 두 decision 함수를 통해 in-, out-of-domain 예측을 중재한다. 첫 째로 Maximum Softmax Probability(MSP)를 사용하여 confidence score를 구한다. 문서 이미지 x에 적용된 모델 flogits f(x)= z를 생성하는 경우, MSP는 각 도메인 내 카테고리에 대해 0 1 사이로 조정된 confidence score를 얻는다. $i$번째 문서 카테고리의 confidence score

$$s(z)_i = \frac{e^{z_i}}{\sum_{j=1}^{K}e^{z_j}}$$

 $K$ (RVL-CDIP16) target label 카테고리의 수다. MSP보다 OOD detection에서 좋은 성능을 보이는 또 다른 confidence 함수는 Energy score이다.

$$E(z;T)=T\cdot \texttt{log}\sum_{j=1}^{K}{e^{z_j/T}}$$

여기서 T는 온도이다. 여기서 Energy scoresingle confidence scores.
 
이상적인 분류기는 in-domain 문서에 높은 out-of-domain에 낮은 confidence score를 부여한다. 간단하게 이를 이용하여 threshold t를 이용하여 아래와 같이 decision rule을 정할 수 있다.
$$ \texttt{decision rule} =
\left\{\begin{matrix}\texttt{in-domain,} & \texttt{if max}(score(z)) \geq t \\
\texttt{out-of-domain,} & \texttt{if max}(score(z)) < t \\
\end{matrix}\right. $$
 $t$
는 여기서 각 문서의 카테고리가 될 수도 있고 전역으로 사용할 수도 있다. 적절한 t값을 설정해야 하며 이를 평가하기 위해 AUC score 분석을 수행했다.
 AUC
점수는 RVL-CDIP & RVL-CDIP-O, RVL-CDIP-N & RVL-CDIP-O 간에 계산했다. RVL-CDIP-O는 카테고리 마다 confidence score의 분포가 변할 수 있기 때문에 각 모델에 대해 macromicro AUC score를 보고했다. Macro AUC는 각 문서의 카테고리에 대해 계산한 후 평균냈다. 또한 95% true positive rate에서의 false-positive rate (FPR95, 작을수록 좋다)도 계산했다.

3.     Results

Table 3: Accuracy scores on RVL-CDIP compared to RVL-CDIP-N.

Table. 3RVL-CDIP test set의 보고된 값과 직접 실험한 값을 병치고 RVL-CDIP-N 값도 추가하였다. LayoutLMv2의 경우 값의 차이가 존재하는데 이는 OCR 성능의 차이로 보인다

3.1. Performance on RVL-CDIP-N

 Table. 3에서처럼 대부분의 모델이 더 낮은 성능을 보여준다. 가장 높은 성능을 보여주는 DiT의 경우도 15% 성능 저하가 보였으며 잘못 예측한 결과는 Fig. 7에 첨부하였다. Augraphy augmentation을 통한 scanner-like noise의 결과에 대한 영향은 미미하다.

Figure 7: DiT model mis-predictions. Top row: errors on the RVL-CDIP-O set. Bottom row: errors on the RVL-CDIP-N set. True labels are indicated by y, while predicted labels are indicated with y&circ; (and confidence scores in parentheses).

3.2. Performance on RVL-CDIP-O

 

Table 4: AUC scores on RVL-CDIP and RVLCDIP-O (T-O) and on RVL-CDIP-N and RVLCDIP-O (N-O) for MSP and Energy confidence scoring methods.

 Table. 4RVL-CDIP에서 학습된 모델을 RVL-CDIP-Otest한 결과이다. AUC값은 RVL-CDIP & RVL-CDIP-O (T-O)RVL-CDIP-N & RVL-CDIP-O (N-O)간에 계산했다. (T-O)0.8~0.9AUC 값을 MSPEnergy 값으로 갖는 반면에 (N-O)DiT의 경우 MSP에서 16.6 포인트 Energy에서 13.5 포인트 저하됐다.

Figure 6: Distribution of confidence scores using MSP (left) and Energy (right) for DiT on RVLCDIP-N and RVL-CDIP-O.

 Fig. 6에서 DiT에서 (N-O) 데이터의 상당한 면적이 겹치는 것을 확인할 수 있다.

Figure 18: Relationship between confidence scores and accuracy (left) and distribution of confidence scores (right) for DiT using MSP.

Confidence score에 따른 모델 성능 비교를 Figure 8-19에서 수행하였다. 모델 성능은 confidence score threshold를 올릴수록 증가 하였다. 반면에 threshold를 올리면 in-domain (RVL-CDIP-N)이 검출되지 않는 비율이 올라간다.

Figure 5: Distributions of predicted labels for each supervised model on the out-of-domain RVLCDIP-O data.

 Fig. 5RVL-CDIP-O에 대한 예측 label 분포를 보여준다. 대부분 모델은 advertisement, presentation, scientific_publication 그리고 resume label로 예측했다. Fig. 7 에서 관련된 잘못 예측한 예시를 확인할 수 있다.

Conclusion

Out-of-distribution data RVL-CDIP-N, out-of-domain RVL-CDIP-O를 추가하여 기존의 RVL-CDIP 데이터를 보완했다. 기존에 RVL-CDIP로 학습된 모델은 in-domain test data는 잘 수행하지만, RVL-CDIP-N의 분류 및 RVL-CDIP-ORVL-CDIP-N의 구별을 어려워하는 것을 확인했다. robust하고 일반화된 모델 개발을 위해 해당 데이터가 기여할 것이라 생각한다.