본문 바로가기

논문/Multimodal

(10)
MMSci: A Multimodal Multi-Discipline Dataset for PhD-Level Scientific Comprehension https://github.com/Leezekun/MMSciAbstract72개의 과학 분야의 Nature Communications 저널에 게재된 개방형 과학 기사에서 multi-modal 데이터셋을 수집했습니다.우리는 다양한 작업과 설정을 포함한 벤치마크를 만들어 LMMs가 과학 figure과 내용을 이해하는 능력을 종합적으로 평가했습니다.평가 결과, 많은 오픈 소스 모델이 상당한 어려움을 겪었고, 심지어 GPT-4V와 GPT-4o도 어려움을 겪었습니다.시각적 지시 사항을 따르는 데이터를 구성하여 7B LLaVA 모델이 우리의 벤치마크에서 GPT-4V/o와 유사한 성능을 달성할 수 있도록 했습니다.텍스트와 이미지를 번갈아 사용하여 LMM의 사전 훈련에 사용하는 방법을 조사했으며, 재료 생성 작업에서 ..
EXAMS-V: A Multi-Discipline Multilingual Multimodal Exam Benchmark for Evaluating Vision Language Models AbstractEXAMS-V는 Multimodal mutilingual exam benchmark자연 과학, 사회 과학 및 기타 다양한 연구 분야를 포함한 20개의 학교 분야에서 20,932개의 선택형 질문으로 구성질문은 7개 언어 계열에서 11개 언어로 제공EXAMS-V는 GPT-4V와 Gemini와 같은 vision-text 모델에서도 도전적인 데이터셋1 IntroductionVLM이 상당한 진보를 이루어 낸 만큼 기존의 benchmark는 구식이되어 모델의 성능을 정확하게 평가하기 애매해졌다.기존 LLM 평가에서 학교 시험은 모델 능력을 측정하는 효과적인 방법이였다. MMLU(Hendrycks et al., 2021)는 과학, 공학 및 인문학 분야의 57개 과목을 포함하는 일반적인 benchmark..
Do-GOOD: Towards Distribution Shift Evaluation for Pre-Trained Visual Document Understanding Models ABSTRACT 기존 visual document understanding (VDU) 모델은 다른 분포의 데이터에 좋은 성능을 보여주지 못함 out-of-distribution (OOD) benchmark Do-GOOD을 개발 (9 OOD dataset, 3 VDU related tasks) 5개의 최신 VDU 모델 평가 결과 OOD에 취약한 결과 1 INTRODUCTION Background. 문서 이미지 처리는 삶에서 빈번하게 일어나고 있으며 최근 AI 모델을 통해 어느 정도 성능을 달성 Motivation. 모델 성능이 OOD dataset에 저하된다는 것을 알았으며 robustness를 평가하기 위한 benchmark도 보고되었다. 비록 RVL-CDIP OOD dataset의 이미지가 문서 분류에..
Evaluating Out-of-Distribution Performance on Document Image Classifier Abstract RVL-CDIP는 좋은 문서 분류 benchmark지만 out-of-distribution 문서에 대한 평가가 포함되어 있지 않다. 따라서 본 논문에서는 새로운 out-of-distribution benchmark를 소개한다. 새 데이터에는 두 종류의 out-of-distribution 문서가 추가되었다. RVL-CDIP-O: 16개의 domain 에 속하지 않음 RVL-CDIP-N: 16개 안에 속하지만 새로운 분포에 속함 기존의 RVL-CDIP 성능대비 새로운 benchmark를 기준으로 accuracy는 15-30% 떨어졌다. 새로운 문서 분류 benchmark는 문서 분류기의 out-of-distribution 성능을 분석할 수 있다. Introduction RVL-CDIP는 si..
End-to-end Document Recognition and Understanding with Dessurt Abstract Document understanding transformer인 Dessurt를 소개 Document image와 task string을 입력으로 받고 autoregressive하게 텍스트를 출력 End-to-end 아키텍쳐로 document understanding에 text recognition까지 추가로 수행 9개의 다른 task에 대해 효과적인 성능을 달성 Introduction Document understanding 분야에 많은 연구가 진행중이며 대표적으로 LayoutLM이 있다. LayoutLM Family BERT-like transformers에 spatial/layout 정보와 visual feature 추가 Document image로 사전학습되었으며 각 task로 미..
MGDoc: Pre-training with Multi-granular Hierarchyfor Document Image Understanding Abstract 문서는 fine granularity(e.g., words), medium granularity(e.g., paragraphs or figures), coarse granularity(e.g., the whole page)와 같이 계층적 구조로 이루어져 있다. 각 granularity 수준 차이와 계층적 상관관계는 문서 이미지 파악에 중요하다. 과거의 모델 중 word-level 모델은 상위 계층의 정보를 활용하지 못하는 반면 region-level 모델은 paragraphs 나 text blocks를 단일 embedding하여 word-level 특징을 뽑는데는 부족했다. 이러만 문제에 입각하여 MGDoc을 제안한다. Multi-modal multi-granular pre-trainin..
ERNIE-Layout: Layout Knowledge Enhanced Pre-trainingfor Visually-rich Document Understanding Abstract 최근 많은 visuall-rich document understanding의 pre-training 기법이 많은 발전을 이루었지만 여전히 layout-centered knowledge의 사용에는 부족함이 있다. 이 논문에서는 ERNIE-Layout이라는 text와 layout 및 image 정보를 잘 합쳐서 layout 지식을 향상시키는 모델을 제안한다. 구체적으로 먼저 input sequence를 재정렬한 다음 문서의 적절한 읽기 순서를 학습하기 위해 pre-training task인 읽기 순서 예측을 제시한다. 모델의 layout 인식을 향상시키기 위해 spatial-aware disentengled attion을 multi-modal transformer에 합치고 replaced r..
Unifying Vision, Text, and Layout for Universal Document Processing Abstract 논문에서 다양한 task 형식에 text, image, layout을 통합하는 foundation Document AI 모델인 Universal Document Processing(UDOP)을 제안한다. UDOP는 text와 image 간의 spatial 상관 관계를 활용하여 uniform representation으로 표현하고, 새로운 Vision-Text-Layout Transformer를 통해 UDOP는 pretrain 및 multi 도메인 downstream task를 prompt-based sequence generation scheme으로 통합한다. UDOP는 혁신적인 self-supervised objectives 와 다양한 label이 지정된 데이터를 사용하여 lebel이 ..