본문 바로가기

multimodal

(3)
EXAMS-V: A Multi-Discipline Multilingual Multimodal Exam Benchmark for Evaluating Vision Language Models AbstractEXAMS-V는 Multimodal mutilingual exam benchmark자연 과학, 사회 과학 및 기타 다양한 연구 분야를 포함한 20개의 학교 분야에서 20,932개의 선택형 질문으로 구성질문은 7개 언어 계열에서 11개 언어로 제공EXAMS-V는 GPT-4V와 Gemini와 같은 vision-text 모델에서도 도전적인 데이터셋1 IntroductionVLM이 상당한 진보를 이루어 낸 만큼 기존의 benchmark는 구식이되어 모델의 성능을 정확하게 평가하기 애매해졌다.기존 LLM 평가에서 학교 시험은 모델 능력을 측정하는 효과적인 방법이였다. MMLU(Hendrycks et al., 2021)는 과학, 공학 및 인문학 분야의 57개 과목을 포함하는 일반적인 benchmark..
MGDoc: Pre-training with Multi-granular Hierarchyfor Document Image Understanding Abstract 문서는 fine granularity(e.g., words), medium granularity(e.g., paragraphs or figures), coarse granularity(e.g., the whole page)와 같이 계층적 구조로 이루어져 있다. 각 granularity 수준 차이와 계층적 상관관계는 문서 이미지 파악에 중요하다. 과거의 모델 중 word-level 모델은 상위 계층의 정보를 활용하지 못하는 반면 region-level 모델은 paragraphs 나 text blocks를 단일 embedding하여 word-level 특징을 뽑는데는 부족했다. 이러만 문제에 입각하여 MGDoc을 제안한다. Multi-modal multi-granular pre-trainin..
Unifying Vision, Text, and Layout for Universal Document Processing Abstract 논문에서 다양한 task 형식에 text, image, layout을 통합하는 foundation Document AI 모델인 Universal Document Processing(UDOP)을 제안한다. UDOP는 text와 image 간의 spatial 상관 관계를 활용하여 uniform representation으로 표현하고, 새로운 Vision-Text-Layout Transformer를 통해 UDOP는 pretrain 및 multi 도메인 downstream task를 prompt-based sequence generation scheme으로 통합한다. UDOP는 혁신적인 self-supervised objectives 와 다양한 label이 지정된 데이터를 사용하여 lebel이 ..