EXAMS-V: A Multi-Discipline Multilingual Multimodal Exam Benchmark for Evaluating Vision Language Models

Abstract

EXAMS-V는 Multimodal mutilingual exam benchmark
자연 과학, 사회 과학 및 기타 다양한 연구 분야를 포함한 20개의 학교 분야에서 20,932개의 선택형 질문으로 구성
질문은 7개 언어 계열에서 11개 언어로 제공
EXAMS-V는 GPT-4V와 Gemini와 같은 vision-text 모델에서도 도전적인 데이터셋

1 Introduction

VLM이 상당한 진보를 이루어 낸 만큼 기존의 benchmark는 구식이되어 모델의 성능을 정확하게 평가하기 애매해졌다.
기존 LLM 평가에서 학교 시험은 모델 능력을 측정하는 효과적인 방법이였다. MMLU(Hendrycks et al., 2021)는 과학, 공학 및 인문학 분야의 57개 과목을 포함하는 일반적인 benchmark.
VLM benchmark의 경우 1. 영어만 있고, 2. 학교 시험이 아니며, 3. figure과 글을 따로 저장했다.
EXAMS-V는 visual and text content를 통합된 단위로 취급하고, 7 개 계열의 언어를 포함하여 활용성을 향상시켰다.
EXAMS-V에 대해 SOTA LLM과 VLM을 평가했다.

Figure 1: Data distribution for our EXAMS-V dataset: languages and subjects.

2 Related Work

초기 단계의 multimodal LLM 벤치마크는 주로 사진을 이미지로 사용하며, 이미지의 객체, 속성 또는 객체 간의 관계에 대한 질문을 포함한다.
학교 시험 기반 VLM benchmark
- ScienceQA(Lu et al., 2022): 초등학교부터 고등학생 까지의 26개 주제에 걸친 21,208개의 다중 선택 문제를 포함
- MMMU(Yue et al., 2023, https://arxiv.org/pdf/2311.16502): 6개 핵심 분야에서 대학 시험, 퀴즈 및 교과서에서 수집한 11,550개의 질문을 포함 rawdata 확인 필요
  - Chemistry (638, 5.5%)
  - Pharmacy (465, 4.0%)
  - Materials (493, 4.3%)
- MathVista(Lu et al., 2023): 수학적 추론 능력을 평가하기 위한 벤치마크로, 6,141개의 샘플을 포함
- M3Exam (Zhang et al., 2023): 9개 언어를 다루는 최초의 다중 언어 다중 모달 시험 벤치마크. 12,317개의 질문을 포함하며, 2,816개의 질문은 이미지에서 정보를 얻어야 올바른 답변에 도달할 수 있다.
- 주요 차이점은 M3Exam이 단일 질문에서 텍스트와 이미지를 분리하는 반면, 우리는 이미지에 질문을 포함시킨다는 점이다.
EXAM-V의 차이는 이미지에 지문을 포함시키며 다양한 언어를 제공한다.

Table 1: Comparison of EXAMS-V with existing benchmarks. Here, "repurposed" means the benchmark is a compilation of prior datasets, MC refers to multi-choice type questions, and "open" refers to open-ended generation questions.

3 EXAMS-V Dataset

EXAMS-V는 EXAMS 데이터셋(Hardalov et al., 2020)의 다중 모달 확장판으로, 다양한 국가의 교육부에서 제작한 공식 국가 시험에서 수집되었습니다.

3.1 Data Collection and Analysis

Figure 2: Sampled EXAMS-V examples from different languages. The questions require the ability to understand multiple languages in addition to expert perception and reasoning capabilities.

Collection and Preparation of Dataset

고등학교 입학 시험 문제 수집 후 잘라낸 이미지로 변환.
각 페이지의 질문과 답에 bounding box를 labeling하기 위해 open-source 활용.
각 잘라낸 질문에 대한 메타데이터를 생성. 이 메타데이터에는 고유 ID, 질문 스냅샷의 파일 경로, 과목, 학년, 언어 및 질문의 정답이 포함되어 JSON 형태로 저장.

Annotation guideline

주석은 저자에 의해 수동으로 수행
3개에서 5개의 옵션이 있고 정확히 하나의 정답이 있는 다중 선택 질문만 고려 (표준화된 모델 출력을 위함)
Visual context (표, 그래프, figure 또는 기호) 가 있는지 표시

Data Quality Assesment

7개 언어에 대한 데이터 품질 평가 수행 (각 언어 당 50개 임의 추출)
- 이미지 명확성
- 질문 명확성
- 단일 정답
- 기타: 질문 스냅샷 내에 답이 포함된 경우
네 가지 조건을 모두 충족할 때만 완전히 유효

3.2 Data Statictics

Table 2: Comparison of M3Exams with EXAMS-V. Here, interleaved means that multimodal elements, like tables, figures, etc., are interleaved with the textual infor- mation in the image. The average subject per language for EXAMS-V is reported by excluding Polish because Polish is a collection of 55 different professional exams that cannot be directly mapped to conventional subjects.

Language Diversity

Low resource: Bulgarian, Croatian, Serbian

Table 3: Statistics of EXAMS-V dataset. The languages are ordered from high-resource to low-resource languages. Here, # visual Q. refers to questions with multimodal context and # text Q. refers to text only questions.

Parallel Questions

크로아티아 시험 (1147개 이탈리아어, 1207개 세르비아어 질문 제공)
아랍어 시험 (과학, 물리학, 화학, 생물학에서 262개 병렬 영어 질문 제공)

Subject Diversity

다양한 국가에서 83개의 다른 과목을 수집하여 20개의 과목으로 유사한 과목끼리 합쳤다.
과목들은 세 가지 주요 카테고리로 분류된다.
- 자연과학(53.02%)
- 사회과학(27.15%)
- 기타 (19.82%)

Question Complexity

자연과학 분야는 복잡한 추론 능력을 요구
지리와 역사와 관련된 질문은 해당 국가에 대한 특정 지식 요구
전문 시험의 경우 직업에 대한 정확한 이해 요구

3.3 Comparison with Existing Datasets

질문 스냅샷을 시각적 및 텍스트 구성 요소와 함께 전달하는 새로운 방식으로 VLMs를 벤치마킹하는 새로운 방법을 도입하여 다른 데이터셋과 다르다.
간단한 물리적 또는 시간적 추론을 요구한느 기존 benchmark와 달리 EXAMS-V 벤치마크는 고등학교 수준의 과목 및 지역별 지식을 필요로 하는 의도적인 추론을 요구한다.
EXAMS-V에서 잘 수행되는 모델은 일반적인 목적의 작업에서 성인 인간을 능가할 수 있다고 간주될 수 있음을 의미한다.

4 Experimental Setup

균형 잡힌 benchmark로 생성하기 위해 16,724개의 train과 4,208개의 test 세트 분할
- 각 과목-언어 쌍에 대해 가용성에 따라 20에서 100개의 질문을 샘플링
- 크로아티아어, 세르비아어, 이탈리아어와 같은 병렬 데이터가 있는 언어의 경우, 훈련 세트와 테스트 세트 간의 질문 일관성을 유지하기 위해 병렬 분할을 수행
SOTA LLM과 VLM을 zero shot으로 평가 진행 (A100 사용)

4.1 Models

VLMs
- LLaVA-1.5 (Liu et al., 2023a)는 Vicuna의 언어 공간과 시각적 임베딩을 통합
- Qwen-VL-Chat (Bai et al., 2023)은 중국어와 영어 데이터로 훈련된 다국어 모달 채팅 모델
- OpenAI의 최고 성능 모달 모델인 GPT-4V
- Gemini 가족의 중간급 모달 모델인 Gemini-V (Anil et al., 2023)
Augmented LLMs: Optical Character Recognition (OCR, Tesseract)과 Image Captioning (IC, GPT-4V) 두 가지 이미지-텍스트 도구를 언어 모델에 추가
- GPT-3.5-Turbo
- GPT-4
- Gemini Pro

4.2 Evaluation Setup

Accuracy 를 primary metric으로 사용
출력은 {"answer": "choice"} JSON 개체로 반환

Main Results

Table 4: Overall results for different models on EXAMS-V test set. Besides reporting performance for VLMs, we additionally add text-only LLM baselines. The best-performing model in each category is in bold, and the second-best is underlined.

VLM Results
- 임의로 답을 한 random baseline은 19-26% 범위
- GPT-4V가 가장 높은 성능을 보여주며, 전체 평균 점수 42.78%를 달성
- Gemini-V는 GPT-4V 다음으로 전체 평균 31.13%를 달성
- 오픈 소스 VLM은 언어 지원이 제한적(Qwen은 2개, LLaVA는 1개)이며, 이러한 언어에서의 성능은 random baseline 수준
LLMs Augmented with OCR and Captioning.
- OCR과 이미지 캡셔닝으로 증강된 대규모 언어 모델은 단독 비전 언어 모델보다 평균 성능이 우수
- GPT-4 가 그 중에서도 제일 좋은 성능

5.1 Analysis from a Language Perspective

모든 모델이 중국어(zh)에서 random baseline 정도의 결과를 보여줍니다.
- 중국어 집합은 figure, 표 또는 그래프와 같은 시각적 특징의 비율이 가장 높습니다.
중국어 다음으로 아랍어(ar)와 영어(en)가 가장 도전적인 언어로 나타납니다.
- 아랍어 이미지에서 (FIGURE.9) 보기에 기호가 누락됨
- 영어의 어려움은 인도의 공학 대학 입학을 위한 Joint Entrance Exam(JEE)에서 파생된 것으로, 단순히 문제가 너무 어렵다.
GPT-4V
- bg, fr, de, hu 에서 좋은 성능을 보여주는데 이는 매우 적은 Multi-modal 질문 (TABLE.8)
- TABLE.6에서 그래프와 표에서 낮은 성능을 보여주는데 이 종류의 문제가 해당 언어에서 적은 분포를 지님

5.2 Parallel Data Evaluation

Table 5: Fine-grained subject-wise comparison on the parallel Croatian–Serbian–Italian examples. For a particular VLM or augmented LLM, the best-performing language for each subject among the three languages is in bold.

크로아티아어, 세르비아어, 이탈리아어 데이터가 동일한 시험에서 나온 것이므로, 이러한 언어에 대한 병렬 샘플 실험을 진행 (TABLE.5)
GPT-4V의 경우, 크로아티아어와 세르비아어 사이에 상당한 성능 격차가 있으며, 크로아티아어가 세르비아어보다 20.12% 더 우수한 성능을 보입니다. (세르비아어는 키릴 문자를 사용하는 반면, 크로아티아어는 라틴 문자를 사용)
라틴 문자는 더 널리 사용되며 세계에서 가장 많이 사용되는 언어의 대부분이 라틴 문자를 사용합니다. 이는 크로아티아어와 이탈리아어에서 우수한 성능을 보이는 GPT-4V에 기인할 수 있습니다.
Gemini-Vision-Pro의 경우에도 크로아티아어와 세르비아어 사이에 성능 격차가 있습니다. 이탈리아어가 높은 자원 언어로서 Gemini 가족의 모델 내에서 더 큰 대표성을 누리고 있기 때문일 수 있습니다.

5.3 Vision Feture Evaluation

Table 6: Model performance on different vision features.

GPT-4V는 과학적 기호와 figure을 포함하는 질문에 대해 상당히 좋은 성능을 보여줍니다.
Gemini-V는 GPT-4V와 비교하여 표 형식 데이터에서 더 나은 성능을 보일 수 있습니다.

Conclusion and Future Work

EXAMS-V의 개발은 VLM의 다국어 및 다중 모드 능력을 평가하기 위한 벤치마크로서 중요한 이정표를 나타냅니다.
향후 작업에서는 더 많은 이미지 샘플, 과목, 언어 및 모드를 포함하여 데이터셋을 확장할 계획입니다.

Limitations

평가 및 분석의 용이성을 위해 우리는 다중 선택 질문만 고려하고 수집했습니다. 우리는 다중 모드 분석을 네 가지 광범위한 범주로 제한했지만, 이는 더 세분화된 분석으로 확장될 수 있습니다.

저작자표시 비영리 변경금지 (새창열림)

'논문 > Multimodal' 카테고리의 다른 글

MMSci: A Multimodal Multi-Discipline Dataset for PhD-Level Scientific Comprehension (0)	2024.08.28
Do-GOOD: Towards Distribution Shift Evaluation for Pre-Trained Visual Document Understanding Models (0)	2023.12.13
Evaluating Out-of-Distribution Performance on Document Image Classifier (0)	2023.08.31
End-to-end Document Recognition and Understanding with Dessurt (0)	2023.08.24
MGDoc: Pre-training with Multi-granular Hierarchyfor Document Image Understanding (0)	2023.08.01

취미밥상

EXAMS-V: A Multi-Discipline Multilingual Multimodal Exam Benchmark for Evaluating Vision Language Models

Abstract

1 Introduction

2 Related Work

3 EXAMS-V Dataset

3.1 Data Collection and Analysis

Collection and Preparation of Dataset

Annotation guideline

Data Quality Assesment

3.2 Data Statictics

Language Diversity

Parallel Questions

Subject Diversity

Question Complexity

3.3 Comparison with Existing Datasets

4 Experimental Setup

4.1 Models

4.2 Evaluation Setup

Main Results

5.1 Analysis from a Language Perspective

5.2 Parallel Data Evaluation

5.3 Vision Feture Evaluation

Conclusion and Future Work

Limitations

'논문 > Multimodal' 카테고리의 다른 글

티스토리툴바

EXAMS-V: A Multi-Discipline Multilingual Multimodal Exam Benchmark for Evaluating Vision Language Models

Abstract

1 Introduction

2 Related Work

3 EXAMS-V Dataset

3.1 Data Collection and Analysis

Collection and Preparation of Dataset

Annotation guideline

Data Quality Assesment

3.2 Data Statictics

Language Diversity

Parallel Questions

Subject Diversity

Question Complexity

3.3 Comparison with Existing Datasets

4 Experimental Setup

4.1 Models

4.2 Evaluation Setup

Main Results

5.1 Analysis from a Language Perspective

5.2 Parallel Data Evaluation

5.3 Vision Feture Evaluation

Conclusion and Future Work

Limitations

'논문 > Multimodal' 카테고리의 다른 글

'논문/Multimodal' Related Articles

티스토리툴바