본문 바로가기

논문/Multimodal

EXAMS-V: A Multi-Discipline Multilingual Multimodal Exam Benchmark for Evaluating Vision Language Models

Abstract

  • EXAMS-V는 Multimodal mutilingual exam benchmark
  • 자연 과학, 사회 과학 및 기타 다양한 연구 분야를 포함한 20개의 학교 분야에서 20,932개의 선택형 질문으로 구성
  • 질문은 7개 언어 계열에서 11개 언어로 제공
  • EXAMS-V는 GPT-4V와 Gemini와 같은 vision-text 모델에서도 도전적인 데이터셋

1 Introduction

  • VLM이 상당한 진보를 이루어 낸 만큼 기존의 benchmark는 구식이되어 모델의 성능을 정확하게 평가하기 애매해졌다.
  • 기존 LLM 평가에서 학교 시험은 모델 능력을 측정하는 효과적인 방법이였다. MMLU(Hendrycks et al., 2021)는 과학, 공학 및 인문학 분야의 57개 과목을 포함하는 일반적인 benchmark.
  • VLM benchmark의 경우 1. 영어만 있고, 2. 학교 시험이 아니며, 3. figure과 글을 따로 저장했다.
  • EXAMS-V는 visual and text content를 통합된 단위로 취급하고, 7 개 계열의 언어를 포함하여 활용성을 향상시켰다.
  • EXAMS-V에 대해 SOTA LLM과 VLM을 평가했다.

Figure 1: Data distribution for our EXAMS-V dataset: languages and subjects.

2 Related Work

  • 초기 단계의 multimodal LLM 벤치마크는 주로 사진을 이미지로 사용하며, 이미지의 객체, 속성 또는 객체 간의 관계에 대한 질문을 포함한다.
  • 학교 시험 기반 VLM benchmark
    • ScienceQA(Lu et al., 2022): 초등학교부터 고등학생 까지의 26개 주제에 걸친 21,208개의 다중 선택 문제를 포함
    • MMMU(Yue et al., 2023, https://arxiv.org/pdf/2311.16502): 6개 핵심 분야에서 대학 시험, 퀴즈 및 교과서에서 수집한 11,550개의 질문을 포함 rawdata 확인 필요
      • Chemistry (638, 5.5%)
      • Pharmacy (465, 4.0%)
      • Materials (493, 4.3%)
    • MathVista(Lu et al., 2023): 수학적 추론 능력을 평가하기 위한 벤치마크로, 6,141개의 샘플을 포함
    • M3Exam (Zhang et al., 2023): 9개 언어를 다루는 최초의 다중 언어 다중 모달 시험 벤치마크. 12,317개의 질문을 포함하며, 2,816개의 질문은 이미지에서 정보를 얻어야 올바른 답변에 도달할 수 있다.
    • 주요 차이점은 M3Exam이 단일 질문에서 텍스트와 이미지를 분리하는 반면, 우리는 이미지에 질문을 포함시킨다는 점이다.
  • EXAM-V의 차이는 이미지에 지문을 포함시키며 다양한 언어를 제공한다.

Table 1: Comparison of EXAMS-V with existing benchmarks. Here, "repurposed" means the benchmark is a compilation of prior datasets, MC refers to multi-choice type questions, and "open" refers to open-ended generation questions.

3 EXAMS-V Dataset

  • EXAMS-V는 EXAMS 데이터셋(Hardalov et al., 2020)의 다중 모달 확장판으로, 다양한 국가의 교육부에서 제작한 공식 국가 시험에서 수집되었습니다.

3.1 Data Collection and Analysis

Figure 2: Sampled EXAMS-V examples from different languages. The questions require the ability to understand multiple languages in addition to expert perception and reasoning capabilities.

Collection and Preparation of Dataset

  • 고등학교 입학 시험 문제 수집 후 잘라낸 이미지로 변환.
  • 각 페이지의 질문과 답에 bounding box를 labeling하기 위해 open-source 활용.
  • 각 잘라낸 질문에 대한 메타데이터를 생성. 이 메타데이터에는 고유 ID, 질문 스냅샷의 파일 경로, 과목, 학년, 언어 및 질문의 정답이 포함되어 JSON 형태로 저장.

Annotation guideline

  • 주석은 저자에 의해 수동으로 수행
  • 3개에서 5개의 옵션이 있고 정확히 하나의 정답이 있는 다중 선택 질문만 고려 (표준화된 모델 출력을 위함)
  • Visual context (표, 그래프, figure 또는 기호) 가 있는지 표시

Data Quality Assesment

  • 7개 언어에 대한 데이터 품질 평가 수행 (각 언어 당 50개 임의 추출)
    • 이미지 명확성
    • 질문 명확성
    • 단일 정답
    • 기타: 질문 스냅샷 내에 답이 포함된 경우
  • 네 가지 조건을 모두 충족할 때만 완전히 유효

3.2 Data Statictics

Table 2: Comparison of M3Exams with EXAMS-V. Here, interleaved means that multimodal elements, like tables, figures, etc., are interleaved with the textual infor- mation in the image. The average subject per language for EXAMS-V is reported by excluding Polish because Polish is a collection of 55 different professional exams that cannot be directly mapped to conventional subjects.

Language Diversity

  • Low resource: Bulgarian, Croatian, Serbian

Table 3: Statistics of EXAMS-V dataset. The languages are ordered from high-resource to low-resource languages. Here, # visual Q. refers to questions with multimodal context and # text Q. refers to text only questions.

Parallel Questions

  • 크로아티아 시험 (1147개 이탈리아어, 1207개 세르비아어 질문 제공)
  • 아랍어 시험 (과학, 물리학, 화학, 생물학에서 262개 병렬 영어 질문 제공)

Subject Diversity

  • 다양한 국가에서 83개의 다른 과목을 수집하여 20개의 과목으로 유사한 과목끼리 합쳤다.
  • 과목들은 세 가지 주요 카테고리로 분류된다.
    • 자연과학(53.02%)
    • 사회과학(27.15%)
    • 기타 (19.82%)

Question Complexity

  • 자연과학 분야는 복잡한 추론 능력을 요구
  • 지리와 역사와 관련된 질문은 해당 국가에 대한 특정 지식 요구
  • 전문 시험의 경우 직업에 대한 정확한 이해 요구

3.3 Comparison with Existing Datasets

  • 질문 스냅샷을 시각적 및 텍스트 구성 요소와 함께 전달하는 새로운 방식으로 VLMs를 벤치마킹하는 새로운 방법을 도입하여 다른 데이터셋과 다르다.
  • 간단한 물리적 또는 시간적 추론을 요구한느 기존 benchmark와 달리 EXAMS-V 벤치마크는 고등학교 수준의 과목 및 지역별 지식을 필요로 하는 의도적인 추론을 요구한다.
  • EXAMS-V에서 잘 수행되는 모델은 일반적인 목적의 작업에서 성인 인간을 능가할 수 있다고 간주될 수 있음을 의미한다.

4 Experimental Setup

  • 균형 잡힌 benchmark로 생성하기 위해 16,724개의 train과 4,208개의 test 세트 분할
    • 각 과목-언어 쌍에 대해 가용성에 따라 20에서 100개의 질문을 샘플링
    • 크로아티아어, 세르비아어, 이탈리아어와 같은 병렬 데이터가 있는 언어의 경우, 훈련 세트와 테스트 세트 간의 질문 일관성을 유지하기 위해 병렬 분할을 수행
  • SOTA LLM과 VLM을 zero shot으로 평가 진행 (A100 사용)

4.1 Models

  • VLMs
    • LLaVA-1.5 (Liu et al., 2023a)는 Vicuna의 언어 공간과 시각적 임베딩을 통합
    • Qwen-VL-Chat (Bai et al., 2023)은 중국어와 영어 데이터로 훈련된 다국어 모달 채팅 모델
    • OpenAI의 최고 성능 모달 모델인 GPT-4V
    • Gemini 가족의 중간급 모달 모델인 Gemini-V (Anil et al., 2023)
  • Augmented LLMs: Optical Character Recognition (OCR, Tesseract)과 Image Captioning (IC, GPT-4V) 두 가지 이미지-텍스트 도구를 언어 모델에 추가
    • GPT-3.5-Turbo
    • GPT-4
    • Gemini Pro

4.2 Evaluation Setup

  • Accuracy 를 primary metric으로 사용
  • 출력은 {"answer": "choice"} JSON 개체로 반환

Main Results

Table 4: Overall results for different models on EXAMS-V test set. Besides reporting performance for VLMs, we additionally add text-only LLM baselines. The best-performing model in each category is in bold, and the second-best is underlined.

  • VLM Results
    • 임의로 답을 한 random baseline은 19-26% 범위
    • GPT-4V가 가장 높은 성능을 보여주며, 전체 평균 점수 42.78%를 달성
    • Gemini-V는 GPT-4V 다음으로 전체 평균 31.13%를 달성
    • 오픈 소스 VLM은 언어 지원이 제한적(Qwen은 2개, LLaVA는 1개)이며, 이러한 언어에서의 성능은 random baseline 수준
  • LLMs Augmented with OCR and Captioning.
    • OCR과 이미지 캡셔닝으로 증강된 대규모 언어 모델은 단독 비전 언어 모델보다 평균 성능이 우수
    • GPT-4 가 그 중에서도 제일 좋은 성능

5.1 Analysis from a Language Perspective

  • 모든 모델이 중국어(zh)에서 random baseline 정도의 결과를 보여줍니다.
    • 중국어 집합은 figure, 표 또는 그래프와 같은 시각적 특징의 비율이 가장 높습니다.
  • 중국어 다음으로 아랍어(ar)와 영어(en)가 가장 도전적인 언어로 나타납니다.
    • 아랍어 이미지에서 (FIGURE.9) 보기에 기호가 누락됨
    • 영어의 어려움은 인도의 공학 대학 입학을 위한 Joint Entrance Exam(JEE)에서 파생된 것으로, 단순히 문제가 너무 어렵다.
  • GPT-4V
    • bg, fr, de, hu 에서 좋은 성능을 보여주는데 이는 매우 적은 Multi-modal 질문 (TABLE.8)
    • TABLE.6에서 그래프와 표에서 낮은 성능을 보여주는데 이 종류의 문제가 해당 언어에서 적은 분포를 지님

5.2 Parallel Data Evaluation

Table 5: Fine-grained subject-wise comparison on the parallel Croatian–Serbian–Italian examples. For a particular VLM or augmented LLM, the best-performing language for each subject among the three languages is in bold.

  • 크로아티아어, 세르비아어, 이탈리아어 데이터가 동일한 시험에서 나온 것이므로, 이러한 언어에 대한 병렬 샘플 실험을 진행 (TABLE.5)
  • GPT-4V의 경우, 크로아티아어와 세르비아어 사이에 상당한 성능 격차가 있으며, 크로아티아어가 세르비아어보다 20.12% 더 우수한 성능을 보입니다. (세르비아어는 키릴 문자를 사용하는 반면, 크로아티아어는 라틴 문자를 사용)
  • 라틴 문자는 더 널리 사용되며 세계에서 가장 많이 사용되는 언어의 대부분이 라틴 문자를 사용합니다. 이는 크로아티아어와 이탈리아어에서 우수한 성능을 보이는 GPT-4V에 기인할 수 있습니다.
  • Gemini-Vision-Pro의 경우에도 크로아티아어와 세르비아어 사이에 성능 격차가 있습니다. 이탈리아어가 높은 자원 언어로서 Gemini 가족의 모델 내에서 더 큰 대표성을 누리고 있기 때문일 수 있습니다.

5.3 Vision Feture Evaluation

Table 6: Model performance on different vision features.

  • GPT-4V는 과학적 기호와 figure을 포함하는 질문에 대해 상당히 좋은 성능을 보여줍니다.
  • Gemini-V는 GPT-4V와 비교하여 표 형식 데이터에서 더 나은 성능을 보일 수 있습니다.

Conclusion and Future Work

  • EXAMS-V의 개발은 VLM의 다국어 및 다중 모드 능력을 평가하기 위한 벤치마크로서 중요한 이정표를 나타냅니다.
  • 향후 작업에서는 더 많은 이미지 샘플, 과목, 언어 및 모드를 포함하여 데이터셋을 확장할 계획입니다.

Limitations

  • 평가 및 분석의 용이성을 위해 우리는 다중 선택 질문만 고려하고 수집했습니다. 우리는 다중 모드 분석을 네 가지 광범위한 범주로 제한했지만, 이는 더 세분화된 분석으로 확장될 수 있습니다.