Abstract
- EXAMS-V는 Multimodal mutilingual exam benchmark
- 자연 과학, 사회 과학 및 기타 다양한 연구 분야를 포함한 20개의 학교 분야에서 20,932개의 선택형 질문으로 구성
- 질문은 7개 언어 계열에서 11개 언어로 제공
- EXAMS-V는 GPT-4V와 Gemini와 같은 vision-text 모델에서도 도전적인 데이터셋
1 Introduction
- VLM이 상당한 진보를 이루어 낸 만큼 기존의 benchmark는 구식이되어 모델의 성능을 정확하게 평가하기 애매해졌다.
- 기존 LLM 평가에서 학교 시험은 모델 능력을 측정하는 효과적인 방법이였다. MMLU(Hendrycks et al., 2021)는 과학, 공학 및 인문학 분야의 57개 과목을 포함하는 일반적인 benchmark.
- VLM benchmark의 경우 1. 영어만 있고, 2. 학교 시험이 아니며, 3. figure과 글을 따로 저장했다.
- EXAMS-V는 visual and text content를 통합된 단위로 취급하고, 7 개 계열의 언어를 포함하여 활용성을 향상시켰다.
- EXAMS-V에 대해 SOTA LLM과 VLM을 평가했다.
2 Related Work
- 초기 단계의 multimodal LLM 벤치마크는 주로 사진을 이미지로 사용하며, 이미지의 객체, 속성 또는 객체 간의 관계에 대한 질문을 포함한다.
- 학교 시험 기반 VLM benchmark
- ScienceQA(Lu et al., 2022): 초등학교부터 고등학생 까지의 26개 주제에 걸친 21,208개의 다중 선택 문제를 포함
- MMMU(Yue et al., 2023, https://arxiv.org/pdf/2311.16502): 6개 핵심 분야에서 대학 시험, 퀴즈 및 교과서에서 수집한 11,550개의 질문을 포함
rawdata 확인 필요
- Chemistry (638, 5.5%)
- Pharmacy (465, 4.0%)
- Materials (493, 4.3%)
- MathVista(Lu et al., 2023): 수학적 추론 능력을 평가하기 위한 벤치마크로, 6,141개의 샘플을 포함
- M3Exam (Zhang et al., 2023): 9개 언어를 다루는 최초의 다중 언어 다중 모달 시험 벤치마크. 12,317개의 질문을 포함하며, 2,816개의 질문은 이미지에서 정보를 얻어야 올바른 답변에 도달할 수 있다.
- 주요 차이점은 M3Exam이 단일 질문에서 텍스트와 이미지를 분리하는 반면, 우리는 이미지에 질문을 포함시킨다는 점이다.
- EXAM-V의 차이는 이미지에 지문을 포함시키며 다양한 언어를 제공한다.
3 EXAMS-V Dataset
- EXAMS-V는 EXAMS 데이터셋(Hardalov et al., 2020)의 다중 모달 확장판으로, 다양한 국가의 교육부에서 제작한 공식 국가 시험에서 수집되었습니다.
3.1 Data Collection and Analysis
Collection and Preparation of Dataset
- 고등학교 입학 시험 문제 수집 후 잘라낸 이미지로 변환.
- 각 페이지의 질문과 답에 bounding box를 labeling하기 위해 open-source 활용.
- 각 잘라낸 질문에 대한 메타데이터를 생성. 이 메타데이터에는 고유 ID, 질문 스냅샷의 파일 경로, 과목, 학년, 언어 및 질문의 정답이 포함되어 JSON 형태로 저장.
Annotation guideline
- 주석은 저자에 의해 수동으로 수행
- 3개에서 5개의 옵션이 있고 정확히 하나의 정답이 있는 다중 선택 질문만 고려 (표준화된 모델 출력을 위함)
- Visual context (표, 그래프, figure 또는 기호) 가 있는지 표시
Data Quality Assesment
- 7개 언어에 대한 데이터 품질 평가 수행 (각 언어 당 50개 임의 추출)
- 이미지 명확성
- 질문 명확성
- 단일 정답
- 기타: 질문 스냅샷 내에 답이 포함된 경우
- 네 가지 조건을 모두 충족할 때만 완전히 유효
3.2 Data Statictics
Language Diversity
- Low resource: Bulgarian, Croatian, Serbian
Parallel Questions
- 크로아티아 시험 (1147개 이탈리아어, 1207개 세르비아어 질문 제공)
- 아랍어 시험 (과학, 물리학, 화학, 생물학에서 262개 병렬 영어 질문 제공)
Subject Diversity
- 다양한 국가에서 83개의 다른 과목을 수집하여 20개의 과목으로 유사한 과목끼리 합쳤다.
- 과목들은 세 가지 주요 카테고리로 분류된다.
- 자연과학(53.02%)
- 사회과학(27.15%)
- 기타 (19.82%)
Question Complexity
- 자연과학 분야는 복잡한 추론 능력을 요구
- 지리와 역사와 관련된 질문은 해당 국가에 대한 특정 지식 요구
- 전문 시험의 경우 직업에 대한 정확한 이해 요구
3.3 Comparison with Existing Datasets
- 질문 스냅샷을 시각적 및 텍스트 구성 요소와 함께 전달하는 새로운 방식으로 VLMs를 벤치마킹하는 새로운 방법을 도입하여 다른 데이터셋과 다르다.
- 간단한 물리적 또는 시간적 추론을 요구한느 기존 benchmark와 달리 EXAMS-V 벤치마크는 고등학교 수준의 과목 및 지역별 지식을 필요로 하는 의도적인 추론을 요구한다.
- EXAMS-V에서 잘 수행되는 모델은 일반적인 목적의 작업에서 성인 인간을 능가할 수 있다고 간주될 수 있음을 의미한다.
4 Experimental Setup
- 균형 잡힌 benchmark로 생성하기 위해 16,724개의 train과 4,208개의 test 세트 분할
- 각 과목-언어 쌍에 대해 가용성에 따라 20에서 100개의 질문을 샘플링
- 크로아티아어, 세르비아어, 이탈리아어와 같은 병렬 데이터가 있는 언어의 경우, 훈련 세트와 테스트 세트 간의 질문 일관성을 유지하기 위해 병렬 분할을 수행
- SOTA LLM과 VLM을 zero shot으로 평가 진행 (A100 사용)
4.1 Models
- VLMs
- LLaVA-1.5 (Liu et al., 2023a)는 Vicuna의 언어 공간과 시각적 임베딩을 통합
- Qwen-VL-Chat (Bai et al., 2023)은 중국어와 영어 데이터로 훈련된 다국어 모달 채팅 모델
- OpenAI의 최고 성능 모달 모델인 GPT-4V
- Gemini 가족의 중간급 모달 모델인 Gemini-V (Anil et al., 2023)
- Augmented LLMs: Optical Character Recognition (OCR, Tesseract)과 Image Captioning (IC, GPT-4V) 두 가지 이미지-텍스트 도구를 언어 모델에 추가
- GPT-3.5-Turbo
- GPT-4
- Gemini Pro
4.2 Evaluation Setup
- Accuracy 를 primary metric으로 사용
- 출력은 {"answer": "choice"} JSON 개체로 반환
Main Results
- VLM Results
- 임의로 답을 한 random baseline은 19-26% 범위
- GPT-4V가 가장 높은 성능을 보여주며, 전체 평균 점수 42.78%를 달성
- Gemini-V는 GPT-4V 다음으로 전체 평균 31.13%를 달성
- 오픈 소스 VLM은 언어 지원이 제한적(Qwen은 2개, LLaVA는 1개)이며, 이러한 언어에서의 성능은 random baseline 수준
- LLMs Augmented with OCR and Captioning.
- OCR과 이미지 캡셔닝으로 증강된 대규모 언어 모델은 단독 비전 언어 모델보다 평균 성능이 우수
- GPT-4 가 그 중에서도 제일 좋은 성능
5.1 Analysis from a Language Perspective
- 모든 모델이 중국어(zh)에서 random baseline 정도의 결과를 보여줍니다.
- 중국어 집합은 figure, 표 또는 그래프와 같은 시각적 특징의 비율이 가장 높습니다.
- 중국어 다음으로 아랍어(ar)와 영어(en)가 가장 도전적인 언어로 나타납니다.
- 아랍어 이미지에서 (FIGURE.9) 보기에 기호가 누락됨
- 영어의 어려움은 인도의 공학 대학 입학을 위한 Joint Entrance Exam(JEE)에서 파생된 것으로, 단순히 문제가 너무 어렵다.
- GPT-4V
- bg, fr, de, hu 에서 좋은 성능을 보여주는데 이는 매우 적은 Multi-modal 질문 (TABLE.8)
- TABLE.6에서 그래프와 표에서 낮은 성능을 보여주는데 이 종류의 문제가 해당 언어에서 적은 분포를 지님
5.2 Parallel Data Evaluation
- 크로아티아어, 세르비아어, 이탈리아어 데이터가 동일한 시험에서 나온 것이므로, 이러한 언어에 대한 병렬 샘플 실험을 진행 (TABLE.5)
- GPT-4V의 경우, 크로아티아어와 세르비아어 사이에 상당한 성능 격차가 있으며, 크로아티아어가 세르비아어보다 20.12% 더 우수한 성능을 보입니다. (세르비아어는 키릴 문자를 사용하는 반면, 크로아티아어는 라틴 문자를 사용)
- 라틴 문자는 더 널리 사용되며 세계에서 가장 많이 사용되는 언어의 대부분이 라틴 문자를 사용합니다. 이는 크로아티아어와 이탈리아어에서 우수한 성능을 보이는 GPT-4V에 기인할 수 있습니다.
- Gemini-Vision-Pro의 경우에도 크로아티아어와 세르비아어 사이에 성능 격차가 있습니다. 이탈리아어가 높은 자원 언어로서 Gemini 가족의 모델 내에서 더 큰 대표성을 누리고 있기 때문일 수 있습니다.
5.3 Vision Feture Evaluation
- GPT-4V는 과학적 기호와 figure을 포함하는 질문에 대해 상당히 좋은 성능을 보여줍니다.
- Gemini-V는 GPT-4V와 비교하여 표 형식 데이터에서 더 나은 성능을 보일 수 있습니다.
Conclusion and Future Work
- EXAMS-V의 개발은 VLM의 다국어 및 다중 모드 능력을 평가하기 위한 벤치마크로서 중요한 이정표를 나타냅니다.
- 향후 작업에서는 더 많은 이미지 샘플, 과목, 언어 및 모드를 포함하여 데이터셋을 확장할 계획입니다.
Limitations
- 평가 및 분석의 용이성을 위해 우리는 다중 선택 질문만 고려하고 수집했습니다. 우리는 다중 모드 분석을 네 가지 광범위한 범주로 제한했지만, 이는 더 세분화된 분석으로 확장될 수 있습니다.