MathVista(Lu et al., 2023): 수학적 추론 능력을 평가하기 위한 벤치마크로, 6,141개의 샘플을 포함
M3Exam (Zhang et al., 2023): 9개 언어를 다루는 최초의 다중 언어 다중 모달 시험 벤치마크. 12,317개의 질문을 포함하며, 2,816개의 질문은 이미지에서 정보를 얻어야 올바른 답변에 도달할 수 있다.
주요 차이점은 M3Exam이 단일 질문에서 텍스트와 이미지를 분리하는 반면, 우리는 이미지에 질문을 포함시킨다는 점이다.
EXAM-V의 차이는 이미지에 지문을 포함시키며 다양한 언어를 제공한다.
Table 1: Comparison of EXAMS-V with existing benchmarks. Here, "repurposed" means the benchmark is a compilation of prior datasets, MC refers to multi-choice type questions, and "open" refers to open-ended generation questions.
3 EXAMS-V Dataset
EXAMS-V는 EXAMS 데이터셋(Hardalov et al., 2020)의 다중 모달 확장판으로, 다양한 국가의 교육부에서 제작한 공식 국가 시험에서 수집되었습니다.
3.1 Data Collection and Analysis
Figure 2: Sampled EXAMS-V examples from different languages. The questions require the ability to understand multiple languages in addition to expert perception and reasoning capabilities.
Collection and Preparation of Dataset
고등학교 입학 시험 문제 수집 후 잘라낸 이미지로 변환.
각 페이지의 질문과 답에 bounding box를 labeling하기 위해 open-source 활용.
각 잘라낸 질문에 대한 메타데이터를 생성. 이 메타데이터에는 고유 ID, 질문 스냅샷의 파일 경로, 과목, 학년, 언어 및 질문의 정답이 포함되어 JSON 형태로 저장.
Annotation guideline
주석은 저자에 의해 수동으로 수행
3개에서 5개의 옵션이 있고 정확히 하나의 정답이 있는 다중 선택 질문만 고려 (표준화된 모델 출력을 위함)
Visual context (표, 그래프, figure 또는 기호) 가 있는지 표시
Data Quality Assesment
7개 언어에 대한 데이터 품질 평가 수행 (각 언어 당 50개 임의 추출)
이미지 명확성
질문 명확성
단일 정답
기타: 질문 스냅샷 내에 답이 포함된 경우
네 가지 조건을 모두 충족할 때만 완전히 유효
3.2 Data Statictics
Table 2: Comparison of M3Exams with EXAMS-V. Here, interleaved means that multimodal elements, like tables, figures, etc., are interleaved with the textual infor- mation in the image. The average subject per language for EXAMS-V is reported by excluding Polish because Polish is a collection of 55 different professional exams that cannot be directly mapped to conventional subjects.
Language Diversity
Low resource: Bulgarian, Croatian, Serbian
Table 3: Statistics of EXAMS-V dataset. The languages are ordered from high-resource to low-resource languages. Here, # visual Q. refers to questions with multimodal context and # text Q. refers to text only questions.
Parallel Questions
크로아티아 시험 (1147개 이탈리아어, 1207개 세르비아어 질문 제공)
아랍어 시험 (과학, 물리학, 화학, 생물학에서 262개 병렬 영어 질문 제공)
Subject Diversity
다양한 국가에서 83개의 다른 과목을 수집하여 20개의 과목으로 유사한 과목끼리 합쳤다.
과목들은 세 가지 주요 카테고리로 분류된다.
자연과학(53.02%)
사회과학(27.15%)
기타 (19.82%)
Question Complexity
자연과학 분야는 복잡한 추론 능력을 요구
지리와 역사와 관련된 질문은 해당 국가에 대한 특정 지식 요구
전문 시험의 경우 직업에 대한 정확한 이해 요구
3.3 Comparison with Existing Datasets
질문 스냅샷을 시각적 및 텍스트 구성 요소와 함께 전달하는 새로운 방식으로 VLMs를 벤치마킹하는 새로운 방법을 도입하여 다른 데이터셋과 다르다.
간단한 물리적 또는 시간적 추론을 요구한느 기존 benchmark와 달리 EXAMS-V 벤치마크는 고등학교 수준의 과목 및 지역별 지식을 필요로 하는 의도적인 추론을 요구한다.
EXAMS-V에서 잘 수행되는 모델은 일반적인 목적의 작업에서 성인 인간을 능가할 수 있다고 간주될 수 있음을 의미한다.
4 Experimental Setup
균형 잡힌 benchmark로 생성하기 위해 16,724개의 train과 4,208개의 test 세트 분할
각 과목-언어 쌍에 대해 가용성에 따라 20에서 100개의 질문을 샘플링
크로아티아어, 세르비아어, 이탈리아어와 같은 병렬 데이터가 있는 언어의 경우, 훈련 세트와 테스트 세트 간의 질문 일관성을 유지하기 위해 병렬 분할을 수행
SOTA LLM과 VLM을 zero shot으로 평가 진행 (A100 사용)
4.1 Models
VLMs
LLaVA-1.5 (Liu et al., 2023a)는 Vicuna의 언어 공간과 시각적 임베딩을 통합
Qwen-VL-Chat (Bai et al., 2023)은 중국어와 영어 데이터로 훈련된 다국어 모달 채팅 모델
OpenAI의 최고 성능 모달 모델인 GPT-4V
Gemini 가족의 중간급 모달 모델인 Gemini-V (Anil et al., 2023)
Augmented LLMs: Optical Character Recognition (OCR, Tesseract)과 Image Captioning (IC, GPT-4V) 두 가지 이미지-텍스트 도구를 언어 모델에 추가
GPT-3.5-Turbo
GPT-4
Gemini Pro
4.2 Evaluation Setup
Accuracy 를 primary metric으로 사용
출력은 {"answer": "choice"} JSON 개체로 반환
Main Results
Table 4: Overall results for different models on EXAMS-V test set. Besides reporting performance for VLMs, we additionally add text-only LLM baselines. The best-performing model in each category is in bold, and the second-best is underlined.
VLM Results
임의로 답을 한 random baseline은 19-26% 범위
GPT-4V가 가장 높은 성능을 보여주며, 전체 평균 점수 42.78%를 달성
Gemini-V는 GPT-4V 다음으로 전체 평균 31.13%를 달성
오픈 소스 VLM은 언어 지원이 제한적(Qwen은 2개, LLaVA는 1개)이며, 이러한 언어에서의 성능은 random baseline 수준
LLMs Augmented with OCR and Captioning.
OCR과 이미지 캡셔닝으로 증강된 대규모 언어 모델은 단독 비전 언어 모델보다 평균 성능이 우수
GPT-4 가 그 중에서도 제일 좋은 성능
5.1 Analysis from a Language Perspective
모든 모델이 중국어(zh)에서 random baseline 정도의 결과를 보여줍니다.
중국어 집합은 figure, 표 또는 그래프와 같은 시각적 특징의 비율이 가장 높습니다.
중국어 다음으로 아랍어(ar)와 영어(en)가 가장 도전적인 언어로 나타납니다.
아랍어 이미지에서 (FIGURE.9) 보기에 기호가 누락됨
영어의 어려움은 인도의 공학 대학 입학을 위한 Joint Entrance Exam(JEE)에서 파생된 것으로, 단순히 문제가 너무 어렵다.
GPT-4V
bg, fr, de, hu 에서 좋은 성능을 보여주는데 이는 매우 적은 Multi-modal 질문 (TABLE.8)
TABLE.6에서 그래프와 표에서 낮은 성능을 보여주는데 이 종류의 문제가 해당 언어에서 적은 분포를 지님
5.2 Parallel Data Evaluation
Table 5: Fine-grained subject-wise comparison on the parallel Croatian–Serbian–Italian examples. For a particular VLM or augmented LLM, the best-performing language for each subject among the three languages is in bold.
크로아티아어, 세르비아어, 이탈리아어 데이터가 동일한 시험에서 나온 것이므로, 이러한 언어에 대한 병렬 샘플 실험을 진행 (TABLE.5)
GPT-4V의 경우, 크로아티아어와 세르비아어 사이에 상당한 성능 격차가 있으며, 크로아티아어가 세르비아어보다 20.12% 더 우수한 성능을 보입니다. (세르비아어는 키릴 문자를 사용하는 반면, 크로아티아어는 라틴 문자를 사용)
라틴 문자는 더 널리 사용되며 세계에서 가장 많이 사용되는 언어의 대부분이 라틴 문자를 사용합니다. 이는 크로아티아어와 이탈리아어에서 우수한 성능을 보이는 GPT-4V에 기인할 수 있습니다.
Gemini-Vision-Pro의 경우에도 크로아티아어와 세르비아어 사이에 성능 격차가 있습니다. 이탈리아어가 높은 자원 언어로서 Gemini 가족의 모델 내에서 더 큰 대표성을 누리고 있기 때문일 수 있습니다.
5.3 Vision Feture Evaluation
Table 6: Model performance on different vision features.
GPT-4V는 과학적 기호와 figure을 포함하는 질문에 대해 상당히 좋은 성능을 보여줍니다.
Gemini-V는 GPT-4V와 비교하여 표 형식 데이터에서 더 나은 성능을 보일 수 있습니다.
Conclusion and Future Work
EXAMS-V의 개발은 VLM의 다국어 및 다중 모드 능력을 평가하기 위한 벤치마크로서 중요한 이정표를 나타냅니다.
향후 작업에서는 더 많은 이미지 샘플, 과목, 언어 및 모드를 포함하여 데이터셋을 확장할 계획입니다.
Limitations
평가 및 분석의 용이성을 위해 우리는 다중 선택 질문만 고려하고 수집했습니다. 우리는 다중 모드 분석을 네 가지 광범위한 범주로 제한했지만, 이는 더 세분화된 분석으로 확장될 수 있습니다.