MMSci: A Multimodal Multi-Discipline Dataset for PhD-Level Scientific Comprehension

https://github.com/Leezekun/MMSci

Abstract

72개의 과학 분야의 Nature Communications 저널에 게재된 개방형 과학 기사에서 multi-modal 데이터셋을 수집했습니다.
우리는 다양한 작업과 설정을 포함한 벤치마크를 만들어 LMMs가 과학 figure과 내용을 이해하는 능력을 종합적으로 평가했습니다.
평가 결과, 많은 오픈 소스 모델이 상당한 어려움을 겪었고, 심지어 GPT-4V와 GPT-4o도 어려움을 겪었습니다.
시각적 지시 사항을 따르는 데이터를 구성하여 7B LLaVA 모델이 우리의 벤치마크에서 GPT-4V/o와 유사한 성능을 달성할 수 있도록 했습니다.
텍스트와 이미지를 번갈아 사용하여 LMM의 사전 훈련에 사용하는 방법을 조사했으며, 재료 생성 작업에서 개선을 이루었습니다.

1. Introduction

현재 전문적인 박사 수준의 multimodal 과학 지식을 이해하는 모델의 포괄적인 평가는 다양한 과학 분야에서 특히 figure을 포함하여 부족한 상태
기존의 LMM에 대한 과학 문제 평가는 컴퓨터 과학, 수학, 물리학, 화학, 생물학과 같은 몇 가지 과학 분야와 대학 수준 지식에 국한되어 있습니다(Lu et al., 2022a; Wang et al., 2023; Yue et al., 2023) TABLE.1
이 격차를 해소하기 위해, 우리는 Nature Communications에서 출판된 고품질의 오픈 액세스 논문에서 Multimodal, Multi-Discipline Dataset (MMSci)을 수집.
자연과학 분야의 72개 과학 분야를 포괄하며, 주로 자연과학 분야를 포함합니다. FIGURE.1
이 벤치마크에는 다양한 설정에서 과학적 figure 설명 및 시각 질문 응답(VQA) 작업이 포함되어 있으며, 우리의 평가 결과는 현재의 LMM이 과학적 figure과 내용을 해석하는 데 상당한 어려움과 결함이 있음을 보여주었습니다.
과학적 내용을 이해하는 모델을 향상시키기 위해 instuction-following data를 생성하여 multiturn으로 학습한 결과 7B LLAVA가 GPT-4V/o와 유사한 성능을 달성했다.
기여
- 데이터 범위와 품질
- 도전적인 벤치마크
- Visual instruction-following and interleaved multimodal data

Figure 1: The top 30 out of 72 science subjects2with the most articles in our dataset MMSci. The corresponding numbers of figures are shown in brackets.

Table 1: Comparison with prior figure understanding datasets and multimodal science benchmarks. *We only count the number of science subjects categorized according to Nature journals.

2. Related Dataset Work

Scientific Figrue Understanding
- Chen et al. (2020); Kahou et al. (2017); Kafle et al. (2018)
  - plot과 chart를 포함하는 dataset
- FigureSeer (Siegel et al., 2016)와 SciCap (Yang et al., 2023)
  - Computer Science 논문 PDF
- ArxivQA/Cap (Li et al., 2024)
  - arXiv에서 32개 주제의 논문
- 상기 데이터들은 arXiv 데이터이므로 품질이 보장되지 않으며, 본 논문 데이터는 자연 과학 데이터 위주
Multimodal Science Problems
- ScienceQA (Lu et al., 2022a)
  - 초등학교부터 고등학교 수준(K1-12)의 문제 위주
- SciBench (Wang et al., 2023)
  - 물리학, 화학, 수학 등 3개의 과학 분야에만 초점
- MMMU (Yue et al., 2023)
  - 예술, 비즈니스, 역사, 건강, 인문학, 기술 등 다양한 주제를 포함하지만, 과학 분야의 커버리지는 Nature 웹사이트의 범주에 따라 25개 분야로 제한

3. Data Curation

Source Data Collection
- 72개의 주제에 걸친 다섯 가지 주요 카테고리의 Nature Comm. 논문으로 구성
- 각 기사에 대해 섹션 별로 수집하였으며 이미지와 caption은 전용 페이지에서 수집(예: https://www.nature.com/articles/xxx/figures)
- pylatexenc 를 통해 LaTeX 를 일반 텍스트로 변환
- 2024년 4월 15일까지의 기사를 crawling하여 131,393개의 기사와 742,273개의 figure으로 구성
Sub-caption Extraction
- 여러 sub figure가 있는 image의 경우, sub figure/caption을 식별하고 추출했다. FIGURE.3
Exploring Figures in MMSci
- Figure 유형을 7가지 카테고리로 분류하고 이를 기반으로 데이터를 split 했다. FIGURE.2

Figure 2: Examples of the seven major types of (sub-)figures in MMSci. Ratios are based on the benchmark test set. Sources are discussed in the acknowledgements.

4. Benchmarks

Figure 3: Illustration of the benchmark and visual instruction-following data construction in MMSci. This example is taken from (Guo et al., 2024b). The left side shows the figure including multiple sub-figures. The caption consists of a main caption (bolded) and a series of sub-captions (underlined), each corresponding to a sub-figure. Due to space constraints, we only show sub-captions from (a) to (f). These (sub-)figures and (sub-)captions are used to construct data for figure captioning (upper right), VQA (setting III in this example) (center right), and multi-turn conversations (lower right).

두 가지 benchmark task 개발 FIGURE.3

Scientific Figure Captioning
- vs Natual image captioning
  1. 기사에 대한 이해가 필요.
  2. Caption 길이가 훨씬 길다.
- Captioning Setting
  - Ungrounded figure captioning: 기사 내용 제공 x
  - Abstract-grounded figure captioning: 기사 초록만 제공
  - Full content-grounded figure captioning: 기사 전문 제공
Visual Question Answering
- 다중 선택 VQA 작업은 주어진 figure의 sub figure을 가장 잘 설명하는 sub caption을 선택하는 것
  1. 옵션에는 figure의 올바른 메인 caption과 동일한 기사 내의 다른 세 개의 메인 caption이 포함
  2. 무작위로 sub figure을 선택하고 해당 sub caption을 올바른 답변으로 사용하며, 동일한 기사 내의 다른 세 개의 sub caption을 대안으로 사용
  3. 설정 2보다 더 어려운 설정으로, 동일한 이미지의 모든 하위 캡션이 선택 사항입니다.
Data Split
- 각 주제에서 1%의 기사를 테스트 세트와 검증(dev) 세트에 할당했으며, 각 주제는 5~50개의 기사를 포함합니다. (테스트 1,418개 기사, 검증 세트 1,414개 기사)
- 캡션은 50단어 이상 포함하도록 보장

5. Training Resources

Visual Instruction-Following Data
- Benchmark에 포함되지 않는 기사 사용하여 생성
- 처음 두 VQA와 figure captioning task는 single-turn 상호 작용으로 figure captioning의 경우 전문을 넣기에는 너무 길기 때문에 abstract-grounded captioning data를 활용
- 세 번째 타입은 multi-turn 대화로 인간이 sub figure의 내용을 묻고 보조원이 각 턴에서 해당 sub caption에 응답한다.
- 대화 template은 GPT-4를 사용하였으며, 대답은 원본 기사에서 파생된다.
- 108,843개의 다중 턴 대화를 생성하여 100만 개 이상의 시각 지시-따르기 대화를 포함하는 데이터셋을 결과로 도출
Interleaved Text and Image Data for Pre-training
- 그림을 기사 내용에 삽입하여 첫 언급 위치(예: Figure/Fig. x)에 위치시킨다.

6. Benchmark Evaluation Results

평가 방식

다양한 LMM 평가 진행
약 1,080,000개의 훈련 샘플을 포함하는 시각 지시-따르기 데이터로 LLaVA-Next(LLaVA1.6-Vicuna-7B) 모델을 미세 조정하여 LLaVA-Next-MMSci 생성
Scientific Figure Captioning는 세 번의 추론을 수행하여 생성된 caption을 정답과 비교하여 BLEU, ROUGE, METEOR, BERTScore의 평균 점수를 보고
CLIPScore 및 RefCLIPScore도 보고 했지만 설계상 77개보다 긴 토큰은 잘린다.
VQA의 경우 추론을 다섯 번 실행하고 voting을 사용
GPT-4V/o 경우 CoT(Chain-of-Thought)를 시도했지만 합리적인 답은 하지 못했다.
모든 평가에서 온도는 0.7로 설정

결과

Table 3: Performance on scientific figure captioning. B@k represents BLEU@k (k=1,2,3,4), R stands for ROUGE-L, M stands for METEOR, BS indicates BERTScore, and CLIP and RCLIP represent CLIPScore and RefCLIPScore, respectively. Best results are bolded and second best are underlined.

Scienctific Figure Captioning TABLE.3
- GPT-4o가 전체 기사 내용을 받을 때 METROR와 ROUGE에서 좋은 점수를 달성. -> 이는 Figure를 기사 정보에 기반하여 이해하는 것이 필요하다는 뜻
- 정보가 적은 경우에는 미세 조정된 LLaVA-Next-MMSci이 가장 좋은 점수를 달성
- 나머지는 제한된 성능을 달성하며 해당 Task의 어려움을 보여준다.

Table 4: Accuracies (%) on multi-choice VQA under various settings, with majority voting from different inference runs (k). Best results are bolded and second best are underlined.

VQA TABLE.4
- 설정 I는 일부 오픈 소스 모델이 무작위 추측보다 약간 높은 정확성을 보여준 유일한 설정
- LLaVA-Next-MMSci이 설정 I에서 가장 좋은 성능
- GPT-4o는 설정 II와 III에서 가장 좋은 성과를 거두었습니다.
- GPT-4o가 전체 그림 내에서 특정 영역이나 하위 그림을 더 잘 식별하고 구별할 수 있는 반면, 우리의 모델이 전체 그림을 요약하는 데 더 능숙할 수 있음을 시사할 수 있습니다.
- CoT는 GPT-4V/o의 정확성을 일관되게 향상시켰으며, 특히 GPT-4V에서는 성능 향상 폭이 컸다.

7. A Case Study in Material Sciences

Table 5: Evaluation of unconditional material generation covering validity, coverage and property distribution, and stability checks. Performance reported over 10,000 samples.

재료 과학 분야는 해당 데이터에서 가장 많은 비율을 차지한다.
재료 과학 작업에 언어 모델을 사용하는 과거 연구(Walker et al., 2021; Rubungo et al., 2023; Miret & Krishnan, 2024).
최근 연구(Gruver et al., 2024)는 LLaMA2(Touvron et al., 2023b)를 사용하여 재료 생성에서 유망한 결과를 달성
따라서 LLaMA2-7B에 기사의 글과 그림을 연속적으로 pre-train 수행
그림은 CLIP ViT-L/14-336(Radford et al., 2021)을 인코더로 사용하여 2-layer MLP를 통해 projection
LLaMA2-7B-MMSci Pre-train
- LLM을 고정하고(Liu et al., 2024)에서 제공하는 일반 도메인 데이터를 사용하여 프로젝터를 초기화했습니다.
- 일반 도메인의 인터리브된 텍스트 및 이미지 데이터를 MMC4(Zhu et al., 2024)에서 추가로 훈련하여 이미지 인식 능력을 개발
- MMSci로 LLM과 프로젝터를 모두 한 에포크 동안 조정
Fine-tuning for Materials Generation
- 재료의 격자구조를 생성하도록 prompt 사용.
- 45,231 stable materials이 포함됨 MP-20 dataset (Jain et al., 2013) 으로 실험

Figure 4: The prompt for generating crystal structure

Results and Abalation study
- FIGURE.5 와 같이 안정성, 재현성, 정확성등 다양한 지표로 평가.
- MMSci와 MMC4를 같이 활용할 경우에만 좋은 성능을 달성할 수 있었다.

Figure 5: Ablation studies on the influence of different pre-training data over LLaMA2-7B.

8. Conclusion

이 연구에서는 72개 과학 분야의 고품질 동료 검토 기사와 그림을 포함하는 Multi-modal 데이터셋인 MMSci를 소개합니다. 이 데이터셋을 사용하여 우리는 LMMs가 과학 그림과 내용을 이해하는 능력을 평가하기 위한 도전적인 벤치마크를 구축합니다. 이 벤치마크를 통해 우리는 LMMs의 과학 그림과 내용 이해 능력에 상당한 결함이 있음을 밝혀냅니다.

저작자표시 비영리 변경금지

'논문 > Multimodal' 카테고리의 다른 글

EXAMS-V: A Multi-Discipline Multilingual Multimodal Exam Benchmark for Evaluating Vision Language Models (2)	2024.08.28
Do-GOOD: Towards Distribution Shift Evaluation for Pre-Trained Visual Document Understanding Models (0)	2023.12.13
Evaluating Out-of-Distribution Performance on Document Image Classifier (0)	2023.08.31
End-to-end Document Recognition and Understanding with Dessurt (0)	2023.08.24
MGDoc: Pre-training with Multi-granular Hierarchyfor Document Image Understanding (0)	2023.08.01

취미밥상

MMSci: A Multimodal Multi-Discipline Dataset for PhD-Level Scientific Comprehension

https://github.com/Leezekun/MMSci

Abstract

1. Introduction

2. Related Dataset Work

3. Data Curation

4. Benchmarks

5. Training Resources

6. Benchmark Evaluation Results

7. A Case Study in Material Sciences

8. Conclusion

'논문 > Multimodal' 카테고리의 다른 글

티스토리툴바

MMSci: A Multimodal Multi-Discipline Dataset for PhD-Level Scientific Comprehension

https://github.com/Leezekun/MMSci

Abstract

1. Introduction

2. Related Dataset Work

3. Data Curation

4. Benchmarks

5. Training Resources

6. Benchmark Evaluation Results

7. A Case Study in Material Sciences

8. Conclusion

'논문 > Multimodal' 카테고리의 다른 글

'논문/Multimodal' Related Articles

티스토리툴바