본문 바로가기

논문/Multimodal

MMSci: A Multimodal Multi-Discipline Dataset for PhD-Level Scientific Comprehension

https://github.com/Leezekun/MMSci

Abstract

  • 72개의 과학 분야의 Nature Communications 저널에 게재된 개방형 과학 기사에서 multi-modal 데이터셋을 수집했습니다.
  • 우리는 다양한 작업과 설정을 포함한 벤치마크를 만들어 LMMs가 과학 figure과 내용을 이해하는 능력을 종합적으로 평가했습니다.
  • 평가 결과, 많은 오픈 소스 모델이 상당한 어려움을 겪었고, 심지어 GPT-4V와 GPT-4o도 어려움을 겪었습니다.
  • 시각적 지시 사항을 따르는 데이터를 구성하여 7B LLaVA 모델이 우리의 벤치마크에서 GPT-4V/o와 유사한 성능을 달성할 수 있도록 했습니다.
  • 텍스트와 이미지를 번갈아 사용하여 LMM의 사전 훈련에 사용하는 방법을 조사했으며, 재료 생성 작업에서 개선을 이루었습니다.

1. Introduction

  • 현재 전문적인 박사 수준의 multimodal 과학 지식을 이해하는 모델의 포괄적인 평가는 다양한 과학 분야에서 특히 figure을 포함하여 부족한 상태
  • 기존의 LMM에 대한 과학 문제 평가는 컴퓨터 과학, 수학, 물리학, 화학, 생물학과 같은 몇 가지 과학 분야와 대학 수준 지식에 국한되어 있습니다(Lu et al., 2022a; Wang et al., 2023; Yue et al., 2023) TABLE.1
  • 이 격차를 해소하기 위해, 우리는 Nature Communications에서 출판된 고품질의 오픈 액세스 논문에서 Multimodal, Multi-Discipline Dataset (MMSci)을 수집.
  • 자연과학 분야의 72개 과학 분야를 포괄하며, 주로 자연과학 분야를 포함합니다. FIGURE.1
  • 이 벤치마크에는 다양한 설정에서 과학적 figure 설명 및 시각 질문 응답(VQA) 작업이 포함되어 있으며, 우리의 평가 결과는 현재의 LMM이 과학적 figure과 내용을 해석하는 데 상당한 어려움과 결함이 있음을 보여주었습니다.
  • 과학적 내용을 이해하는 모델을 향상시키기 위해 instuction-following data를 생성하여 multiturn으로 학습한 결과 7B LLAVA가 GPT-4V/o와 유사한 성능을 달성했다.
  • 기여
    • 데이터 범위와 품질
    • 도전적인 벤치마크
    • Visual instruction-following and interleaved multimodal data

Figure 1: The top 30 out of 72 science subjects2with the most articles in our dataset MMSci. The corresponding numbers of figures are shown in brackets.
Table 1: Comparison with prior figure understanding datasets and multimodal science benchmarks. *We only count the number of science subjects categorized according to Nature journals.

2. Related Dataset Work

  • Scientific Figrue Understanding
    • Chen et al. (2020); Kahou et al. (2017); Kafle et al. (2018)
      • plot과 chart를 포함하는 dataset
    • FigureSeer (Siegel et al., 2016)와 SciCap (Yang et al., 2023)
      • Computer Science 논문 PDF
    • ArxivQA/Cap (Li et al., 2024)
      • arXiv에서 32개 주제의 논문
    • 상기 데이터들은 arXiv 데이터이므로 품질이 보장되지 않으며, 본 논문 데이터는 자연 과학 데이터 위주
  • Multimodal Science Problems
    • ScienceQA (Lu et al., 2022a)
      • 초등학교부터 고등학교 수준(K1-12)의 문제 위주
    • SciBench (Wang et al., 2023)
      • 물리학, 화학, 수학 등 3개의 과학 분야에만 초점
    • MMMU (Yue et al., 2023)
      • 예술, 비즈니스, 역사, 건강, 인문학, 기술 등 다양한 주제를 포함하지만, 과학 분야의 커버리지는 Nature 웹사이트의 범주에 따라 25개 분야로 제한

3. Data Curation

  • Source Data Collection
    • 72개의 주제에 걸친 다섯 가지 주요 카테고리의 Nature Comm. 논문으로 구성
    • 각 기사에 대해 섹션 별로 수집하였으며 이미지와 caption은 전용 페이지에서 수집(예: https://www.nature.com/articles/xxx/figures)
    • pylatexenc 를 통해 LaTeX 를 일반 텍스트로 변환
    • 2024년 4월 15일까지의 기사를 crawling하여 131,393개의 기사와 742,273개의 figure으로 구성
  • Sub-caption Extraction
    • 여러 sub figure가 있는 image의 경우, sub figure/caption을 식별하고 추출했다. FIGURE.3
  • Exploring Figures in MMSci
    • Figure 유형을 7가지 카테고리로 분류하고 이를 기반으로 데이터를 split 했다. FIGURE.2

Figure 2: Examples of the seven major types of (sub-)figures in MMSci. Ratios are based on the benchmark test set. Sources are discussed in the acknowledgements.

4. Benchmarks

Figure 3: Illustration of the benchmark and visual instruction-following data construction in MMSci. This example is taken from (Guo et al., 2024b). The left side shows the figure including multiple sub-figures. The caption consists of a main caption (bolded) and a series of sub-captions (underlined), each corresponding to a sub-figure. Due to space constraints, we only show sub-captions from (a) to (f). These (sub-)figures and (sub-)captions are used to construct data for figure captioning (upper right), VQA (setting III in this example) (center right), and multi-turn conversations (lower right).

두 가지 benchmark task 개발 FIGURE.3

  • Scientific Figure Captioning
    • vs Natual image captioning
      1. 기사에 대한 이해가 필요.
      2. Caption 길이가 훨씬 길다.
    • Captioning Setting
      • Ungrounded figure captioning: 기사 내용 제공 x
      • Abstract-grounded figure captioning: 기사 초록만 제공
      • Full content-grounded figure captioning: 기사 전문 제공
  • Visual Question Answering
    • 다중 선택 VQA 작업은 주어진 figure의 sub figure을 가장 잘 설명하는 sub caption을 선택하는 것
      1. 옵션에는 figure의 올바른 메인 caption과 동일한 기사 내의 다른 세 개의 메인 caption이 포함
      2. 무작위로 sub figure을 선택하고 해당 sub caption을 올바른 답변으로 사용하며, 동일한 기사 내의 다른 세 개의 sub caption을 대안으로 사용
      3. 설정 2보다 더 어려운 설정으로, 동일한 이미지의 모든 하위 캡션이 선택 사항입니다.
  • Data Split
    • 각 주제에서 1%의 기사를 테스트 세트와 검증(dev) 세트에 할당했으며, 각 주제는 5~50개의 기사를 포함합니다. (테스트 1,418개 기사, 검증 세트 1,414개 기사)
    • 캡션은 50단어 이상 포함하도록 보장

5. Training Resources

  • Visual Instruction-Following Data
    • Benchmark에 포함되지 않는 기사 사용하여 생성
    • 처음 두 VQA와 figure captioning task는 single-turn 상호 작용으로 figure captioning의 경우 전문을 넣기에는 너무 길기 때문에 abstract-grounded captioning data를 활용
    • 세 번째 타입은 multi-turn 대화로 인간이 sub figure의 내용을 묻고 보조원이 각 턴에서 해당 sub caption에 응답한다.
    • 대화 template은 GPT-4를 사용하였으며, 대답은 원본 기사에서 파생된다.
    • 108,843개의 다중 턴 대화를 생성하여 100만 개 이상의 시각 지시-따르기 대화를 포함하는 데이터셋을 결과로 도출
  • Interleaved Text and Image Data for Pre-training
    • 그림을 기사 내용에 삽입하여 첫 언급 위치(예: Figure/Fig. x)에 위치시킨다.

6. Benchmark Evaluation Results

평가 방식

  • 다양한 LMM 평가 진행
  • 약 1,080,000개의 훈련 샘플을 포함하는 시각 지시-따르기 데이터로 LLaVA-Next(LLaVA1.6-Vicuna-7B) 모델을 미세 조정하여 LLaVA-Next-MMSci 생성
  • Scientific Figure Captioning는 세 번의 추론을 수행하여 생성된 caption을 정답과 비교하여 BLEU, ROUGE, METEOR, BERTScore의 평균 점수를 보고
  • CLIPScore 및 RefCLIPScore도 보고 했지만 설계상 77개보다 긴 토큰은 잘린다.
  • VQA의 경우 추론을 다섯 번 실행하고 voting을 사용
  • GPT-4V/o 경우 CoT(Chain-of-Thought)를 시도했지만 합리적인 답은 하지 못했다.
  • 모든 평가에서 온도는 0.7로 설정

결과

Table 3: Performance on scientific figure captioning. B@k represents BLEU@k (k=1,2,3,4), R stands for ROUGE-L, M stands for METEOR, BS indicates BERTScore, and CLIP and RCLIP represent CLIPScore and RefCLIPScore, respectively. Best results are bolded and second best are underlined.

  • Scienctific Figure Captioning TABLE.3
    • GPT-4o가 전체 기사 내용을 받을 때 METROR와 ROUGE에서 좋은 점수를 달성. -> 이는 Figure를 기사 정보에 기반하여 이해하는 것이 필요하다는 뜻
    • 정보가 적은 경우에는 미세 조정된 LLaVA-Next-MMSci이 가장 좋은 점수를 달성
    • 나머지는 제한된 성능을 달성하며 해당 Task의 어려움을 보여준다.

Table 4: Accuracies (%) on multi-choice VQA under various settings, with majority voting from different inference runs (k). Best results are bolded and second best are underlined.

  • VQA TABLE.4
    • 설정 I는 일부 오픈 소스 모델이 무작위 추측보다 약간 높은 정확성을 보여준 유일한 설정
    • LLaVA-Next-MMSci이 설정 I에서 가장 좋은 성능
    • GPT-4o는 설정 II와 III에서 가장 좋은 성과를 거두었습니다.
    • GPT-4o가 전체 그림 내에서 특정 영역이나 하위 그림을 더 잘 식별하고 구별할 수 있는 반면, 우리의 모델이 전체 그림을 요약하는 데 더 능숙할 수 있음을 시사할 수 있습니다.
    • CoT는 GPT-4V/o의 정확성을 일관되게 향상시켰으며, 특히 GPT-4V에서는 성능 향상 폭이 컸다.

7. A Case Study in Material Sciences

Table 5: Evaluation of unconditional material generation covering validity, coverage and property distribution, and stability checks. Performance reported over 10,000 samples.

  • 재료 과학 분야는 해당 데이터에서 가장 많은 비율을 차지한다.
  • 재료 과학 작업에 언어 모델을 사용하는 과거 연구(Walker et al., 2021; Rubungo et al., 2023; Miret & Krishnan, 2024).
  • 최근 연구(Gruver et al., 2024)는 LLaMA2(Touvron et al., 2023b)를 사용하여 재료 생성에서 유망한 결과를 달성
  • 따라서 LLaMA2-7B에 기사의 글과 그림을 연속적으로 pre-train 수행
  • 그림은 CLIP ViT-L/14-336(Radford et al., 2021)을 인코더로 사용하여 2-layer MLP를 통해 projection
  • LLaMA2-7B-MMSci Pre-train
    • LLM을 고정하고(Liu et al., 2024)에서 제공하는 일반 도메인 데이터를 사용하여 프로젝터를 초기화했습니다.
    • 일반 도메인의 인터리브된 텍스트 및 이미지 데이터를 MMC4(Zhu et al., 2024)에서 추가로 훈련하여 이미지 인식 능력을 개발
    • MMSci로 LLM과 프로젝터를 모두 한 에포크 동안 조정
  • Fine-tuning for Materials Generation 
    • 재료의 격자구조를 생성하도록 prompt 사용.
    • 45,231 stable materials이 포함됨 MP-20 dataset (Jain et al., 2013) 으로 실험

Figure 4: The prompt for generating crystal structure

  • Results and Abalation study
    • FIGURE.5 와 같이 안정성, 재현성, 정확성등 다양한 지표로 평가.
    • MMSci와 MMC4를 같이 활용할 경우에만 좋은 성능을 달성할 수 있었다.

Figure 5: Ablation studies on the influence of different pre-training data over LLaMA2-7B.

8. Conclusion

이 연구에서는 72개 과학 분야의 고품질 동료 검토 기사와 그림을 포함하는 Multi-modal 데이터셋인 MMSci를 소개합니다. 이 데이터셋을 사용하여 우리는 LMMs가 과학 그림과 내용을 이해하는 능력을 평가하기 위한 도전적인 벤치마크를 구축합니다. 이 벤치마크를 통해 우리는 LMMs의 과학 그림과 내용 이해 능력에 상당한 결함이 있음을 밝혀냅니다.