https://github.com/Leezekun/MMSci
Abstract
- 72개의 과학 분야의 Nature Communications 저널에 게재된 개방형 과학 기사에서 multi-modal 데이터셋을 수집했습니다.
- 우리는 다양한 작업과 설정을 포함한 벤치마크를 만들어 LMMs가 과학 figure과 내용을 이해하는 능력을 종합적으로 평가했습니다.
- 평가 결과, 많은 오픈 소스 모델이 상당한 어려움을 겪었고, 심지어 GPT-4V와 GPT-4o도 어려움을 겪었습니다.
- 시각적 지시 사항을 따르는 데이터를 구성하여 7B LLaVA 모델이 우리의 벤치마크에서 GPT-4V/o와 유사한 성능을 달성할 수 있도록 했습니다.
- 텍스트와 이미지를 번갈아 사용하여 LMM의 사전 훈련에 사용하는 방법을 조사했으며, 재료 생성 작업에서 개선을 이루었습니다.
1. Introduction
- 현재 전문적인 박사 수준의 multimodal 과학 지식을 이해하는 모델의 포괄적인 평가는 다양한 과학 분야에서 특히 figure을 포함하여 부족한 상태
- 기존의 LMM에 대한 과학 문제 평가는 컴퓨터 과학, 수학, 물리학, 화학, 생물학과 같은 몇 가지 과학 분야와 대학 수준 지식에 국한되어 있습니다(Lu et al., 2022a; Wang et al., 2023; Yue et al., 2023)
TABLE.1
- 이 격차를 해소하기 위해, 우리는 Nature Communications에서 출판된 고품질의 오픈 액세스 논문에서 Multimodal, Multi-Discipline Dataset (MMSci)을 수집.
- 자연과학 분야의 72개 과학 분야를 포괄하며, 주로 자연과학 분야를 포함합니다.
FIGURE.1
- 이 벤치마크에는 다양한 설정에서 과학적 figure 설명 및 시각 질문 응답(VQA) 작업이 포함되어 있으며, 우리의 평가 결과는 현재의 LMM이 과학적 figure과 내용을 해석하는 데 상당한 어려움과 결함이 있음을 보여주었습니다.
- 과학적 내용을 이해하는 모델을 향상시키기 위해 instuction-following data를 생성하여 multiturn으로 학습한 결과 7B LLAVA가 GPT-4V/o와 유사한 성능을 달성했다.
- 기여
- 데이터 범위와 품질
- 도전적인 벤치마크
- Visual instruction-following and interleaved multimodal data
2. Related Dataset Work
- Scientific Figrue Understanding
- Chen et al. (2020); Kahou et al. (2017); Kafle et al. (2018)
- plot과 chart를 포함하는 dataset
- FigureSeer (Siegel et al., 2016)와 SciCap (Yang et al., 2023)
- Computer Science 논문 PDF
- ArxivQA/Cap (Li et al., 2024)
- arXiv에서 32개 주제의 논문
- 상기 데이터들은 arXiv 데이터이므로 품질이 보장되지 않으며, 본 논문 데이터는 자연 과학 데이터 위주
- Chen et al. (2020); Kahou et al. (2017); Kafle et al. (2018)
- Multimodal Science Problems
- ScienceQA (Lu et al., 2022a)
- 초등학교부터 고등학교 수준(K1-12)의 문제 위주
- SciBench (Wang et al., 2023)
- 물리학, 화학, 수학 등 3개의 과학 분야에만 초점
- MMMU (Yue et al., 2023)
- 예술, 비즈니스, 역사, 건강, 인문학, 기술 등 다양한 주제를 포함하지만, 과학 분야의 커버리지는 Nature 웹사이트의 범주에 따라 25개 분야로 제한
- ScienceQA (Lu et al., 2022a)
3. Data Curation
- Source Data Collection
- 72개의 주제에 걸친 다섯 가지 주요 카테고리의 Nature Comm. 논문으로 구성
- 각 기사에 대해 섹션 별로 수집하였으며 이미지와 caption은 전용 페이지에서 수집(예: https://www.nature.com/articles/xxx/figures)
- pylatexenc 를 통해 LaTeX 를 일반 텍스트로 변환
- 2024년 4월 15일까지의 기사를 crawling하여 131,393개의 기사와 742,273개의 figure으로 구성
- Sub-caption Extraction
- 여러 sub figure가 있는 image의 경우, sub figure/caption을 식별하고 추출했다.
FIGURE.3
- 여러 sub figure가 있는 image의 경우, sub figure/caption을 식별하고 추출했다.
- Exploring Figures in MMSci
- Figure 유형을 7가지 카테고리로 분류하고 이를 기반으로 데이터를 split 했다.
FIGURE.2
- Figure 유형을 7가지 카테고리로 분류하고 이를 기반으로 데이터를 split 했다.
4. Benchmarks
두 가지 benchmark task 개발 FIGURE.3
- Scientific Figure Captioning
- vs Natual image captioning
- 기사에 대한 이해가 필요.
- Caption 길이가 훨씬 길다.
- Captioning Setting
- Ungrounded figure captioning: 기사 내용 제공 x
- Abstract-grounded figure captioning: 기사 초록만 제공
- Full content-grounded figure captioning: 기사 전문 제공
- vs Natual image captioning
- Visual Question Answering
- 다중 선택 VQA 작업은 주어진 figure의 sub figure을 가장 잘 설명하는 sub caption을 선택하는 것
- 옵션에는 figure의 올바른 메인 caption과 동일한 기사 내의 다른 세 개의 메인 caption이 포함
- 무작위로 sub figure을 선택하고 해당 sub caption을 올바른 답변으로 사용하며, 동일한 기사 내의 다른 세 개의 sub caption을 대안으로 사용
- 설정 2보다 더 어려운 설정으로, 동일한 이미지의 모든 하위 캡션이 선택 사항입니다.
- 다중 선택 VQA 작업은 주어진 figure의 sub figure을 가장 잘 설명하는 sub caption을 선택하는 것
- Data Split
- 각 주제에서 1%의 기사를 테스트 세트와 검증(dev) 세트에 할당했으며, 각 주제는 5~50개의 기사를 포함합니다. (테스트 1,418개 기사, 검증 세트 1,414개 기사)
- 캡션은 50단어 이상 포함하도록 보장
5. Training Resources
- Visual Instruction-Following Data
- Benchmark에 포함되지 않는 기사 사용하여 생성
- 처음 두 VQA와 figure captioning task는 single-turn 상호 작용으로 figure captioning의 경우 전문을 넣기에는 너무 길기 때문에 abstract-grounded captioning data를 활용
- 세 번째 타입은 multi-turn 대화로 인간이 sub figure의 내용을 묻고 보조원이 각 턴에서 해당 sub caption에 응답한다.
- 대화 template은 GPT-4를 사용하였으며, 대답은 원본 기사에서 파생된다.
- 108,843개의 다중 턴 대화를 생성하여 100만 개 이상의 시각 지시-따르기 대화를 포함하는 데이터셋을 결과로 도출
- Interleaved Text and Image Data for Pre-training
- 그림을 기사 내용에 삽입하여 첫 언급 위치(예: Figure/Fig. x)에 위치시킨다.
6. Benchmark Evaluation Results
평가 방식
- 다양한 LMM 평가 진행
- 약 1,080,000개의 훈련 샘플을 포함하는 시각 지시-따르기 데이터로 LLaVA-Next(LLaVA1.6-Vicuna-7B) 모델을 미세 조정하여 LLaVA-Next-MMSci 생성
- Scientific Figure Captioning는 세 번의 추론을 수행하여 생성된 caption을 정답과 비교하여 BLEU, ROUGE, METEOR, BERTScore의 평균 점수를 보고
- CLIPScore 및 RefCLIPScore도 보고 했지만 설계상 77개보다 긴 토큰은 잘린다.
- VQA의 경우 추론을 다섯 번 실행하고 voting을 사용
- GPT-4V/o 경우 CoT(Chain-of-Thought)를 시도했지만 합리적인 답은 하지 못했다.
- 모든 평가에서 온도는 0.7로 설정
결과
- Scienctific Figure Captioning
TABLE.3
- GPT-4o가 전체 기사 내용을 받을 때 METROR와 ROUGE에서 좋은 점수를 달성. -> 이는 Figure를 기사 정보에 기반하여 이해하는 것이 필요하다는 뜻
- 정보가 적은 경우에는 미세 조정된 LLaVA-Next-MMSci이 가장 좋은 점수를 달성
- 나머지는 제한된 성능을 달성하며 해당 Task의 어려움을 보여준다.
- VQA
TABLE.4
- 설정 I는 일부 오픈 소스 모델이 무작위 추측보다 약간 높은 정확성을 보여준 유일한 설정
- LLaVA-Next-MMSci이 설정 I에서 가장 좋은 성능
- GPT-4o는 설정 II와 III에서 가장 좋은 성과를 거두었습니다.
- GPT-4o가 전체 그림 내에서 특정 영역이나 하위 그림을 더 잘 식별하고 구별할 수 있는 반면, 우리의 모델이 전체 그림을 요약하는 데 더 능숙할 수 있음을 시사할 수 있습니다.
- CoT는 GPT-4V/o의 정확성을 일관되게 향상시켰으며, 특히 GPT-4V에서는 성능 향상 폭이 컸다.
7. A Case Study in Material Sciences
- 재료 과학 분야는 해당 데이터에서 가장 많은 비율을 차지한다.
- 재료 과학 작업에 언어 모델을 사용하는 과거 연구(Walker et al., 2021; Rubungo et al., 2023; Miret & Krishnan, 2024).
- 최근 연구(Gruver et al., 2024)는 LLaMA2(Touvron et al., 2023b)를 사용하여 재료 생성에서 유망한 결과를 달성
- 따라서 LLaMA2-7B에 기사의 글과 그림을 연속적으로 pre-train 수행
- 그림은 CLIP ViT-L/14-336(Radford et al., 2021)을 인코더로 사용하여 2-layer MLP를 통해 projection
- LLaMA2-7B-MMSci Pre-train
- LLM을 고정하고(Liu et al., 2024)에서 제공하는 일반 도메인 데이터를 사용하여 프로젝터를 초기화했습니다.
- 일반 도메인의 인터리브된 텍스트 및 이미지 데이터를 MMC4(Zhu et al., 2024)에서 추가로 훈련하여 이미지 인식 능력을 개발
- MMSci로 LLM과 프로젝터를 모두 한 에포크 동안 조정
- Fine-tuning for Materials Generation
- 재료의 격자구조를 생성하도록 prompt 사용.
- 45,231 stable materials이 포함됨 MP-20 dataset (Jain et al., 2013) 으로 실험
- Results and Abalation study
FIGURE.5
와 같이 안정성, 재현성, 정확성등 다양한 지표로 평가.- MMSci와 MMC4를 같이 활용할 경우에만 좋은 성능을 달성할 수 있었다.
8. Conclusion
이 연구에서는 72개 과학 분야의 고품질 동료 검토 기사와 그림을 포함하는 Multi-modal 데이터셋인 MMSci를 소개합니다. 이 데이터셋을 사용하여 우리는 LMMs가 과학 그림과 내용을 이해하는 능력을 평가하기 위한 도전적인 벤치마크를 구축합니다. 이 벤치마크를 통해 우리는 LMMs의 과학 그림과 내용 이해 능력에 상당한 결함이 있음을 밝혀냅니다.