mmsci (1) 썸네일형 리스트형 MMSci: A Multimodal Multi-Discipline Dataset for PhD-Level Scientific Comprehension https://github.com/Leezekun/MMSciAbstract72개의 과학 분야의 Nature Communications 저널에 게재된 개방형 과학 기사에서 multi-modal 데이터셋을 수집했습니다.우리는 다양한 작업과 설정을 포함한 벤치마크를 만들어 LMMs가 과학 figure과 내용을 이해하는 능력을 종합적으로 평가했습니다.평가 결과, 많은 오픈 소스 모델이 상당한 어려움을 겪었고, 심지어 GPT-4V와 GPT-4o도 어려움을 겪었습니다.시각적 지시 사항을 따르는 데이터를 구성하여 7B LLaVA 모델이 우리의 벤치마크에서 GPT-4V/o와 유사한 성능을 달성할 수 있도록 했습니다.텍스트와 이미지를 번갈아 사용하여 LMM의 사전 훈련에 사용하는 방법을 조사했으며, 재료 생성 작업에서 .. 이전 1 다음