본문 바로가기

전체 글

(46)
MMSci: A Multimodal Multi-Discipline Dataset for PhD-Level Scientific Comprehension https://github.com/Leezekun/MMSciAbstract72개의 과학 분야의 Nature Communications 저널에 게재된 개방형 과학 기사에서 multi-modal 데이터셋을 수집했습니다.우리는 다양한 작업과 설정을 포함한 벤치마크를 만들어 LMMs가 과학 figure과 내용을 이해하는 능력을 종합적으로 평가했습니다.평가 결과, 많은 오픈 소스 모델이 상당한 어려움을 겪었고, 심지어 GPT-4V와 GPT-4o도 어려움을 겪었습니다.시각적 지시 사항을 따르는 데이터를 구성하여 7B LLaVA 모델이 우리의 벤치마크에서 GPT-4V/o와 유사한 성능을 달성할 수 있도록 했습니다.텍스트와 이미지를 번갈아 사용하여 LMM의 사전 훈련에 사용하는 방법을 조사했으며, 재료 생성 작업에서 ..
EXAMS-V: A Multi-Discipline Multilingual Multimodal Exam Benchmark for Evaluating Vision Language Models AbstractEXAMS-V는 Multimodal mutilingual exam benchmark자연 과학, 사회 과학 및 기타 다양한 연구 분야를 포함한 20개의 학교 분야에서 20,932개의 선택형 질문으로 구성질문은 7개 언어 계열에서 11개 언어로 제공EXAMS-V는 GPT-4V와 Gemini와 같은 vision-text 모델에서도 도전적인 데이터셋1 IntroductionVLM이 상당한 진보를 이루어 낸 만큼 기존의 benchmark는 구식이되어 모델의 성능을 정확하게 평가하기 애매해졌다.기존 LLM 평가에서 학교 시험은 모델 능력을 측정하는 효과적인 방법이였다. MMLU(Hendrycks et al., 2021)는 과학, 공학 및 인문학 분야의 57개 과목을 포함하는 일반적인 benchmark..
One Strike, You’re Out: Detecting Markush Structures in Low Signal-to-Noise Ratio Images AbstractMarkush 구조를 분류하기 위한 방법을 테스트Macro F1 comparisonnfixed-feature extraction (0.701 ± 0.052)end-to-end CNN (0.928±0.035)IntroductionOptical Chemical Structure Recognition (OCSR) : Chemical Structural Formulae (CSF)를 이미지로부터 기계언어로 변환하는 것Incomplete CSF (Markush)를 필터하는 것으로 OCSR 성능을 향상시킬 수 있다CSF에서 다양함을 표현학히 위한 기호나 구조를 _Markush Indicator_라고 하며, 일반적인 표현 방식이 없다Markush 인식이 어려운 이유이미지 별로 픽셀 크기가 다름하나의 Ma..
Comparing software tools for optical chemical structure recognition ABSTRACT본 논문에서는 특허 및 특허 신청서에서 이미지를 독립적인 테스트 세트로 사용하여 8개의 공개 액세스 OCSR 방법(DECIMER, ReactionDataExtractor, MolScribe, RxnScribe, SwinOCSR, OCMR, MolVec, OSRA)을 비교했습니다.사용된 방법들은 다양한 모달리티와 화학 범주를 포함하는 서로 다른 이미지에서 구조를 예측할 때 각각 다른 강점을 보였습니다. 우리는 이미지를 네 가지 이미지 카테고리 중 하나로 분류하고 각 카테고리에 가장 적합한 OCSR 방법을 적용하는 기계 학습 이미지 분류기를 생성했습니다. INTRODUCTION화학자들은 과학적 발견과 지식을 순수한 텍스트 설명 대신 화학 구조를 포함한 이미지를 사용하여 매우 자주 전달합니다.미..
AI 적용 특허 신규성, 진보성 혹은 소송 결과 예측 출처: https://arxiv.org/pdf/2403.041057.4 Novelty and Inventiveness Prediction7.4.1 Definition of Patent Feature, Novelty, and Inventiveness Novelty발명이 새로운 것으로 간주되려면, 발명의 모든 주요 특징을 포함하거나 설명하는 이전 문서나 다른 형태의 공개물(이들을 통틀어 선행기술이라고 함)이 없어야 합니다.신기성과 진보성은 특징의 개념에 크게 의존합니다. 특징은 발명이 발명으로서 갖춰야 하는 요소들이며, 청구항에 명시되어 있습니다. 독립 청구항은 주요 특징을 나열합니다.7.4.2 Task Definition of Novelty and Inventiveness Prediction신기성과 진보성..
Creating a Silver Standard for Patent Simplification ABSTRACT 특허는 법적, 기술적, 극도로 모호한 언어가 혼합된 복잡하다. Rephrasing을 통해 특허 텍스트를 자동으로 simplification 하는 접근 방식을 제안한다. 대규모 특허 문장 silver standard을 제안한다. Candidates를 얻기 위해 우리는 general doamin paraphrasing 시스템을 사용한다. 추가적으로 적절한 필터와 결합하고 simplification 시스템을 훈련에 사용할 수 있는 코퍼스를 구성한다. 1 INTRODUCTION 특허 긴 문장, 새로운 다용어 항목, 반복되는 항목이 있는 절 대신 명사구로 구성된 복잡한 구문이 포함되어 있다. [특허가 rephrasing 되어야하는 당위성 설명] Suominen은 [...] Feldman은 [.....
Do-GOOD: Towards Distribution Shift Evaluation for Pre-Trained Visual Document Understanding Models ABSTRACT 기존 visual document understanding (VDU) 모델은 다른 분포의 데이터에 좋은 성능을 보여주지 못함 out-of-distribution (OOD) benchmark Do-GOOD을 개발 (9 OOD dataset, 3 VDU related tasks) 5개의 최신 VDU 모델 평가 결과 OOD에 취약한 결과 1 INTRODUCTION Background. 문서 이미지 처리는 삶에서 빈번하게 일어나고 있으며 최근 AI 모델을 통해 어느 정도 성능을 달성 Motivation. 모델 성능이 OOD dataset에 저하된다는 것을 알았으며 robustness를 평가하기 위한 benchmark도 보고되었다. 비록 RVL-CDIP OOD dataset의 이미지가 문서 분류에..
Automated patent classification for crop protection via domain adaptation Abstract 최신 전이학습 기법을 사용하여 domain adaptation이 특허 분류 성능 경계를 확장할 수 있는지 실험 평가는 일반적인 특허 분류 데이터와 농화학 산업의 실 사례 특화 데이터에 대해 평가 다국어 평가도 진행 1. Introduction 기술 변화를 보기 위해 Patent corpora는 중요한 자원이다. 지난 6년간 300k 이상의 특허가 USPTO에 등록됐다. 이를 모니터링 하고 트랜드를 분석하기 위해서는 domain-specific한 지식이 기반되어야 한다. 본 논문에서는 발명의 내용만 사용하여 언어 모델(LM)과 domain adaptation을 사용하여 특허를 분류한다. Domain을 이용한 adaptive pretraining, adaptor를 이용한 fine-tuning..