본문 바로가기

논문/Chemical document

(5)
One Strike, You’re Out: Detecting Markush Structures in Low Signal-to-Noise Ratio Images AbstractMarkush 구조를 분류하기 위한 방법을 테스트Macro F1 comparisonnfixed-feature extraction (0.701 ± 0.052)end-to-end CNN (0.928±0.035)IntroductionOptical Chemical Structure Recognition (OCSR) : Chemical Structural Formulae (CSF)를 이미지로부터 기계언어로 변환하는 것Incomplete CSF (Markush)를 필터하는 것으로 OCSR 성능을 향상시킬 수 있다CSF에서 다양함을 표현학히 위한 기호나 구조를 _Markush Indicator_라고 하며, 일반적인 표현 방식이 없다Markush 인식이 어려운 이유이미지 별로 픽셀 크기가 다름하나의 Ma..
Comparing software tools for optical chemical structure recognition ABSTRACT본 논문에서는 특허 및 특허 신청서에서 이미지를 독립적인 테스트 세트로 사용하여 8개의 공개 액세스 OCSR 방법(DECIMER, ReactionDataExtractor, MolScribe, RxnScribe, SwinOCSR, OCMR, MolVec, OSRA)을 비교했습니다.사용된 방법들은 다양한 모달리티와 화학 범주를 포함하는 서로 다른 이미지에서 구조를 예측할 때 각각 다른 강점을 보였습니다. 우리는 이미지를 네 가지 이미지 카테고리 중 하나로 분류하고 각 카테고리에 가장 적합한 OCSR 방법을 적용하는 기계 학습 이미지 분류기를 생성했습니다. INTRODUCTION화학자들은 과학적 발견과 지식을 순수한 텍스트 설명 대신 화학 구조를 포함한 이미지를 사용하여 매우 자주 전달합니다.미..
CLEF-IP 2011: Retrieval in the Intellectual Property Domain 1. Introduction 특허가 부여되기 전에 전 세계 특허청은 이전과 유사한 공개가 이루어지지 않았는지 확인하기 위해 철저한 검색을 수행합니다. 트랙의 목적은 두 가지다. 하나는 실험을 위한 크고 깨끗한 데이터 세트를 제공하여 특허 검색 영역에서 연구를 장려하고 촉진하는 것과 세 주요 유럽 언어를 이용한 특허 데이터를 많들어 cross-lingual 정보 접근의 평가를 하는 것이다. 2011년 CLEF-IP 트랙은 2010년과 같이 연구 특허 retrieval 분야 촉진과 많은 데이터를 제공한다. 2010 CLEF-IP 벤치마크에는 IPC 기준에 따른 특허 분류도 포함된다. 2011년에는 two patent image related task도 제공된다. 전문가들은 검색엔진에서 검색결과를 확인할 때 ..
ReactIE: Enhancing Chemical Reaction Extraction with Weak Supervision Abstract 잘 구조화된 화학 반응 정보는 신약 개발과 같은 분야에서 중요한 역할을 한다. 그러나 이러한 정보들을 문헌에서 뽑아내는 것은 값 비싼 일이다. 결과적으로 충분한 데이터를 얻는 것이 이 분야의 큰 장애물이다. 이 논문에서 우리는 사전학습에 지도적 접근 방식을 결합한 ReactIE를 제안한다. 이 방법은 화학 반응의 특정 특성을 식별하기 위해 텍스트 언어 단서 내의 빈번한 패턴을 활용합니다. 추가로 특허로부터 얻어진 합성 데이터를 이용하여 distant supervision을 모델의 domain knowledge로 넣어준다. 1. Introduction 기존의 방법들 Reaxys(Goodman, 2009), SciFinder(Gabrielson, 2018).와 같이 manual하게 반응 da..
Annotated Chemical Patent Corpus: A Gold Standard for Text Mining Abstract 특허 출원이 다루는 화학 및 생물학적 공간을 탐색하는 것은 초기 단계의 의약 화학 활동에서 매우 중요하다. 특허 분석은 화합물 선행 기술에 대한 이해, 신규성 확인, 생물학적 분석의 검증 및 화학적 탐색을 위한 새로운 출발점의 식별을 제공할 수 있다. 전문 큐레이터가 직접 특허에서 화학적 및 생물학적 entity를 추출하는 데는 상당한 시간과 리소스가 소요된다. 텍스트 마이닝 방법은 이 프로세스를 용이하게 하는 데 도움이 될 수 있다. 이러한 방법의 성능을 검증하려면 수동으로 annotation을 추가한 특허 자료가 필수적이다. 우리는 annotation guideline을 개발하고 세계 지적 재산권 기구, 미국 특허청, 유럽 특허청에서 200개의 전체 특허를 선택했다. 특허는 사전에 자..