본문 바로가기

논문/Chemical document

(3)
CLEF-IP 2011: Retrieval in the Intellectual Property Domain 1. Introduction 특허가 부여되기 전에 전 세계 특허청은 이전과 유사한 공개가 이루어지지 않았는지 확인하기 위해 철저한 검색을 수행합니다. 트랙의 목적은 두 가지다. 하나는 실험을 위한 크고 깨끗한 데이터 세트를 제공하여 특허 검색 영역에서 연구를 장려하고 촉진하는 것과 세 주요 유럽 언어를 이용한 특허 데이터를 많들어 cross-lingual 정보 접근의 평가를 하는 것이다. 2011년 CLEF-IP 트랙은 2010년과 같이 연구 특허 retrieval 분야 촉진과 많은 데이터를 제공한다. 2010 CLEF-IP 벤치마크에는 IPC 기준에 따른 특허 분류도 포함된다. 2011년에는 two patent image related task도 제공된다. 전문가들은 검색엔진에서 검색결과를 확인할 때 ..
ReactIE: Enhancing Chemical Reaction Extraction with Weak Supervision Abstract 잘 구조화된 화학 반응 정보는 신약 개발과 같은 분야에서 중요한 역할을 한다. 그러나 이러한 정보들을 문헌에서 뽑아내는 것은 값 비싼 일이다. 결과적으로 충분한 데이터를 얻는 것이 이 분야의 큰 장애물이다. 이 논문에서 우리는 사전학습에 지도적 접근 방식을 결합한 ReactIE를 제안한다. 이 방법은 화학 반응의 특정 특성을 식별하기 위해 텍스트 언어 단서 내의 빈번한 패턴을 활용합니다. 추가로 특허로부터 얻어진 합성 데이터를 이용하여 distant supervision을 모델의 domain knowledge로 넣어준다. 1. Introduction 기존의 방법들 Reaxys(Goodman, 2009), SciFinder(Gabrielson, 2018).와 같이 manual하게 반응 da..
Annotated Chemical Patent Corpus: A Gold Standard for Text Mining Abstract 특허 출원이 다루는 화학 및 생물학적 공간을 탐색하는 것은 초기 단계의 의약 화학 활동에서 매우 중요하다. 특허 분석은 화합물 선행 기술에 대한 이해, 신규성 확인, 생물학적 분석의 검증 및 화학적 탐색을 위한 새로운 출발점의 식별을 제공할 수 있다. 전문 큐레이터가 직접 특허에서 화학적 및 생물학적 entity를 추출하는 데는 상당한 시간과 리소스가 소요된다. 텍스트 마이닝 방법은 이 프로세스를 용이하게 하는 데 도움이 될 수 있다. 이러한 방법의 성능을 검증하려면 수동으로 annotation을 추가한 특허 자료가 필수적이다. 우리는 annotation guideline을 개발하고 세계 지적 재산권 기구, 미국 특허청, 유럽 특허청에서 200개의 전체 특허를 선택했다. 특허는 사전에 자..