본문 바로가기

논문/Chemical document

ReactIE: Enhancing Chemical Reaction Extraction with Weak Supervision

Abstract

 잘 구조화된 화학 반응 정보는 신약 개발과 같은 분야에서 중요한 역할을 한다. 그러나 이러한 정보들을 문헌에서 뽑아내는 것은 값 비싼 일이다. 결과적으로 충분한 데이터를 얻는 것이 이 분야의 큰 장애물이다. 이 논문에서 우리는 사전학습에 지도적 접근 방식을 결합한 ReactIE를 제안한다. 이 방법은 화학 반응의 특정 특성을 식별하기 위해 텍스트 언어 단서 내의 빈번한 패턴을 활용합니다. 추가로 특허로부터 얻어진 합성 데이터를 이용하여 distant supervision을 모델의 domain knowledge로 넣어준다.

 

 1. Introduction

 기존의 방법들 Reaxys(Goodman, 2009), SciFinder(Gabrielson, 2018).와 같이 manual하게 반응 database를 추출하는 방식은 너무 많은 시간과 비용을 필요로 한다.

 이후 자동화된 시스템 구축을 위한 노력을 위해 OPSIN(Lowe, 2012), CHEMRXNBERT(Guo et al., 2022) 가 개발되었다. 

  • OPSIN: heuristic-based system, well-formatted text에는 잘 작동하나 과학 문헌의 언어 표현방식에 민감하여 성능이 제한적이다.
  • ChemRxnBERT: 화학 저널로 사전학습된 언어 모델, 작은 규모의 학습세트로 fine-tuning  되어 성능이 제한된다. 

 대규모의 unlabeled data 활용을 위해서 우리는 ReactIE를 이용하여 화학 반응 정보를 추출한다. 사람은 언어적 특성으로부터 화학 반응의 각각의 역할을 알 수 있다. 

Figure 1: An example of the chemical reaction extraction task. This figure depicts two out of the four chemical reactions present in the text for simplicity. The passage is drawn from Ahmad et al. (2015).

Linguistic cues: to obtain 5e를 통해 5e가 생성물임을 알 수 있다. 

Domain knowledge: 반응물이 아닌 촉매로서의 "chloranil"을 정확하게 식별하려면 관련 화합물에 대한 깊은 이해가 필요합니다. 이를 해결하기 위해 supervised distance로 특허 문헌을 활용하여 주요 domain knowledge을 ReactIE에 통합합니다. 

 

2. Preliminary

2.1 Task Formulation

주어진 텍스트 $D$에 대해서 구조화된 화학 반응 $S$를 모두 추출해야 한다. 여기서 $S$는 $n$개의 role-argument 쌍$\{(r_1, a_1), ..., (r_n, a_n)\}$을 갖는다 (Fig 1의 표를 뽑는다고 생각하면 된다). 역할은 8개의 미리 정의된 8가지 속성으로 아래와 같다.

Table 3: Reaction scheme used in this paper

2.2 Workflow for IE System

1) Product Extraction: 화학 반응에서는 동일한 반응물이라도 반응 조건에 따라 다른 생성물을 생성할 수 있으므로 생성물이 중심 요소이다. 따라서 IE는 우선적으로 모든 product를 뽑아 전체 반응 수를 결정한다. 

2) Role Extraction: 주어진 텍스트 $D$와 생성물에 대해 IE 시스템은 $D$ 내의 entity와 생성물과의 관계를 확인한다. 

3. ReactIE Framework

3.1 Reformulation

 과거 연구들은 해당 작업을 sequence labeling(BIO tagging) 문제로 해결하려 했다. 하지만 이는 부적합한 경우가 있으며, 최종 argument의 형태가 alias, abbreviation, 또는 생성물의 pronoun 인 경우 단어가 변환될 필요성이 있다. (Fig 1. 의 "oxidized" → "oxidation") 

 해당 논문에서는 chemical reaction extraction task를 생성형 모델인 FLAN-T5를 사용하여 Question Answering 문제로 해결하려 했다. 각 경우 예시는 하기와 같다. 

1) Product Extraction: “What are the products ofthe chemical reactions in the text?”
2) Role Extraction:  “If the final product is X, what is the catalyst for this chemical reaction?”

3.2 Pre-training for ReactIE

두 가지 supervised method를 사용하여 사전학습을 진행

Linguistics-aware Data Construction

사전 지식이 없는 사람이더라도 관련 텍스트를 읽으면 화학 반응에서 몇몇 물성을 예측할 수 있다.

예시 문장 “Treatment of 13 with lithium benzyl oxide in THF afforded the dihydroxybenzyl ester 15” 
13과 lithium benzyl이 반응물, dihydroxybenzyl ester 15가 최종 생성물임을 예측할 수 있다.

위와 같이 Linguistic cues를 잘 이용하면 효과적으로 argument를 추출할 수 있다는 점에 입각하여 화학물질들을 "[Chem]"으로 변환 후 Chem-DataExtractor(Swain and Cole, 2016)를 사용하여 몇 가지 seed 패턴을 생성하였다. 각 iteration 마다 n-gram $(n=\{2, ..., 6\})$을 추출하여, 일일히 확인 후 중요한 표현들만 남겼다.

Table 4: Examples of Seed and enriched meta-patterns for the product, yield, and temperature. All seed patterns (3-5 patterns per role) are included here, and random samples from the enriched patterns are used as examples (20-50 patterns total per role). The red [Chem] indicates that the corresponding chemical is a product. The blue [Num] denotes that the number is a yield, green [Num] represents the temperature, and yellow [Num] is the reaction time.
Figure 2: Overview of ReactIE. We propose linguistics-aware and knowledge-aware methods to construct synthetic data, thus bridging the gap between the objectives of pre-training and the chemical reaction extraction task.

Seed 패턴은 Chemistry Corpus에 주석을 달기 위해 사용되어 label이 포함된 훈련 데이터를 생성
이전 단계의 데이터에 대한 QA 형식으로 Flan-T5를 학습
QA 모델을 사용하여 전체 Corpus에 Re-label
에서 가장 자주 발생하는 패턴을 enriched pattern set로 mining

위 과정을 반복하여 더 많고 나은 데이터를 수집할 수 있다. 

 

Knowledge-aware Data Construction

Linguistic cues로 전부 해결되면 좋겠지만 그렇지 못하다. Fig 1에서 “chloranil”, “FeCl3” 그리고 “CHCl3” 를 reactants, catalysts, 또는 solvents로 분류하는 것은 사전 지식 없이 힘들다. 이를 보완하기 위해 특허로부터 얻은 합성 정보를 추출하여 ReactIE의 domain knowledge로 사용했다. 해당 데이터는 OPSIN (Lowe, 2018)으로 추출한 USPTO 데이터로써 화학 지식이 필요한 4가지 role (product, reactant, catalyst, 그리고 solvent)에 집중한다. 

 

Training Paradigm

위 방식으로 데이터를 충분히 확보한 후 FLAN-T5 모델을 이용하여 text-to-text 형태로 pre-training을 진행했다.

입력은 질문 $q_i$, 구체적인 role $r_i$, 그리고 텍스트 $D$가 포함된다.

출력은 argument $a_i$ 혹은 "None"이 반환된다.

pre-training 이후 unsupervised 버전의 ReactIE는 화학반응을 구조화된 데이터로 추출할 수 있다. 더 나은 성능을 위해서는 fine-tuning을 통하여 supervised 버전의 ReactIE를 만들 수 있다.

 

4. Experiments

4.1 Experimental Setup

Datasets
Reaction Corpus (Guo et al., 2022) which includes 599/96/111 annotated chemical reactions in training, dev, and test sets. The input is a paragraph in scientific papers and the output consists of multiple structured chemical reactions.

 

Baselines

  • OPSIN
  • BILSTM-CRF (Huang et al., 2015)
  • BERT (Devlin et al., 2019)
  • BIOBERT (Lee et al., 2020)
  • CHEMBERT
  • CHEMRXNBERT (Guo et al., 2022).
    *OPSIN is an unsupervised rule-based system
    *variants of BERT are pre-trained on different domain-specific corpora.

 

Implementation Detail

Backbone model “google/flan-t5-large”

18,894개의 화학 저널에 대해 3 iterations 수행 → 92,371개의 linguistic cues를 포함한 문단 추출.

충분한 패턴이 보이는 product, temperature, yield, 그리고 time 에 대해서만 수행.

너무 길거나 (> 256 words) 너무 짧은 (< 8 words) 텍스트와 argument가 등장하지 않는 원본 텍스트는 필터하여 100,000 데이터를 얻었다.

ReactIE는 0.1 label smoothing을 192,371 samples에 대해 적용한 데이터로 1 epoch로 학습

모든 학습에는 batch size 16, learning rate 5e-5 를 사용

4.2 Experimental Results

Results for Product Extraction

Table 1: Results for product extraction. The results presented in the gray background correspond to the performance of REACTIE and its ablation studies.

*OPSIN은 Rule-based 이기 때문에 fine-tuning이 불가능하다. 

Pre-trained LM(Flan-T5)이 domain-specific model(ChemBERT)을 상회하는 것으로 부터 pre-train의 중요성을 알 수 있다. 

Abalation study로부터 linguistic cuesproduct extraction에 미치는 영향이 큰 것을 알 수 있다. 

Results for Role Extraction

Table 2: Results for role extraction.

Abalation study로부터 domain knowledge role extraction에 미치는 영향이 큰 것을 알 수 있다. 

Analysis for Reaction Roles

Figure 3: The impact of two pre-training strategies on different chemical reaction roles. The Y-axis shows the F1 improvement compared to the backbone model.

각 pre-training 방법에 따라 성능 편차를 role 별로 확인하여 그 영향도를 분석했다. 숫자와 관련된 Time, Temperature는 linguistic-aware pre-training이 효과적이였고, catalyst와 reaction type의 결과는 knowledge-related pre-training이 더 효과적이였다. 

5. Conclusion

ReactIE는 과학문헌으로부터 자동으로 화학 반응을 추출한다.

Linguistic과 Chemical knowledge를 pre-training에 반영하여 좋은 실험 결과를 얻을 수 있었다.

Limitations

  1. Reliable 한 충분한 데이터가 Product, Time, Yield, Temperatur 밖에 없었기 때문에 제한된 linguistic-aware data construction을 수행했다. Pattern mining method를 개선한다면 (Li et al., 2018; Chen et al., 2022) 성능 향상의 여지가 남아있다. 
  2. 구조화된 화학 반응 추출을 고정된 반응 scheme으로 추출하였으나 실제 텍스트에는 더 다양한 role이나(Jiao et al., 2022) 실험 과정(Vaucher et al., 2021) 들이 있기 때문에 유연하게 argument와 role을 추출하는 것이 필요하다.
  3. 문서 내에서 필요한 부분의 text segmentation 하는 것이 필요하다.