본문 바로가기

논문/Chemical document

Comparing software tools for optical chemical structure recognition

ABSTRACT

  • 본 논문에서는 특허 및 특허 신청서에서 이미지를 독립적인 테스트 세트로 사용하여 8개의 공개 액세스 OCSR 방법(DECIMER, ReactionDataExtractor, MolScribe, RxnScribe, SwinOCSR, OCMR, MolVec, OSRA)을 비교했습니다.
  • 사용된 방법들은 다양한 모달리티와 화학 범주를 포함하는 서로 다른 이미지에서 구조를 예측할 때 각각 다른 강점을 보였습니다. 
  • 우리는 이미지를 네 가지 이미지 카테고리 중 하나로 분류하고 각 카테고리에 가장 적합한 OCSR 방법을 적용하는 기계 학습 이미지 분류기를 생성했습니다. 

INTRODUCTION

  • 화학자들은 과학적 발견과 지식을 순수한 텍스트 설명 대신 화학 구조를 포함한 이미지를 사용하여 매우 자주 전달합니다.
  • 미국 특허청은 해당 특허 이미지에서 ChemDraw CDX 및 MDL Information Systems MOL 파일 형식으로 화학 구조나 화학 반응을 추출하여 제공하는 유일한 특허청이며, 다른 특허청이나 과학 저널에서는 제공하지 않습니다.
  • 트랜스포머 기반으로 화학 구조를 이미지에서 예측하는 다양한 연구가 있었으며 이는 Rule 기반 알고리즘을 능가하는 것으로 나타났습니다. (MolScribe, RxnScribe, DECIMER, ReactionDataExtractor, Img2Mol, SwinOCSR, OCMR)
  • 그럼에도 불구하고 Rule 기반 (OSRA, MolVec) 알고리즘은 지속적으로 업데이트 되고 있으며, 여전히 많은 그룹에서 사용하고 있습니다.
  • 본 연구에서는 OSRA와 MolScribe, RxnScribe, DECIMER, ReactionDataExtractor, SwinOCSR 및 ChemRxiv 사전 인쇄본 이후 가장 최근에 발표된 OCMR을 비교했습니다
  • OCSR 예측의 다중 큐레이터 품질 분석을 용이하게 하기 위해 두 가지 새로운 소프트웨어 도구를 만들었습니다. Java 기반 도구 "ImageComparator"는 반응 및 다중 구조 이미지를 비교하기 위한 것이며, Python 기반 스크립트 "ExcelConstructor"는 단일 분자의 신속한 품질 분석을 위한 Excel 시트를 생성할 수 있습니다. 
  • 특허 및 특허 신청서에서 2702개의 이미지를 수동으로 선택했습니다. 이미지는 대부분 소형에서 중형 크기의 분자, 무기 화합물, 펩타이드 구조 및 전형적인 헤테로고리 구조의 혼합으로 구성되었습니다.
  • WO-2016199761-A1의 예는 Fig. 1과 같이 반응을 나타냅니다. 반응 생성물은 농약 커뮤니티에 관심 있는 식물 질병 제어제이며, PubChem에 CID 140317046으로 설명되어 있으며, 해당 특허에 대한 참조 없이 WIPO에서 PubChem으로 제공되었습니다. 또한, SciWalker's 화학 화합물 데이터베이스의 OCID 190138015958 식별자로 포함되어 있지만, WO-2016199761-A1에서는 화합물로 발견되지 않았습니다. 마찬가지로, Google Patents에서도 발견되지 않았습니다.

Fig. 1 Image JPOXMLDOC01-appb-C000040.tif from WO-2016199761-A1.

  • US-08680111-B2 Pfizer 특허는 anaplastic lymphoma kinase(ALK)를 억제하는 새로운 화합물을 설명하며, 2014년에 출판되었습니다. 이 특허의 CWU 파일에는 XML 형식의 13-mer 펩타이드 KKSRGDYNTMQIG의 서열 목록 1개, 총 238개의 TIF 이미지 파일, 234개의 Chemdraw CDX 파일 및 234개의 MDL MOL 파일이 포함되어 있습니다. 또한, 결정 구조를 포함한 그림 1개와 해석할 수 없는 이미지 파일 3개가 있습니다. 

Fig. 2 Image US08680111-20140325-C00029.TIF from US- 08680111-B2.Fig. 1 Image JPOXMLDOC01-appb-C000040.tif from WO-2016199761-A1.

  • 이 238개의 이미지를 수동으로 분류한 결과, 49개는 Markush와 같은 구조(예를 들어 그림 2 참조) 또는 청구된 화합물의 일부로서 치환체 또는 골격의 모음을 포함하고 있습니다. 
  • 현재 이미지-구조 변환의 개발 단계에서는 이러한 Markush 유형 구조의 이미지에서 의미 있는 화학 정보를 추출할 수 없습니다.

Experimental

Image dataset

  • 특허 및 특허 신청서에서 수작업으로 선택한 2702개의 이미지를 3개의 버킷으로 수동으로 분리

Table 1 Description of manually split dataset with images

Image-to-structure software

  • Decimer v2.4.0, ReactionDataExtractor v2.0.0, MolScribe v1.1.1, RxnScribe v1.0, MolVec v0.9.8, OCMR, SwinOCSR, OSRA 버전 2.1.5

Quality control and scoring

  • z독립적인 품질 관리 절차에는 네 명의 화학자가 참여했습니다. 우리는 간단한 점수 매기기 체계를 사용했습니다. 구조가 정확하게 예측되었을 때 1점을 주었고, 그렇지 않은 경우 0점으로 설정했습니다. 
  • 버킷 A의 결과를 비교하기 위해 ExcelConstructor를 활용했습니다.(그림 3 참조).

Fig. 3 Excel file to compare and score the structure predictions of the various OCSR tools

  • 다중 구조 이미지(버킷 B)와 반응 이미지(버킷 C)에는 Java 프로그램인 ImageComparator를 사용했습니다. ImageComparator는 첫 번째 열에 이미지 위치가 있고 두 번째 열에 해당하는 SMILES 출력을 포함하는 CSV 파일을 읽어 입력 이미지와 예측된 구조의 표 형식을 생성합니다. (그림 4 참조).

Fig. 4 ImageComparator user interface to compare the original image with the predicted reactions (here a RxnScribe example is shown) or multiple chemical structures below (OSRA example).

Experimental

  • 표 2에는 400개의 단일 구조 이미지에 대한 점수 결과가 포함되어 있습니다. 이 400개의 이미지는 버킷 A에서 무작위로 선택되었습니다.
  • 정확하게 예측된 구조에는 true positive(TP) 점수가 부여되었고, 잘못 예측된 구조에는 false positive(FP) 점수가 부여되었습니다. false negative(FN) 항목은 소프트웨어가 화학 구조를 예측하지 못한 이미지를 나타냅니다. 

Table 2 Comparison of 6 different OCSR methods to predict single structure images
Fig. 5 Precision, recall, and F-score of 6 different OCSR methods to predict single structures

  • 다중 구조 이미지를 위한 경우, OSRA는 다른 모든 AI 기반 프로그램보다 우수한 성능을 보였는데, 이는 모든 프로그램이 단일 구조 이미지를 대상으로 훈련되었기 때문에 이해할 수 있습니다. 전반적으로 예측이 부진하여 구조 예측의 일부만 평가했습니다(표 3). 
  • 정밀도는 다음과 같이 계산되었습니다. 예를 들어, 총 6개의 예측된 구조 중 3개의 구조가 정확하게 예측된 경우 정밀도는 50%입니다. 6개의 구조 중 5개만 예측된 경우, 누락된 하나는 false negative로 간주됩니다(그림 6).

Table 3 Comparison of 20 multiple structure images (OSRA, Decimer, MolScribe) containing 146 single structures
Fig. 6 Precision, recall, and F-score of OSRA, Decimer, MolScribe for predicting multiple structures (for OCMR and SwinOCSR seesupple- mentary material).

  • 103개의 무작위로 선택된 반응 이미지를 선택하여 총 284개의 반응 또는 반응 단계를 포함하는 반응 예측 품질을 평가했습니다(그림 7). 
  • RxnScribe는 284개의 반응보다 더 많은 반응을 예측했습니다. 이는 감지된 화살표가 일반적으로 화학 반응으로 예측되기 때문인 것으로 보입니다 (표 4) .

Fig. 7 Precision, recall, and F-score of OSRA, RxnScribe, and Reac- tionDataExtractor to predict reactions
Table 4 Comparison of OSRA, RxnScribe, and ReactionDataExtractor to predict reactions

Discussion

Dative bonds.

  • 불행히도 평가된 어떤 OCSR 도구도 이러한 금속 착물과 그 배위 결합을 만족스럽게 인식할 수 없었습니다. 
  • 어느 정도까지는 OSRA가 배위 결합을 추출할 수 있었습니다. OSRA 버전 2.1.5는 이러한 결합 유형을 포함하는 MOL 파일을 생성하는 것을 목표로 개발되었습니다.

Fig. 8 A common transition metal complex Ia from US-7001437-B2 above and MolScribe's prediction below. For MolScribe – green arrow: isonitrile group instead of nitrile group, yellow arrow: wrongly pre- dicted valency of 4 at the nitrogen atoms participating in a dative bond. In contrast, OSRA is interpreting the dative bonds between the nitrogen atoms and nickel correctly but the ionic bonds between the oxygens and the metal are not understood.

Markush structures

Fig. 9 Two simple Markush structures.

  • DECIMER as C1=C(C=C(C=C1 [R3])[R1])[R2] whilst the right was incorrectly predicted as C1= C(C=C(C=C1[Al])[R1])[Al].
  • MolScribe has recognized the left correctly as [1*]c1cc([2*])cc([3*])c1 but fails also with the right hand structure, predicting *c1cc(*)cc([1*])c.
  • OSRA delivers *c1cc(cc(*)c1)* for the le? and Nc1cc(*)cc(*)c1 for the right structure.

Polymer

  • 여기서 보고된 방법 중 어느 것도 이미지의 표현에서 고분자 구조를 예측할 수 없었습니다.

Multiple molecules

  • 표 2에서 알 수 있듯이, 모든 OCSR 프로그램은 다중 구조를 포함하는 이미지에서 구조를 예측할 때 좋은 결과를 얻기 어려웠습니다. 이는 DECIMER와 MolScribe가 단일 분자를 포함하는 이미지로만 훈련되었기 때문에 놀라운 일이 아닙니다.
  • 한 가지 질문은 하나의 이미지에 여러 분자 구조가 있을 때 이를 어떻게 처리해야 하는가입니다.
  • MolScribe는 이미지에서 여러 화합물을 찾으면 점으로 구분된 SMILES를 생성합니다.
  • MolScribe의 결과 SMILES를 보면, 명백히 잘못되거나 무의미한 결과, 예를 들어 일련의 별표로 구성된 SMILES를 생성했습니다.

Reactions

  • 원칙
    • 위에서 언급한 단일 구조 인식 규칙을 적용할 때 화합물 구조가 올바른 것으로 간주되었습니다.
    • 반응에는 항상 적어도 하나의 올바른 시작 물질과 하나의 올바른 생성물이 필요합니다.
    • 시작 물질과 생성물은 반응의 주요 특징/반응 원자를 나타내야 합니다.
    • 반응 조건은 정확성에 필요하지 않으며 평가에서 제외되었습니다.
    • 예를 들어, 단일 탄소 원자 또는 이트륨 원자(Y)와 같은 잘못된 환각된 단일 원자가 반응물 또는 생성물로 예측된 경우, 더 큰 반응물과 생성물이 존재하고 다른 기준이 충족되는 한 반응은 여전히 올바른 것으로 간주되었습니다. 이 규칙의 이유는 규칙 기반 접근 방식으로 후속 예측 단계에서 이러한 단일 원자를 제거할 수 있기 때문입니다.
    • 반응 조건에서 시약이 반응물로 인식된 경우에도 반응은 여전히 올바른 것으로 간주되었습니다.
    • 화학량론은 필수 기준으로 간주되지 않았습니다.
    • 다단계 합성 도식의 완전한 인식은 필요하지 않았습니다.
  • 다음의 명시적 제외 기준이 적용되었으며 해당 반응 예측에는 0점이 부여되었습니다:
    • 반응물 및/또는 생성물이 인식되지 않았습니다.
    • 형식적으로 잘못된 SMILES가 생성되었습니다.
    • 생성물이 반응물로 인식되거나 그 반대의 경우.
    • 다단계 반응에서 다른 반응 단계의 반응물이나 생성물이 주어진 반응 단계의 반응물이나 생성물로 사용된 경우.

Classifying images

  • 현재 이미지에서 구조를 예측하는 파이프라인은 OSRA 버전 2.1.5를 사용합니다. 단일 구조, 다중 구조 및 반응 이미지를 각각 1:1:1 혼합물로 가정하고 이 세 가지 모달리티에 대한 OSRA 정밀도 값을 적용하면 평균 F1 점수는 (78 + 62 + 64)/3 × 100% = 68%가 됩니다. 
  • 단일 이미지를 위해 MolScribe, 다중 구조 이미지를 위해 OSRA, 반응을 위해 RxnScribe를 사용하는 가상의 하이브리드 시스템을 사용하면 전체 F1 점수가 (93 + 62 + 86)/3 × 100% = 80%로 향상될 것입니다.
  • 우리는 모든 이미지를 네 가지 범주 중 하나로 분류하는 화학 이미지 분류기(ChemIC)를 개발했습니다.
    • 신경망(CNN) ResNet-50 모델
    • 16,000개의 이미지로 학습 각 이미지는 수동으로 One_molecule, Several_molecules, Reactions, Other로 각 4000개 씩 분류.
      • OntoChem에서 EP, US, 및 WO 특허에서 추출한 화학 데이터 이미지.
      • MolScribe 데이터셋에서 가져온 이미지.
      • DECIMER-손으로 그린 분자 이미지 데이터셋.
      • RxnScribe 훈련 세트에서 가져온 이미지.
      • im2latex-100k 데이터셋에서 가져온 수식 이미지.
    • 40개의 Intel(R) Xeon(R) Gold 6226 CPU를 갖춘 고성능 머신에서 6시간 동안 100 에포크 훈련
    • 검증 정확도는 약 98.88%에서 99.25% 사이였습니다. 검증 정확도에 개선이 없었기 때문에 26번째 에포크에서 조기 중지하여 과적합을 방지했습니다.  99.62%의 인상적인 정확도를 달성했습니다.

Conclusion

대부분의 경우, 라벨이나 캡션 해상도, 다중 구조가 있는 이미지, 올리고머, 고분자 및 금속 유기 분자와 같은 더 복잡한 화학이 누락된 선택된 이미지 학습 세트의 한계로 결함이 발생합니다. 추가로, 새로운 OCSR 방법에는 일반적으로 수용되는 표준 화학 구조 형식을 사용하여 더 복잡한 Markush 및 고분자 구조의 예측을 가능하게 하는 V2000 또는 V3000 RG 파일을 출력 형식으로 포함해야 한다고 믿습니다. 이는 비표준 SMILES를 생성하는 대신에 말입니다.

Data availability

https://doi.org/10.5281/zenodo.10546827