Abstract
- 최신 전이학습 기법을 사용하여 domain adaptation이 특허 분류 성능 경계를 확장할 수 있는지 실험
- 평가는 일반적인 특허 분류 데이터와 농화학 산업의 실 사례 특화 데이터에 대해 평가
- 다국어 평가도 진행
1. Introduction
기술 변화를 보기 위해 Patent corpora는 중요한 자원이다. 지난 6년간 300k 이상의 특허가 USPTO에 등록됐다. 이를 모니터링 하고 트랜드를 분석하기 위해서는 domain-specific한 지식이 기반되어야 한다.
본 논문에서는 발명의 내용만 사용하여 언어 모델(LM)과 domain adaptation을 사용하여 특허를 분류한다. Domain을 이용한 adaptive pretraining, adaptor를 이용한 fine-tuning과 같은 기법을 BERT 기반 모델에 적용하여 비교한다. 평가는 일반적인 dataset과 crop protection 산업 domain에서 비교했다.
해당 접근 방식은 state-of-th-art를 상회한다. IPC 이외의 실제 사례 분류 기준에 대한 평가를 진행했다. 또한 다국어 특허 분류도 진행했다. 평가는 21년 이후 가능한 특허에 대해서 분류했다. 개발한 dapBERT와 dapSciBERT는 링크에서 확인 가능하다.
https://github.com/GT4SD/domain-adaptive-patent-classifier
2. Related Work
PatentBERT 가 유사한 접근 방식이지만 pretrained BERT를 표준 특허 데이터로 fine-tuning 했다. 입력 텍스트의 경우 DeepPatent와 같이 일반적으로 제목과 초록을 사용하는 것이 전체 텍스트를 사용하는 것보다 효율적이고 본 논문도 유사한 접근을 했다.
3. Patent Classification Using BERT-like Models
Pretrained LM은 out-of-distribution에 대해 robust하지만 여전히 pretraining 단계에서 보지 못한 데이터에 대해서는 취약하며 특허 말뭉치가 그 대표적인 예시가 될 수 있다. 이러한 분포의 차이를 해결하기 위해 4가지 방식으로 접근했다.
- Vocabulary adaptation
- Domain-adaptive pretraining
- Adapter 기반 fine-tuning
- 위 내용들의 조합
3.1 Vocabulary adaptation
BERT 계 모델에서 pre-training을 domain-specific한 tokens로 하는 것은 비효율적이다. 그 대안으로 BERT variant 중 특허 domain과 유사한 데이터를 사용한 것을 기반으로 fine-tuning을 수행한다. 과학 문서로 학습된 SciBERT를 선택했고, 과학 문서가 비록 특허와 유사하지는 않지만 일반 텍스트로 학습된 BERT보다는 관련성이 있다. 이를 입증하기 위해서 두 모델의 학습에 사용된 것과 유사한 두 말뭉치의 vocabulary 중복을 분석했다. 구체적으로 150k 특허 초록, BERT 말뭉치는 150k BookCorpus와 Wiki, SciBERT 말뭉치는 150k Semantic Scholar를 사용했다. 10k 빈출 단어는 stop-word로 제외했다.
Figure 2a에서 cyan 이 제일 수가 큰 것을 통해 SciBERT 학습에 사용된 말뭉치가 특허 말뭉치와 중복되는 것이 많은 것을 알 수 있다.
3.2 Domain-adaptive Pretraining
이 작업은 사전 훈련된 모델을 관심 영역으로 전환하는 것을 목표로 하며 domain specific 데이터로 몇 epochs 추가 학습을 진행한다. 여기서 학습 데이터셋은 WIPO와 USPTO의 10M 특허 초록으로 구성된다.
3.3 Adapters
Adapters는 transformer의 각 층에 새롭게 초기화된 가중치의 소규모 집합을 최적화 하는 fine-tuning 전략이다. 가중치는 fine-tuning 동안 학습되며 모델의 pre-trained 매개변수는 고정된다. 이 전략은 학습 연산량의 감소와 다른 task에 대한 효과적인 매개변수 공유라는 두 가지 장점이 있다. 사용된 Adapter는 하기 링크를 참고하면 된다.
https://aclanthology.org/2020.emnlp-main.617.pdf
3.4 Combining methods
위 설명된 모든 단계는 합쳐서 사용되기도 하였다. Figure 1. 참고
4. Results
Baseline으로 BERT, CNN(Glove), CNN(FastText), SciBERT 등을 사용했다. 모든 task-specific fine-tuning은 ReLU를 활성화 함수로 가지고 dropout이 있는 dense layer를 분류기 head로 사용하여 5 epochs 학습한다. Adapter를 적용한 경우 분류기 head는 출력층으로만 구성되며 fine-tuning은 30 epochs 수행했다.
Domain-adaptive pretraining(dap)의 경우 3 epochs 학습한 모델의 성능이 가장 좋았으며 추가 학습은 모델의 성능을 올려주지 않았다.
4.1 Crop Protection Industry Dataset
살균제, 살충제, 제초제의 발견은 작물 보호 연구의 주요 관심사이다. 특허에서 IPC 계층 구조는 주제에 따라 특허의 일반적인 분류를 제공하지만 이 분류는 중요한 도메인별 카테고리와 항상 일치하는 것은 아니다.
위 그림과 같이 상당량의 IPC 중복이 세 분야에 대해 관측된다. 특허 데이터는 2012~2020 의 데이터를 수작업으로 분류 하였으며 통계치는 아래 표와 같다. 10-fold cross-validation 수행하여 평가했다.
Categories | 수 |
Total | 9976 |
Insecticide | 3393 |
Fungicide | 1518 |
Herbicide | 1512 |
Irrelevant | 3553 |
어떤 domain adaptation도 baseline을 상회하는 결과를 보여준다. 성능은 dapSciBERT + adapters에 제목과 초록으로 학습한 것이 최고였다. Baseline 중 가장 좋은 성능인 finetuned BERT와 dapSciBERT + adapters 간의 비교를 통해 두 모델의 차이를 검증하고자 했다. Wilcoxon Signed-Ranks test를 통해 dapSciBERT + adapters가 BERT보다 큰 평균값을 갖는 것을 확인하였다. [input title (statistic = 50.0, p-value = 0.01), abstract (statistic = 55.0, p-value = 0.01), title + abstract (statistic = 52.0, p-value = 0.01)].
4.1.1 Multilingual Patent Classification
다국어 모델 평가 역시 진행하였으며 BERT의 다국어 버전을 기반으로 모든 평가를 동일하게 진행하였다. 반면에 관련 domain에 대해 pretrain 된 모델은 사전에 없었기에 관련 실험은 하지 못했다. 14개국어가 포함된 17,476,660개의 특허 초록을 활용하여 adapted pretraining을 수행했다. Finetuning은 3 epochs 수행했다. 다국어 데이터의 경우 총 9989개의 데이터 중 47%는 영어 이외의 언어로 구성된다.
Categories | 수 |
Total | 9989 |
Insecticide | 3408 |
Fungicide | 1519 |
Herbicide | 1520 |
Irrelevant | 3542 |
영어만 사용했을 때와 같은 평가 방식을 수행했으며, 결과도 dapBERT-multi + adapters 가 가장 좋았으며 이전과 유사한 경향을 보여준다.
Wilcoxon Signed-Ranks Test 또한 dapBERT-multi + adapters 방법이 multiBERT보다 큰 평균값을 가진다. [input title (statistic = 50.0, p-value = 0.01), abstract (statistic = 48.0, p-value = 0.02), title + abstract (statistic = 53.0, p-value = 0.03)]
4.1.2 Evaluation Under Real-life Conditions
모델은 2020년까지의 데이터로 학습되었으며 해당 모델이 2021년 데이터에서도 정상 작동하는지 확인해보았다. 이는 human necessities 또는 chemistry IPC와 관련된 78,712 개의 특허로 평가됐다. 영어가 아닌 특허는 Google patents를 통해 영어 버전을 사용했다.
모델 사용시 수작업 중 발생한 5 종류의 에러를 인식할 수 있다. 추가로 108개 특허는 관련 키워드가 있어 농산업 특허로 모델이 분류하였으나 전문가들은 관련이 없다고 분류했다. 이는 어떤 경우에 전문가들의 실수를 모델이 잡아주었다고 볼 수 있다.
해당 모델은 fine-tuend BERT 를 baseline으로 하여 다국어 버전까지도 비교 분석했다. TABLE 1은 전체 결과를 보여준다.
논문 모델의 F1-score가 baseline 의 값보다 높으며 비록 baseline이 true positive를 더 찾았더라도 false positive 가 그에 비해 훨씬 크다.
영어와 다국어 분류기간 차이도 분석했으며, 영어 분류기가 더 나은 성능을 보여준다.
4.2 USPTO Dataset
USPTO 기반 데이터, 훈련셋: 235,858 (2014년 제출) / 테스트셋: 42,321 (2015년 제출) / 목표 라벨은 89개 subclasses
아래의 TABLE 2가 그 결과이다.
테스트 결과 dap와 adapters 모두 성능향상에 일조한다.
5. Conclusion
dap는 테스트 사례에서 최상의 결과를 보여 주었으며 SciBERT와 같이 도메인에 더 가까운 어휘를 사용하여 pre-trained된 기본 모델을 선택하면 성능이 더욱 향상될 수 있다. 또한 첫 번째 단계에서 생성된 dapLM은 fine-tune되어 모든 downstram NLP 작업에 사용될 수 있다. 이미 dap모델과 결합하면 adapter를 사용하면 동일하거나 더 나은 성능을 얻을 수 있다. 이러한 발견은 더 적은 훈련 자원과 더 적은 저장 공간을 필요로 하는 가벼운 특성과 결합되어 특히 단일 도메인에 대해 여러 분류 체계를 개발해야 할 때 매력적인 옵션이 된다.