본문 바로가기

논문/Chemical document

CLEF-IP 2011: Retrieval in the Intellectual Property Domain

1. Introduction

 특허가 부여되기 전에 전 세계 특허청은 이전과 유사한 공개가 이루어지지 않았는지 확인하기 위해 철저한 검색을 수행합니다. 트랙의 목적은 두 가지다. 하나는 실험을 위한 크고 깨끗한 데이터 세트를 제공하여 특허 검색 영역에서 연구를 장려하고 촉진하는 것과 세 주요 유럽 언어를 이용한 특허 데이터를 많들어 cross-lingual 정보 접근의 평가를 하는 것이다.
 2011년 CLEF-IP 트랙은 2010년과 같이 연구 특허 retrieval 분야 촉진과 많은 데이터를 제공한다. 2010 CLEF-IP 벤치마크에는 IPC 기준에 따른 특허 분류도 포함된다. 2011년에는 two patent image related task도 제공된다. 전문가들은 검색엔진에서 검색결과를 확인할 때 image를 확인하는 것 만으로 상당수의 무관한 특허를 쳐내게되는데, 이런 점에서 Image-based Document Retrieval과 Image-based Classification task를 통해 이런 업무를 대체하고자 한다. 

2. The 2011 CLEF-IP Collection

2.1 The Documents in the Collection Corpus

CLEF-IP는 특허를 XML 형태의 파일로 보관한다. 각 특허 문서는 kind code가 할당되며 이는 특허 인식자의 접두어로 나타난다 (e.g. EP-nnnnnnn-A1, WO-nnnnnnnnnn-A2). 특허 사무소에서는 대규모의 특허 문서 데이터를 관리하기 위해 기술적인 분야에 따라 분류하는 방법을 사용하며 가장 많이 사용되는 방법은 International Patent Classification system (IPC), the European Classification System (ECLA), the US Classification System이 있다. CLEF-IP에서는 IPC를 사용한다.

 CLEF-IP 2011 데이터는 2010년 데이터에 기반하며 MAREC corpus(19M 특허 문서를 IRF에서 연구 목적으로 XML 형태로 제공한다)에서 추출됐다. 따라서 대부분 EPO에서 출원된 특허를 포함한다. 두 가지 큰 변화를 2010년 데이터에 주었다. CLEF-IP에 포함된 높은 비율의 EPO 특허는 Patent Cooperation Treaty(PCT)에 따라 국젝적으로 출원된 특허이며, 이 경우 전체 특허 출원을 재발행하지 않고 서지 항목만 재발행한다. 따라서 첫 번째는 해당 특허들에 해당하는 WIPO 특허들을 추가했다. 두 번째는 image-based retreval task를 위해서  IPC subclass인 A43B와 A61B 그리고 H01L의 특허 image를 추가했다. 

 문서의 수는 1.2M의 WIPO 특허문서가 추가되어 3.5M 개의 XML 문서가 총 1.5M개의 특허에 대해 있으며, image는 46K XML 문서로 IMG-PAC task (3개의 IPC subclass 분류)를 구성하며 5.4gb의 290880 tiff 파일이 있다.

 Test collection corpus는 같은 특허를 하나의 문서로 합치지 않고 전달된다. 각 특허는 고유한 인식문자로 특허청을 구분할 수 있다 (EP는 EPO, WO는 WIPO). EP특허의 경우 00000n/nn/nn/nn/*.xml 형태로 파일이 저장된다. WO특허의 경우 00nnnn/nn/nn/nn/*.xml로 파일이 저장되며 00뒤의 nnnn은 출원연도를 의미한다. 

Data Layout

 특허 image 파일은 tif 형태로 하나의 독립적인 폴더에 저장된다.

 모든 textual 문서는 XML의 field로 저장된다

  • biblographic data
  • abstract
  • description
  • claims

모든 문서가 위의 field를 갖는 것은 아니다. 내용은 English, German, 또는 French가 될 수 있으며, 몇 field는 언어를 바꿔가며 여러번 등장할 수 있다. 

2.2 Tasks and Topics

 5 개의 Task로 구성된다.

Prior Art Candidates Search. (PAC)

 Target collection 내의 주어진 특허 application이 invalid한 것을 탐색 (3973개 topics)
e.g. Find all patents in the collection that potentially invalidate patent application EP-nnnnnnn-An

300개의 학습 topics가 제공된다. 언어에 제한되지 않으며 1/3은 영어 1/3 독어 1/3 불어이다. 

 

Patent Classification. (CLS1)

 주어진 특허를 IPC에 맞춰 subclass 수준에서 분류

e.g. Classify patent document EP-nnnnnnn-An according to the IPC system

3000개의 특허 문서가 사용되며 이는 PAC에서 사용된 것과 다르다. 언어에 제한되지 않으며 1/3은 영어 1/3 독어 1/3 불어이다. 

 

Refined Patent Classification.

  특허를 IPC에 맞춰 분류하는 것으로 subclass가 주어지고 group과 subgroup을 맞춰야한다. 

 

Patent Image-based Prior Art Search. (IMG-PAC)

 세 가지 IPC sub-classes 가 주어지며 이 중 211개의 특허에 해당하는 글과 image를 가지고 선행 특허의 art를 찾는다.

 

Patent Image-based Classification. (IMG-CLS)
  주어진 images를 기반으로 분류를 수행한다. Images는 9개의 class로 분류된다(drawing, chemical structure, program listing, gene sequence, flow chart, graph, mathematics, table, and symbol). 학습 데이터는 300에서 6000개의 images가 각 class 별로 존재한다.

 

2.3 Relevance Assesments

이후 생략 (2011 workshop benchmark 결과)