본문 바로가기

논문

(24)
Creating a Silver Standard for Patent Simplification ABSTRACT 특허는 법적, 기술적, 극도로 모호한 언어가 혼합된 복잡하다. Rephrasing을 통해 특허 텍스트를 자동으로 simplification 하는 접근 방식을 제안한다. 대규모 특허 문장 silver standard을 제안한다. Candidates를 얻기 위해 우리는 general doamin paraphrasing 시스템을 사용한다. 추가적으로 적절한 필터와 결합하고 simplification 시스템을 훈련에 사용할 수 있는 코퍼스를 구성한다. 1 INTRODUCTION 특허 긴 문장, 새로운 다용어 항목, 반복되는 항목이 있는 절 대신 명사구로 구성된 복잡한 구문이 포함되어 있다. [특허가 rephrasing 되어야하는 당위성 설명] Suominen은 [...] Feldman은 [.....
Do-GOOD: Towards Distribution Shift Evaluation for Pre-Trained Visual Document Understanding Models ABSTRACT 기존 visual document understanding (VDU) 모델은 다른 분포의 데이터에 좋은 성능을 보여주지 못함 out-of-distribution (OOD) benchmark Do-GOOD을 개발 (9 OOD dataset, 3 VDU related tasks) 5개의 최신 VDU 모델 평가 결과 OOD에 취약한 결과 1 INTRODUCTION Background. 문서 이미지 처리는 삶에서 빈번하게 일어나고 있으며 최근 AI 모델을 통해 어느 정도 성능을 달성 Motivation. 모델 성능이 OOD dataset에 저하된다는 것을 알았으며 robustness를 평가하기 위한 benchmark도 보고되었다. 비록 RVL-CDIP OOD dataset의 이미지가 문서 분류에..
Automated patent classification for crop protection via domain adaptation Abstract 최신 전이학습 기법을 사용하여 domain adaptation이 특허 분류 성능 경계를 확장할 수 있는지 실험 평가는 일반적인 특허 분류 데이터와 농화학 산업의 실 사례 특화 데이터에 대해 평가 다국어 평가도 진행 1. Introduction 기술 변화를 보기 위해 Patent corpora는 중요한 자원이다. 지난 6년간 300k 이상의 특허가 USPTO에 등록됐다. 이를 모니터링 하고 트랜드를 분석하기 위해서는 domain-specific한 지식이 기반되어야 한다. 본 논문에서는 발명의 내용만 사용하여 언어 모델(LM)과 domain adaptation을 사용하여 특허를 분류한다. Domain을 이용한 adaptive pretraining, adaptor를 이용한 fine-tuning..
Three Real-World Datasets and Neural Computational Models for Classification Tasks in Patent Landscaping Abstract 지적 재산 관리의 핵심 업무 중 하나인 Patent Landscaping에는 사용자 정의 기술 또는 응용 프로그램 중심 기준에 따라 특허를 선택하고 그룹화하는 작업이 포함 Transformer 기반의 특허 코드 분류(IPC, CPC)는 연구와 달리 Patent Landscape Studies(PLS)의 연구는 아직 부족 두 가지 도메인의 PLS向 작업을 위한 세 가지 레이블이 지정된 데이터 세트를 공유 특허 전무의 텍스트 정보 뿐만 아니라 CPC label을 이용하여 임베딩을 생헝한 새로운 모델 제안 제목과 초록이 중요하며 CPC 라벨도 효과적인 정보 1 Introduction 새로운 시장에 진입하거나 신제품을 개발할 때 기업과 같은 조직은 Patent Landscape, 즉 비즈니스 활..
The Harvard USPTO Patent Dataset:A Large-Scale, Well-Structured, and Multi-Purpose Corpus of Patent Applications Abstract The Harard USPTO Patent Dataset(HUPD)를 제안 2004년부터 2018년까지의 USPTO 특허 4.5M 특허 문서 특허 출원 버전이 포함됨 (최초) 다양한 메타데이터 제공 Patent decision의 이진분류 작업을 제안 위 작업에 대한 concept shift에 대한 연구 가능 Multi-class classification, language modeling, 그리고 요약이 가능하며 시연 1 Introduction 지난 20년 동안 미국 특허상표청(USPTO)에 제출된 연간 특허 출원 건수는 거의 두 배로 늘어났다. 2020 회계연도에만 USPTO는 계속 심사 요청을 포함해 650,000건 이상의 특허 출원을 접수했다. Table. 1에서처럼 특허 연구를 위..
IPC prediction of patent documents using neural network with attention for hierarchical structure Abstract 70,000 IPC를 분류에는 많은 비용이 소모된다. 특허를 ML로 분류하려는 시도가 있었지만 큰 사이즈로 인해 필요한 메모리가 많아 입력 정보가 제한된다. IPC의 계층적 구조와 새로운 decoder 아키텍처를 제안한다. 1 Introduction 매년 전 세계에서 3M 개의 특허가 출원되며 하나의 특허를 검토하는데 6개월 이상의 시간이 소요된다. 각 특허는 international patent classification (IPC)를 몇 가지 부여 받으며 적절한 IPC를 부여받는 것이 특허 등록에 영향을 미친다. IPC 예측 모델을 개발한다면 조사관들의 부담을 줄이면서 적절한 조사관에게 특허가 할당될 수 있으며 유사 특허 검색에도 용이할 것이다. IPC는 계층적 구조이기 때문에 해당 예..
PatentNet: multi‑label classification of patent documents using deep learning based language understanding Abstract 특허 문서 분류는 multi-label classification을 많은 labels에 대해 수행하는 것 사전 학습된 언어 모델 (BERT, XLNet, RoBERTa, ELECTRA)를 미세조정하여 성능 확인 USPTO-2M 데이터와 M-patent 데이터로 실험 수행 XLNet이 가장 좋은 성능 Introduction 특허 전문가와 특허 정보 사용자에게 특허 분석과 관련된 기술의 자동화의 필요성이 대두되고 있다. 특허 분류에는 IPC(국제 특허 분류) 또는 CPC(협력 특허 분류)와 같은 일반적인 표준 분류 구조가 사용(Shalaby & Zadrozny, 2019). 그러나 전통적인 텍스트 처리 방법을 활용하면 특허 텍스트를 성공적으로 처리하지 못했으며 이는 특허가 길고 복잡한 법적 ..
특허 마이닝을 이용한 국방관련 국제특허분류 개선 방안 연구 J Korean Soc Qual Manag 2022; 50(1): 21-33. Published online: March 28, 2022 DOI: https://doi.org/10.7469/JKSQM.2022.50.1.21 서론 첨단화하는 국방 기술의 트렌드에 대응하기 위해 민간 부문의 4차 산업혁명 기술을 국방 분야와 연계하기 위한 필요성이 증대되고 있다(National Science and Technology Council, 2018). 국방관련 특허는 특성 상 일반인에게 공개될 경우 국가 안보에 위협이 될 수 있으므로 이를 방지하기 위해 정부는 국방관련 특허출원의 비밀취급 제도를 운영하고 있다. 「특허청훈령(제822호, 2015. 7. 25., 일부개정)」에서는 ‘국방관련 특허출원의 분류기준(이하 ..