본문 바로가기

분류 전체보기

(47)
Automated patent classification for crop protection via domain adaptation Abstract 최신 전이학습 기법을 사용하여 domain adaptation이 특허 분류 성능 경계를 확장할 수 있는지 실험 평가는 일반적인 특허 분류 데이터와 농화학 산업의 실 사례 특화 데이터에 대해 평가 다국어 평가도 진행 1. Introduction 기술 변화를 보기 위해 Patent corpora는 중요한 자원이다. 지난 6년간 300k 이상의 특허가 USPTO에 등록됐다. 이를 모니터링 하고 트랜드를 분석하기 위해서는 domain-specific한 지식이 기반되어야 한다. 본 논문에서는 발명의 내용만 사용하여 언어 모델(LM)과 domain adaptation을 사용하여 특허를 분류한다. Domain을 이용한 adaptive pretraining, adaptor를 이용한 fine-tuning..
Clean your desk! Transformers for unsupervised clustering of document images Abstract 문서 분류를 위해 Clustering 을 목표로 한다 Multi-modal Transformer-based encoder : LayoutLM과 LayoutLMv2 사용 RVL-CDIP 문서, SROIE 영수증 및 machine learning 논문에 테스트 수행 텍스트가 많은 문서에 LayoutLM이 이점이 있음에도 LayoutLMv2가 항상 성능을 상회한다 [CLS] 토큰이 Clustering에 항상 최선의 representation은 아니다 1. Introduction 문서 분류를 돕기위해 unsupervised document clustering을 수행했다. 이는 문서 분류와 다르게 라벨이 필요없다. Document understanding은 본질적으로 multimodal이며 강력한..
Three Real-World Datasets and Neural Computational Models for Classification Tasks in Patent Landscaping Abstract 지적 재산 관리의 핵심 업무 중 하나인 Patent Landscaping에는 사용자 정의 기술 또는 응용 프로그램 중심 기준에 따라 특허를 선택하고 그룹화하는 작업이 포함 Transformer 기반의 특허 코드 분류(IPC, CPC)는 연구와 달리 Patent Landscape Studies(PLS)의 연구는 아직 부족 두 가지 도메인의 PLS向 작업을 위한 세 가지 레이블이 지정된 데이터 세트를 공유 특허 전무의 텍스트 정보 뿐만 아니라 CPC label을 이용하여 임베딩을 생헝한 새로운 모델 제안 제목과 초록이 중요하며 CPC 라벨도 효과적인 정보 1 Introduction 새로운 시장에 진입하거나 신제품을 개발할 때 기업과 같은 조직은 Patent Landscape, 즉 비즈니스 활..
The Harvard USPTO Patent Dataset:A Large-Scale, Well-Structured, and Multi-Purpose Corpus of Patent Applications Abstract The Harard USPTO Patent Dataset(HUPD)를 제안 2004년부터 2018년까지의 USPTO 특허 4.5M 특허 문서 특허 출원 버전이 포함됨 (최초) 다양한 메타데이터 제공 Patent decision의 이진분류 작업을 제안 위 작업에 대한 concept shift에 대한 연구 가능 Multi-class classification, language modeling, 그리고 요약이 가능하며 시연 1 Introduction 지난 20년 동안 미국 특허상표청(USPTO)에 제출된 연간 특허 출원 건수는 거의 두 배로 늘어났다. 2020 회계연도에만 USPTO는 계속 심사 요청을 포함해 650,000건 이상의 특허 출원을 접수했다. Table. 1에서처럼 특허 연구를 위..
IPC prediction of patent documents using neural network with attention for hierarchical structure Abstract 70,000 IPC를 분류에는 많은 비용이 소모된다. 특허를 ML로 분류하려는 시도가 있었지만 큰 사이즈로 인해 필요한 메모리가 많아 입력 정보가 제한된다. IPC의 계층적 구조와 새로운 decoder 아키텍처를 제안한다. 1 Introduction 매년 전 세계에서 3M 개의 특허가 출원되며 하나의 특허를 검토하는데 6개월 이상의 시간이 소요된다. 각 특허는 international patent classification (IPC)를 몇 가지 부여 받으며 적절한 IPC를 부여받는 것이 특허 등록에 영향을 미친다. IPC 예측 모델을 개발한다면 조사관들의 부담을 줄이면서 적절한 조사관에게 특허가 할당될 수 있으며 유사 특허 검색에도 용이할 것이다. IPC는 계층적 구조이기 때문에 해당 예..
PatentNet: multi‑label classification of patent documents using deep learning based language understanding Abstract 특허 문서 분류는 multi-label classification을 많은 labels에 대해 수행하는 것 사전 학습된 언어 모델 (BERT, XLNet, RoBERTa, ELECTRA)를 미세조정하여 성능 확인 USPTO-2M 데이터와 M-patent 데이터로 실험 수행 XLNet이 가장 좋은 성능 Introduction 특허 전문가와 특허 정보 사용자에게 특허 분석과 관련된 기술의 자동화의 필요성이 대두되고 있다. 특허 분류에는 IPC(국제 특허 분류) 또는 CPC(협력 특허 분류)와 같은 일반적인 표준 분류 구조가 사용(Shalaby & Zadrozny, 2019). 그러나 전통적인 텍스트 처리 방법을 활용하면 특허 텍스트를 성공적으로 처리하지 못했으며 이는 특허가 길고 복잡한 법적 ..
특허 마이닝을 이용한 국방관련 국제특허분류 개선 방안 연구 J Korean Soc Qual Manag 2022; 50(1): 21-33. Published online: March 28, 2022 DOI: https://doi.org/10.7469/JKSQM.2022.50.1.21 서론 첨단화하는 국방 기술의 트렌드에 대응하기 위해 민간 부문의 4차 산업혁명 기술을 국방 분야와 연계하기 위한 필요성이 증대되고 있다(National Science and Technology Council, 2018). 국방관련 특허는 특성 상 일반인에게 공개될 경우 국가 안보에 위협이 될 수 있으므로 이를 방지하기 위해 정부는 국방관련 특허출원의 비밀취급 제도를 운영하고 있다. 「특허청훈령(제822호, 2015. 7. 25., 일부개정)」에서는 ‘국방관련 특허출원의 분류기준(이하 ..
Evaluating Out-of-Distribution Performance on Document Image Classifier Abstract RVL-CDIP는 좋은 문서 분류 benchmark지만 out-of-distribution 문서에 대한 평가가 포함되어 있지 않다. 따라서 본 논문에서는 새로운 out-of-distribution benchmark를 소개한다. 새 데이터에는 두 종류의 out-of-distribution 문서가 추가되었다. RVL-CDIP-O: 16개의 domain 에 속하지 않음 RVL-CDIP-N: 16개 안에 속하지만 새로운 분포에 속함 기존의 RVL-CDIP 성능대비 새로운 benchmark를 기준으로 accuracy는 15-30% 떨어졌다. 새로운 문서 분류 benchmark는 문서 분류기의 out-of-distribution 성능을 분석할 수 있다. Introduction RVL-CDIP는 si..