본문 바로가기

논문

(29)

Three Real-World Datasets and Neural Computational Models for Classification Tasks in Patent Landscaping Abstract 지적 재산 관리의 핵심 업무 중 하나인 Patent Landscaping에는 사용자 정의 기술 또는 응용 프로그램 중심 기준에 따라 특허를 선택하고 그룹화하는 작업이 포함 Transformer 기반의 특허 코드 분류(IPC, CPC)는 연구와 달리 Patent Landscape Studies(PLS)의 연구는 아직 부족 두 가지 도메인의 PLS向 작업을 위한 세 가지 레이블이 지정된 데이터 세트를 공유 특허 전무의 텍스트 정보 뿐만 아니라 CPC label을 이용하여 임베딩을 생헝한 새로운 모델 제안 제목과 초록이 중요하며 CPC 라벨도 효과적인 정보 1 Introduction 새로운 시장에 진입하거나 신제품을 개발할 때 기업과 같은 조직은 Patent Landscape, 즉 비즈니스 활..

The Harvard USPTO Patent Dataset:A Large-Scale, Well-Structured, and Multi-Purpose Corpus of Patent Applications Abstract The Harard USPTO Patent Dataset(HUPD)를 제안 2004년부터 2018년까지의 USPTO 특허 4.5M 특허 문서 특허 출원 버전이 포함됨 (최초) 다양한 메타데이터 제공 Patent decision의 이진분류 작업을 제안 위 작업에 대한 concept shift에 대한 연구 가능 Multi-class classification, language modeling, 그리고 요약이 가능하며 시연 1 Introduction 지난 20년 동안 미국 특허상표청(USPTO)에 제출된 연간 특허 출원 건수는 거의 두 배로 늘어났다. 2020 회계연도에만 USPTO는 계속 심사 요청을 포함해 650,000건 이상의 특허 출원을 접수했다. Table. 1에서처럼 특허 연구를 위..

IPC prediction of patent documents using neural network with attention for hierarchical structure Abstract 70,000 IPC를 분류에는 많은 비용이 소모된다. 특허를 ML로 분류하려는 시도가 있었지만 큰 사이즈로 인해 필요한 메모리가 많아 입력 정보가 제한된다. IPC의 계층적 구조와 새로운 decoder 아키텍처를 제안한다. 1 Introduction 매년 전 세계에서 3M 개의 특허가 출원되며 하나의 특허를 검토하는데 6개월 이상의 시간이 소요된다. 각 특허는 international patent classification (IPC)를 몇 가지 부여 받으며 적절한 IPC를 부여받는 것이 특허 등록에 영향을 미친다. IPC 예측 모델을 개발한다면 조사관들의 부담을 줄이면서 적절한 조사관에게 특허가 할당될 수 있으며 유사 특허 검색에도 용이할 것이다. IPC는 계층적 구조이기 때문에 해당 예..

PatentNet: multi‑label classification of patent documents using deep learning based language understanding Abstract 특허 문서 분류는 multi-label classification을 많은 labels에 대해 수행하는 것 사전 학습된 언어 모델 (BERT, XLNet, RoBERTa, ELECTRA)를 미세조정하여 성능 확인 USPTO-2M 데이터와 M-patent 데이터로 실험 수행 XLNet이 가장 좋은 성능 Introduction 특허 전문가와 특허 정보 사용자에게 특허 분석과 관련된 기술의 자동화의 필요성이 대두되고 있다. 특허 분류에는 IPC(국제 특허 분류) 또는 CPC(협력 특허 분류)와 같은 일반적인 표준 분류 구조가 사용(Shalaby & Zadrozny, 2019). 그러나 전통적인 텍스트 처리 방법을 활용하면 특허 텍스트를 성공적으로 처리하지 못했으며 이는 특허가 길고 복잡한 법적 ..

특허 마이닝을 이용한 국방관련 국제특허분류 개선 방안 연구 J Korean Soc Qual Manag 2022; 50(1): 21-33. Published online: March 28, 2022 DOI: https://doi.org/10.7469/JKSQM.2022.50.1.21 서론 첨단화하는 국방 기술의 트렌드에 대응하기 위해 민간 부문의 4차 산업혁명 기술을 국방 분야와 연계하기 위한 필요성이 증대되고 있다(National Science and Technology Council, 2018). 국방관련 특허는 특성 상 일반인에게 공개될 경우 국가 안보에 위협이 될 수 있으므로 이를 방지하기 위해 정부는 국방관련 특허출원의 비밀취급 제도를 운영하고 있다. ｢특허청훈령(제822호, 2015. 7. 25., 일부개정)｣에서는 ‘국방관련 특허출원의 분류기준(이하 ..

Evaluating Out-of-Distribution Performance on Document Image Classifier Abstract RVL-CDIP는 좋은 문서 분류 benchmark지만 out-of-distribution 문서에 대한 평가가 포함되어 있지 않다. 따라서 본 논문에서는 새로운 out-of-distribution benchmark를 소개한다. 새 데이터에는 두 종류의 out-of-distribution 문서가 추가되었다. RVL-CDIP-O: 16개의 domain 에 속하지 않음 RVL-CDIP-N: 16개 안에 속하지만 새로운 분포에 속함 기존의 RVL-CDIP 성능대비 새로운 benchmark를 기준으로 accuracy는 15-30% 떨어졌다. 새로운 문서 분류 benchmark는 문서 분류기의 out-of-distribution 성능을 분석할 수 있다. Introduction RVL-CDIP는 si..

End-to-end Document Recognition and Understanding with Dessurt Abstract Document understanding transformer인 Dessurt를 소개 Document image와 task string을 입력으로 받고 autoregressive하게 텍스트를 출력 End-to-end 아키텍쳐로 document understanding에 text recognition까지 추가로 수행 9개의 다른 task에 대해 효과적인 성능을 달성 Introduction Document understanding 분야에 많은 연구가 진행중이며 대표적으로 LayoutLM이 있다. LayoutLM Family BERT-like transformers에 spatial/layout 정보와 visual feature 추가 Document image로 사전학습되었으며 각 task로 미..

A Horizontal Patent Test Collection * Test Collection available (restricted) Abstract 여섯 특허청으로 부터의 multimodal과 multilingual을 포함하는 public 특허 데이터의 필요성이 있다. 새로운 특허 데이터는 기존의 vertical (몇 년 동안의 단일 domain 또는 단일 특허청 범위) 특허 데이터를 보완한다. 새로운 데이터는 horizontal (2년간의 상대적으로 짧은 기간 동안 주요 특허청으로부터 모든 기술적 도메인을 포함) 하다. 현재 여러 테스트 컬렉션에 분산되어 있는 문서를 통합하는 것 외에도 유럽, 미국, 일본, 중국의 문서를 보완하기 위해 최초로 한국어 문서를 제공한다. Introduction 자연과학과 달리 Natural Language Processing(NL..

이전 1 2 3 4 다음

티스토리툴바