본문 바로가기

논문

(24)
Evaluating Out-of-Distribution Performance on Document Image Classifier Abstract RVL-CDIP는 좋은 문서 분류 benchmark지만 out-of-distribution 문서에 대한 평가가 포함되어 있지 않다. 따라서 본 논문에서는 새로운 out-of-distribution benchmark를 소개한다. 새 데이터에는 두 종류의 out-of-distribution 문서가 추가되었다. RVL-CDIP-O: 16개의 domain 에 속하지 않음 RVL-CDIP-N: 16개 안에 속하지만 새로운 분포에 속함 기존의 RVL-CDIP 성능대비 새로운 benchmark를 기준으로 accuracy는 15-30% 떨어졌다. 새로운 문서 분류 benchmark는 문서 분류기의 out-of-distribution 성능을 분석할 수 있다. Introduction RVL-CDIP는 si..
End-to-end Document Recognition and Understanding with Dessurt Abstract Document understanding transformer인 Dessurt를 소개 Document image와 task string을 입력으로 받고 autoregressive하게 텍스트를 출력 End-to-end 아키텍쳐로 document understanding에 text recognition까지 추가로 수행 9개의 다른 task에 대해 효과적인 성능을 달성 Introduction Document understanding 분야에 많은 연구가 진행중이며 대표적으로 LayoutLM이 있다. LayoutLM Family BERT-like transformers에 spatial/layout 정보와 visual feature 추가 Document image로 사전학습되었으며 각 task로 미..
A Horizontal Patent Test Collection * Test Collection available (restricted) Abstract 여섯 특허청으로 부터의 multimodal과 multilingual을 포함하는 public 특허 데이터의 필요성이 있다. 새로운 특허 데이터는 기존의 vertical (몇 년 동안의 단일 domain 또는 단일 특허청 범위) 특허 데이터를 보완한다. 새로운 데이터는 horizontal (2년간의 상대적으로 짧은 기간 동안 주요 특허청으로부터 모든 기술적 도메인을 포함) 하다. 현재 여러 테스트 컬렉션에 분산되어 있는 문서를 통합하는 것 외에도 유럽, 미국, 일본, 중국의 문서를 보완하기 위해 최초로 한국어 문서를 제공한다. Introduction 자연과학과 달리 Natural Language Processing(NL..
(2022) 3rd Workshop on Patent Text Mining and Semantic Technologies PatentSemTech 2022 Foreword Information Extraction End-to-End Chemical Reaction Extraction from Patents Yuan Li, Biaoyan Fang, Jiayuan He, Hiyori Yoshikawa, Saber A Akhondi, Christian Druckenbrodt, Camilo Thorne, Zenan Zhai and Karin Verspoor Optimizing BERT-based reference mining from patents Zahra Abbasiantaeb, Suzan Verberne and Jian Wang Classification An Ensemble Architecture of Classifiers..
CLEF-IP 2011: Retrieval in the Intellectual Property Domain 1. Introduction 특허가 부여되기 전에 전 세계 특허청은 이전과 유사한 공개가 이루어지지 않았는지 확인하기 위해 철저한 검색을 수행합니다. 트랙의 목적은 두 가지다. 하나는 실험을 위한 크고 깨끗한 데이터 세트를 제공하여 특허 검색 영역에서 연구를 장려하고 촉진하는 것과 세 주요 유럽 언어를 이용한 특허 데이터를 많들어 cross-lingual 정보 접근의 평가를 하는 것이다. 2011년 CLEF-IP 트랙은 2010년과 같이 연구 특허 retrieval 분야 촉진과 많은 데이터를 제공한다. 2010 CLEF-IP 벤치마크에는 IPC 기준에 따른 특허 분류도 포함된다. 2011년에는 two patent image related task도 제공된다. 전문가들은 검색엔진에서 검색결과를 확인할 때 ..
MGDoc: Pre-training with Multi-granular Hierarchyfor Document Image Understanding Abstract 문서는 fine granularity(e.g., words), medium granularity(e.g., paragraphs or figures), coarse granularity(e.g., the whole page)와 같이 계층적 구조로 이루어져 있다. 각 granularity 수준 차이와 계층적 상관관계는 문서 이미지 파악에 중요하다. 과거의 모델 중 word-level 모델은 상위 계층의 정보를 활용하지 못하는 반면 region-level 모델은 paragraphs 나 text blocks를 단일 embedding하여 word-level 특징을 뽑는데는 부족했다. 이러만 문제에 입각하여 MGDoc을 제안한다. Multi-modal multi-granular pre-trainin..
ReactIE: Enhancing Chemical Reaction Extraction with Weak Supervision Abstract 잘 구조화된 화학 반응 정보는 신약 개발과 같은 분야에서 중요한 역할을 한다. 그러나 이러한 정보들을 문헌에서 뽑아내는 것은 값 비싼 일이다. 결과적으로 충분한 데이터를 얻는 것이 이 분야의 큰 장애물이다. 이 논문에서 우리는 사전학습에 지도적 접근 방식을 결합한 ReactIE를 제안한다. 이 방법은 화학 반응의 특정 특성을 식별하기 위해 텍스트 언어 단서 내의 빈번한 패턴을 활용합니다. 추가로 특허로부터 얻어진 합성 데이터를 이용하여 distant supervision을 모델의 domain knowledge로 넣어준다. 1. Introduction 기존의 방법들 Reaxys(Goodman, 2009), SciFinder(Gabrielson, 2018).와 같이 manual하게 반응 da..
ERNIE-Layout: Layout Knowledge Enhanced Pre-trainingfor Visually-rich Document Understanding Abstract 최근 많은 visuall-rich document understanding의 pre-training 기법이 많은 발전을 이루었지만 여전히 layout-centered knowledge의 사용에는 부족함이 있다. 이 논문에서는 ERNIE-Layout이라는 text와 layout 및 image 정보를 잘 합쳐서 layout 지식을 향상시키는 모델을 제안한다. 구체적으로 먼저 input sequence를 재정렬한 다음 문서의 적절한 읽기 순서를 학습하기 위해 pre-training task인 읽기 순서 예측을 제시한다. 모델의 layout 인식을 향상시키기 위해 spatial-aware disentengled attion을 multi-modal transformer에 합치고 replaced r..