data augmentation (2) 썸네일형 리스트형 Evaluating Out-of-Distribution Performance on Document Image Classifier Abstract RVL-CDIP는 좋은 문서 분류 benchmark지만 out-of-distribution 문서에 대한 평가가 포함되어 있지 않다. 따라서 본 논문에서는 새로운 out-of-distribution benchmark를 소개한다. 새 데이터에는 두 종류의 out-of-distribution 문서가 추가되었다. RVL-CDIP-O: 16개의 domain 에 속하지 않음 RVL-CDIP-N: 16개 안에 속하지만 새로운 분포에 속함 기존의 RVL-CDIP 성능대비 새로운 benchmark를 기준으로 accuracy는 15-30% 떨어졌다. 새로운 문서 분류 benchmark는 문서 분류기의 out-of-distribution 성능을 분석할 수 있다. Introduction RVL-CDIP는 si.. ACL 2022) Retrieval-guided Counterfactual Generation for QA Abstract Deep NLP 모델은 input perturbation에 약한 모습을 보인다. 최근 연구는 counterfactual을 이용한 data augmentation이 이 약점을 개선한다고 한다. 그 중 해당 논문은 question answering(QA)에 대한 counterfactual 생성 작업에 초점을 맞췄다. 최소한의 사람의 감독으로 counterfactual 평가와 훈련 데이터 생성을 위해 Retrieve-Generate-Filter(RGF)를 개발했다. Open domain QA 프레임워크와 원래 작업 데이터에 대해 훈련된 질문 생성 모델을 사용하여 유창하고 의미론적으로 다양하며 자동으로 레이블이 지정된 counterfactual을 생성한다. RGF counterfactuals를 .. 이전 1 다음