본문 바로가기

분류 전체보기

(41)
BEIT: BERT Pre-Training of Image Transformers Abstract BEIT는 Bidirectional Encoder representation form Image Transfomers의 약자로 self-supervised vision representation model이다. NLP에서의 BERT처럼 vision Transformers의 pretrain task로 masked image modeling을 제안한다. 각 image는 image patches (예를들어 16×16 pixels)와 visual tokens 두 가지로 분류된다. 우선, image를 visual token으로 "tokenize"한다. 이후 임의로 몇몇 image patch를 mask한 후 Transformer backbone에 넣어줍니다. Pre-training objective..
Annotated Chemical Patent Corpus: A Gold Standard for Text Mining Abstract 특허 출원이 다루는 화학 및 생물학적 공간을 탐색하는 것은 초기 단계의 의약 화학 활동에서 매우 중요하다. 특허 분석은 화합물 선행 기술에 대한 이해, 신규성 확인, 생물학적 분석의 검증 및 화학적 탐색을 위한 새로운 출발점의 식별을 제공할 수 있다. 전문 큐레이터가 직접 특허에서 화학적 및 생물학적 entity를 추출하는 데는 상당한 시간과 리소스가 소요된다. 텍스트 마이닝 방법은 이 프로세스를 용이하게 하는 데 도움이 될 수 있다. 이러한 방법의 성능을 검증하려면 수동으로 annotation을 추가한 특허 자료가 필수적이다. 우리는 annotation guideline을 개발하고 세계 지적 재산권 기구, 미국 특허청, 유럽 특허청에서 200개의 전체 특허를 선택했다. 특허는 사전에 자..
ACL 2022, Findings) What does it take to bake a cake Abstract Anaphoric phenomena가 포함된 순서가 있는 텍스트는 NLP에서 많은 주목을 받지 못했다. 이 격차를 메우기 위해 두 가지 유형의 절차 텍스트, 요리 레시피 및 화학 특허의 텍스트 속성을 조사하고 레시피에서 anaphoric phenomena을 모델링하기 위해 화학 도메인에 대해 개발된 anaphora 주석 프레임워크를 일반화한다. 이 프레임워크를 적용하여 bridging 및 coreference relation으로 RecipeRef 말뭉치에 주석을 달았다. 화학 특허와의 비교를 통해 레시피에서 anaphora resolution의 복잡성을 보여준다. 우리는 화학 영역에서의 전이 학습이 조리법에서 anaphora 해결을 향상시키고 일반 절차 지식의 전이 가능성을 제안한다는 것..
ACL 2022) Retrieval-guided Counterfactual Generation for QA Abstract Deep NLP 모델은 input perturbation에 약한 모습을 보인다. 최근 연구는 counterfactual을 이용한 data augmentation이 이 약점을 개선한다고 한다. 그 중 해당 논문은 question answering(QA)에 대한 counterfactual 생성 작업에 초점을 맞췄다. 최소한의 사람의 감독으로 counterfactual 평가와 훈련 데이터 생성을 위해 Retrieve-Generate-Filter(RGF)를 개발했다. Open domain QA 프레임워크와 원래 작업 데이터에 대해 훈련된 질문 생성 모델을 사용하여 유창하고 의미론적으로 다양하며 자동으로 레이블이 지정된 counterfactual을 생성한다. RGF counterfactuals를 ..
ACL 2022) Composition Sampling for Diverse Conditional Generation Abstract 기존의 stochastic decoding strategies에 비해 더 높은 품질의 conditional generation을 위해 diverse outputs을 생성하는 간단하지만 효과적인 방법인 Composition Sampling을 제안합니다. 이 방법은 최근 제안된 plan-based neural generation model을 기반으로 하여 먼저 출력의 composition을 생성한 다음 입력과 이를 조건화하여 생성하도록 훈련되었다. 접근 방식은 먼저 entity 체인의 composition을 샘플링한 다음 beam search를 사용하여 이에 최상의 텍스트를 생성함으로써 텍스트 degenertation을 방지합니다. 인간 기반 평가와 함께 기존 및 새로 제안된 자동 메트릭을 ..
BioNLP 2022) Explainable Assessment of Healthcare Articles with QA Explainable Assessment of Healthcare Articles with QA Alodie Boissonnet1, Marzieh Saeidi2, Vassilis Plachouras2, Andreas Vlachos1,2 1Department of Computer Science, University of Cambridge 2Facebook AI, London {avmb2,av308}@cam.ac.uk, {marzieh,vplachouras,avlachos}@fb.com Abstract Proceedings of the BioNLP 2022 workshop, Dublin, Ireland, pages 1–9 May 26, 2022. ©2022 Association for Computationa..
Lec10) Transformers and Pretraining ○단어 구조와 subword 모델 단어 임베딩 단계에서 수만개의 단어로 이루어진 vocabulary를 이용해 훈련셋을 만들었다고 가정하자. 모든 테스트 때 새롭게 마주한 단어는 UNK로 매핑된다. 이러한 유한한 vocabulary 가정은 많은 언어들에서 효과적이지 못하다. 대부분의 많은 언어가 복잡한 형태 또는 단어 구조를 나타낸다. 예를 들어 Swahili어는 백여개의 동사 활용이 존재하며 각 활용은 광범위의 다양한 활용을 내포한다. 따라서 훨씬 길고 더욱 복잡한 복합어가 될수록 각 단어는 더욱 적게 등장할 것이다. Byte-pair 인코딩 알고리즘 NLP의 subword 모델링은 단어 수준 기저에 깔린 구조에 대한 추론을 위한 광범위한 방법을 포함한다. (단어 일부, 문자, 바이트) • 현대에는 단어..
Lec 9) Self-Attention & Transformers 지난 강의에 이어 ○NLP에서의 재귀(recurrent) 모델 2016년을 전후로, NLP의 사실상의 전략은 다음과 같다. 이번 시간에는 색다른 것을 배운다기보다 모델에서 최적의 building blocks가 뭔지 찾아볼 것이다. ○ RNNs의 문제: 선형 상호작용 거리 (Linear interaction distance) RNNs은 "왼쪽에서 오른쪽으로" 전개되며 이는 선형 인접성을 인코딩한다 그러나 문제는 RNNs이 거리가 떨어진 단어간 상호작용하려면 O(시퀀스 길이) step이 필요하다 먼 거리 의존성은 기울기 소실 문제 때문에 제대로 학습하기 어렵다. 단어의 선형 순서는 우리가 집어넣은 것으로 우리는 문장을 생각할 때 순서대로 보지 않는다. ○ RNNs의 문제: 병렬화의 부재 앞 혹은 뒤로의 흐름..