본문 바로가기

분류 전체보기

(47)
ACL 2022, Findings) What does it take to bake a cake Abstract Anaphoric phenomena가 포함된 순서가 있는 텍스트는 NLP에서 많은 주목을 받지 못했다. 이 격차를 메우기 위해 두 가지 유형의 절차 텍스트, 요리 레시피 및 화학 특허의 텍스트 속성을 조사하고 레시피에서 anaphoric phenomena을 모델링하기 위해 화학 도메인에 대해 개발된 anaphora 주석 프레임워크를 일반화한다. 이 프레임워크를 적용하여 bridging 및 coreference relation으로 RecipeRef 말뭉치에 주석을 달았다. 화학 특허와의 비교를 통해 레시피에서 anaphora resolution의 복잡성을 보여준다. 우리는 화학 영역에서의 전이 학습이 조리법에서 anaphora 해결을 향상시키고 일반 절차 지식의 전이 가능성을 제안한다는 것..
ACL 2022) Retrieval-guided Counterfactual Generation for QA Abstract Deep NLP 모델은 input perturbation에 약한 모습을 보인다. 최근 연구는 counterfactual을 이용한 data augmentation이 이 약점을 개선한다고 한다. 그 중 해당 논문은 question answering(QA)에 대한 counterfactual 생성 작업에 초점을 맞췄다. 최소한의 사람의 감독으로 counterfactual 평가와 훈련 데이터 생성을 위해 Retrieve-Generate-Filter(RGF)를 개발했다. Open domain QA 프레임워크와 원래 작업 데이터에 대해 훈련된 질문 생성 모델을 사용하여 유창하고 의미론적으로 다양하며 자동으로 레이블이 지정된 counterfactual을 생성한다. RGF counterfactuals를 ..
ACL 2022) Composition Sampling for Diverse Conditional Generation Abstract 기존의 stochastic decoding strategies에 비해 더 높은 품질의 conditional generation을 위해 diverse outputs을 생성하는 간단하지만 효과적인 방법인 Composition Sampling을 제안합니다. 이 방법은 최근 제안된 plan-based neural generation model을 기반으로 하여 먼저 출력의 composition을 생성한 다음 입력과 이를 조건화하여 생성하도록 훈련되었다. 접근 방식은 먼저 entity 체인의 composition을 샘플링한 다음 beam search를 사용하여 이에 최상의 텍스트를 생성함으로써 텍스트 degenertation을 방지합니다. 인간 기반 평가와 함께 기존 및 새로 제안된 자동 메트릭을 ..
BioNLP 2022) Explainable Assessment of Healthcare Articles with QA Explainable Assessment of Healthcare Articles with QA Alodie Boissonnet1, Marzieh Saeidi2, Vassilis Plachouras2, Andreas Vlachos1,2 1Department of Computer Science, University of Cambridge 2Facebook AI, London {avmb2,av308}@cam.ac.uk, {marzieh,vplachouras,avlachos}@fb.com Abstract Proceedings of the BioNLP 2022 workshop, Dublin, Ireland, pages 1–9 May 26, 2022. ©2022 Association for Computationa..
Lec10) Transformers and Pretraining ○단어 구조와 subword 모델 단어 임베딩 단계에서 수만개의 단어로 이루어진 vocabulary를 이용해 훈련셋을 만들었다고 가정하자. 모든 테스트 때 새롭게 마주한 단어는 UNK로 매핑된다. 이러한 유한한 vocabulary 가정은 많은 언어들에서 효과적이지 못하다. 대부분의 많은 언어가 복잡한 형태 또는 단어 구조를 나타낸다. 예를 들어 Swahili어는 백여개의 동사 활용이 존재하며 각 활용은 광범위의 다양한 활용을 내포한다. 따라서 훨씬 길고 더욱 복잡한 복합어가 될수록 각 단어는 더욱 적게 등장할 것이다. Byte-pair 인코딩 알고리즘 NLP의 subword 모델링은 단어 수준 기저에 깔린 구조에 대한 추론을 위한 광범위한 방법을 포함한다. (단어 일부, 문자, 바이트) • 현대에는 단어..
Lec 9) Self-Attention & Transformers 지난 강의에 이어 ○NLP에서의 재귀(recurrent) 모델 2016년을 전후로, NLP의 사실상의 전략은 다음과 같다. 이번 시간에는 색다른 것을 배운다기보다 모델에서 최적의 building blocks가 뭔지 찾아볼 것이다. ○ RNNs의 문제: 선형 상호작용 거리 (Linear interaction distance) RNNs은 "왼쪽에서 오른쪽으로" 전개되며 이는 선형 인접성을 인코딩한다 그러나 문제는 RNNs이 거리가 떨어진 단어간 상호작용하려면 O(시퀀스 길이) step이 필요하다 먼 거리 의존성은 기울기 소실 문제 때문에 제대로 학습하기 어렵다. 단어의 선형 순서는 우리가 집어넣은 것으로 우리는 문장을 생각할 때 순서대로 보지 않는다. ○ RNNs의 문제: 병렬화의 부재 앞 혹은 뒤로의 흐름..
Lec 8) Attention 어텐션 (Attention) ○ Sequnce-to-sequence: 병목 문제 (the bottleneck problem) 감성 분석 문제에서는 문장 전체를 보지않고 마지막의 hidden state만으로도 좋은 성능을 낼 수 있었지만, 기계 번역 작업의 경우엔 각각의 단어가 무엇이고 그 배열이 어떤지가 중요하기 때문에 해당 방식으로 접근할 경우 encoder RNN의 마지막 hidden state에 모든 정보가 쏠리는 정보 병목 문제 (information bottleneck problem)이 발생한다. 단순히 사람이 번역을 할 경우에도 변역하면서 원문장 (source sentence)를 확인하며 어떤 단어가 어떻게 배열되어 있는지를 확인한다. 이 개념에서 시작된 것이 Attention이다. ○ 어텐션..
Lec 7) Translation, Seq2Seq 기계 번역 (Machine Translation) ○ Section 1: Pre-Neural Machine Translation 1950`s 기계 번역(Machine Translation, MT)랑 하나의 언어 x(Source language)를 또 다른 언어 y로(Targent language)로 번역하는 작업이다. x: L'homme est né libre, et partout il est dans les fers ▽ y: Man is born free, but everywhere he is in chains 개발 배경은 1950년도 냉전 시대에 미국과 소련이 서로의 통신 혹은 기밀 문서를 빠르게 번역하여 정보를 얻기 위함입니다. 이 당시는 주로 rule-based 방식으로 번역이 되었으며, 이 이후..