본문 바로가기

논문/ACL

ACL 2022, Findings) What does it take to bake a cake

 

Abstract

Anaphoric phenomena가 포함된 순서가 있는 텍스트는 NLP에서 많은 주목을 받지 못했다. 이 격차를 메우기 위해 두 가지 유형의 절차 텍스트, 요리 레시피화학 특허의 텍스트 속성을 조사하고 레시피에서 anaphoric phenomena을 모델링하기 위해 화학 도메인에 대해 개발된 anaphora 주석 프레임워크를 일반화한다. 이 프레임워크를 적용하여 bridging 및 coreference relation으로 RecipeRef 말뭉치에 주석을 달았다. 화학 특허와의 비교를 통해 레시피에서 anaphora resolution의 복잡성을 보여준다. 우리는 화학 영역에서의 전이 학습이 조리법에서 anaphora 해결을 향상시키고 일반 절차 지식의 전이 가능성을 제안한다는 것을 경험적으로 보여준다.

 

1 Introduction 

Anaphora resolution은 정보 추출 작업의 핵심 구성 요소이며 명명된 엔터티 인식 및 machine translation과 같은 다양한 downstream NLP 작업에 중요하다. 그것은 두 가지 기본 anaphoric 유형, coreference bridging으로 구성된다. 그러나 대부분의 anaphora corpus는 coreference 또는 bridging 하나에만 초점을 맞춘다. Anaphora resolution에 대한 현재 연구는 대부분 뉴스나 대화와 같은 선언적(declarative) 텍스트를 기반으로 한다. 결과적으로 엔터티의 올바른 인식은 procedural 텍스트 이해의 초석이다. 이러한 텍스트에서 anaphora resoluion은 어떤 action이 어떤 엔터티에 적용되는지 결정하는 데 필요하다.

Figure 1: Excerpt of a recipe annotated for anaphora. Different color links represent different anaphora relation types. Detailed anaphora relation definitions are provided in Section 3.3.

이 task에서는 절차적 텍스트 유형의 레시피에 중점을 둔다. Fig 1과 같이 조리법에는 풍부하고 복잡한 anaphora phenomena가 있다. 여기서 biscuits라는 표현은 텍스트에 여러 번 나타난다. 각각의 경우는 동일한 비스킷 개념과 관련이 있지만 상태와 의미론적 의미는 다양하다.

 해당 논문에서 우리의 목표는 procedural 텍스트, 특히 조리법에 대한 anaphora resolution을 해결하고, anaphoric 참조를 식별하고, entity간의 관계를 결정하는 것이다. 화학 특허를 위해 개발된 기존 anaphora annotation schema를 레시피에 적용하고 coreference 및 bridging을 포함하는 4가지 유형의 anaphora 관계를 정의한다. 이 schema를 기반으로 데이터 세트를 추가로 생성하고 도메인에 경험이 있는 두 명의 주석자와 높은 inter-annotator agreement를 달성한다. 추가로 화학 영역에서 전이 학습을 모델 레시피 anaphora resolution에 적용하는 가능성을 탐색합니다.

대표적으로 한 일의 요약은 아래와 같다.

  1. 레시피에서 anaphora phenomena를 모델링하기 위해 화학 특허에서 anaphora annotation framework를 적용
  2. Annotation framework를 기반으로 공개적으로 액세스 가능한 레시피 anaphora resolution 데이터 세트 생성
  3. 화학 특허 및 레시피의 텍스트 properties 조사
  4. 전이 학습을 통해 레시피 anaphora resolution을 향상시키기 위해 화학 영역의 procedural 지식을 활용하는 이점의 입증

2 Related Work

Anaphora relation

  • Coreference: 동일한 엔티티를 참조하는 텍스트의 표현
    ex) Barack Obama traveled to … Obama
  • Bridging: 동일한 개체를 참조하지 않지만 의미, 어휘 또는 사전적 관계를 통해 연결된 표현
    ex) We went to see a concert last night. The tickets were really expensive.

Anaphora 연구는 declarative text 데이터만 있었으며 precedural text와 관련된 데이터도 대부분 coreference 데이터에 집중되어 있었다.

 

Coreference Corpus

CoNLL2012: 영어, 중국어, 아랍어로 작성된 news와 megazine 기사와 같은 declarative text의 일반적인 coreference resolution 데이터

OntoNotes 5.0: CoNLL2012를 적용, coreference가 완전히 같은지(identical) 아니면 동격(appositive)의 유사한 명사구인지를 구분. 이는 관계의 방향성을 무시하고 clustering task를 하게 했다.

WikiCoref: 위와 같은 annotation을 Wekipedia text에 수행.

InScript: 10개의 다른 시나리오에서 1000개의 스토리로 구성, 명사구에 대한 coreference 주석을 포함.

BioNLP-ST2011: Biomedical 논문의 초록을 기반으로 하는 유전자 관련 coreference corpus다. 4가지 유형의 상호 참조로 구성된다. RELAT(상대 대명사 또는 상대 형용사, 예: that), PRON(대명사, 예: it), DNP(확정 NP 또는 지시적 NP, 예: the 로 시작하는 NP) 및 APPOS(대명사 coreference) . 유전자 관련 표기법에만 집중하기 때문에 coreference가 제한적이다.

CRAFT-ST2019: 97개의 biomedical 기사에 OntoNotes 5.0의 coreference 주석을 약간 변형하여 적용.

SCIERC: 500개의 과학 기사 초록에 coreference 주석

 

Bridging Corpus

Bridging의 경우 정의의 복잡성 때문에 corpora마다 다른 정의를 적용한다. Rösiger et al. (2018)에 따르면, 다음과 같이 나누어 진다.

  1. Referential: Anaphoric references가 referent에 의존하여 해석할 수 있는 경우(예: 새로운 시청 – 문, 오래된 떡갈나무 – 나뭇잎 등)
  2. Lexical: 부분어 또는 하위어와 같은 어휘-의미 관계를 포함하는 경우(예: 유럽과 스페인은 전체-부분 관계에 있음)

ARRAU: 뉴스, 대화, 대본 세 가지 declarative text로 구성되며, bridging 주석은 대부분 lexical하고 소수의 referential 주석이 존재

ISNotes: OntoNotes에서 50개의 Wall Streeet Journal(WSJ)을 기반으로 coreference와 referential bridging 주석을 포함

BASHI: ISNotes와 유사하게 50개의 WSJ을 기반으로 referential bridging로 주로 구성

SciCorp: 과학 text에 referential bridging으로 구성

 

Domain-specific procedural text

-과학

ChEMU-ref: 1500개의 화학 반응을 묘사하는 화학 특허로부터 발췌. 화학 지식에 기반 5가지 주석 종류가 존재(Coreference, Transfers, Reaction-associated, Work-up, and Contained.)

SOFC-Exp: 45개의 material science 기사를 이용. NER과 RE를 주 목적으로 coreference를 부 목적으로 함

The Materials Science Procedural Text Corpus: 230개의 합성 과정을 괄호와 coreferent 약어에 기반하여 주석 처리

-레시피

Visual instructions (Huang et al., 2017; Nishimura et al., 2020)
Linguistic texts (Agarwal and Miller, 2011; Kiddon et al., 2015; Jiang et al., 2020)
Japanese (Harashima and Hiramatsu, 2020; Harashima et al., 2016)
English (Batra et al., 2020; Marin et al., 2019)
Workflow graph based on actions (Kiddon et al., 2015; Mori et al., 2014; Yamakata et al., 2020) 

RISeC: 영어 레시피에서 anaphora 동사가 없는 후보 표현을 식별

 

Model

대부분의 연구는 데이터 부족 때문에 coreference와 bridging을 개별적으로 사용하였다.

-Coreference Resolution

Span ranking model(Lee et al., 2017, 2018): benchmark로 사용되며 mention ranking models (Clark and Manning, 2015, 2016a,b; Wiseman et al., 2015, 2016)을 대신하였고, 다양한 span ranking variants(Zhang et al., 2018; Grobol, 2019; Kantor and Globerson, 2019)가 나왔다.

Transfer learning (Brack et al., 2021; Xia and Van Durme, 2021): 데이터가 증가함에 따라 전이학습을 진행하여 좋은 성능을 내었다.

-Bridging Method

Rule-based methods (Hou et al., 2014; Rösiger et al., 2018; Rösiger, 2018b)
Machine learning methods (Hou, 2018a,b, 2020; Yu and Poesio, 2020)
QA 접근방식 (Hou, 2020): 일반 QA 모델을 전이학습
End-to-end coreference model (Lee et al., 2017): Bridging과 coreference를 joint training하여 end-to-end 모델을 구성. coreference와 비슷하게 clustering task로 진행하였다. 
Mention pair classification task 접근 Fang et al. (2021a): End-to-end framework에 joint training을 적용하였는데 bridging을 mention pair classification task로 접근


3 Annotation Scheme

레시피 anaphora annotation 맞춤형 scheme을 사용하였다. 

3.1 Corpus Selection

RecipeRef는 RecipeDB에서 ransom sampling을 통해 생성하였으며, 268개의 과정과 10,262개의 재료로 이루어진 118,171개의 영어 레시피가 존재한다. 레시피는 ingredient lists와 instruction section으로 구성되어있으며 해당 데이터는 instruction section을 발췌하여 자세한 과정이 포함되도록 하였다. 

3.2 Mention Types

레시피에서 anaphora를 capture하는 것이 목적이기에 재료-관련 표현에 주목했다. Singleton mention (anaphora relations가 없는 mention)은 annotation 하지 않았다.

  • Ingredient Term: 레시피에서 재료를 의미하는 단어 혹은 구 (butter, endive heads, red peppers, or garlic powder)
  • Reffering Expressions: 레시피에서 사전에 언급된 재료를 표현, 대명사 (it or they) 혹은 구 (soup or the pastry mixture)
    • Premodifier: Procedural text에서 entity의 상태를 track하는 것은 중요하다. 따라서 상태를 의미하는 premodifier를 포함하여 entity를 인식한다. Premodifier가 있는 재료를 atomic mentions으로 생각한다.(chopped chicken, roasted red peppers, and four sandwiches)
    • Numbers: 어떤 경우 단순 숫자 표현이 재료를 의미하고, 다른 경우 mention으로 고려되기도 한다. (1 in Beat eggs, 1 at a time, and three in Combine together to make a sandwich. Repeat to make three.)

3.3 Relation Types

Procedural text 표현에서 핵심은 각 entity의 상태를 tracking 하는 것이다. 레시피는 재료의 상태 변화의 정보를 포함한다. Figure 1에서 line 6의 the biscuits는 line 1의 the biscuit에서 물리적(flatten) 혹은 화학적(bake) 변화와 같이 몇 가지 과정을 지나온다. 

레시피에서 entity의 상태를 기반하여 세 가지 subtypes로 bridging을 정의한다. 세 가지 bridging과 coreference를 포함하여 총 4가지 anaphora relation에 관한 overall schema는 Fig.2에 기술되어 있다.

Figure 2: Overall schema of anaphora relations for recipes.

 

이전 작업과 일관되게 anaphors는 선행되서 나온 antecedents에만 연결하였다. (즉, cataphora는 annotate하지 않았다.) 또한 링크의 방향성은 보존되었다. 

 

3.3.1 Coreference

일반적으로 coreference는 표현이 현실 세계의 같은 entity를 언급하는지에 초점을 맞춘다. Procedural text에서 entity의 상태는 해당 entity에 적용된 action에 의해 변경될 수 있다. 상태 변경 사항을 capture하기 위해 두 mention이 동일한 상태의 동일한 entity를 참조하도록 coreference에 대한 추가 제약 조건을 부여했다. Coreferent mention을 연결할 때 모호성을 제거하기 위해 가까운 antecedent가 주어진 anaphor에 연결된다.

 

3.3.2 Bridging

Entity의 상태를 기반으로 정의된 세 가지 subtype들에 대해 설명하겠다.

  • TRANSFORMED
    의미상으로는 동일하지만 물리적/화학적 변화(예: peeling, baking, or boiling)를 거친 성분에 대한 일대일 anaphoric 링크. Fig 1.에서 line 4와 5의 the biscuits은 bake action을 거쳤다
  • INGREDIENT(WITHOUT-STATE-CHANGE)-ASSOCIATED
    Processed food mention과 원천 재료 사이의 일대다 관계로, 원천 재료는 상태 변화(예: 물리적/화학적 변화)를 거치지 않았다. Fig 1.에서 line 5의 the cheese는 line 4의 the mozzarella and Parmesan cheese의 원천 재료로 상태변화를 거치지 않았다.
  • INGREDIENT(WITH-STATE-CHANGE)- ASSOCIATED
    Processed food mention과 원천 재료 사이의 일대다 관계로, 원천 재료는 상태 변화(예: 물리적/화학적 변화)가 생겼다. Fig 1.에서 line 6의 the biscuits는 이전에 언급된 모든 원천 재료(the sauce, a pinch of the oregano pepperoni, the cheese, and the biscuits)의 조합이 baking이라는 상태변화를 거친 것이다.

3.4 Comparison with Chemical Patents

Table 1: Examples of processes in chemical patents and recipes.

Table 1.과 같이 화학 특허와 레시피는 많은 공통점이 있다. 두 text 모두 process를 묘사하기 위해 유사한 단어(combination or removal)를 사용하여 entity의 상태 변화를 기술한다.  따라서 화학 특허에도 유사한 anaphora annotation scheme을 적용할 수 있다. 하지만 몇 가지 차이점이 존재한다. 

  • Domain differences: 몇 가지 relation types은 화학 특허를 위한 domain-specific한 것이다. 가령 "WORK-UP" 은 화학에만 적용할 수 있고 레시피에는 적용할 수 없다.
  • Determining State Change: Anaphora resolution에서 상태 변화를 포함해서 mention의 anaphoric 관계를 capture하고자 하였다. 차이는 화학 domain에서 주요한 것은 chemical changes(oxidation or acidification)이고, 레시피 domain에서는 physical changes(chop or slice)가 주요하다.
  • Rich Semantic Meaning in Recipes: 재료 용어는 레시피에서 재료의 조합을 의미할 수 있다. 그러나 화학특허에서 화학 이름은 특정한 의미를 가지며 의미적으로 확장될 수 없다. 이 것이 레시피에서 anaphora를 해결하는데 제일 중요하다.
  • Variability in Instruction Descriptions: 화학 특허와 레시피는 유사한 구조를 가지고 있지만 레시피의 instruction 설명은 구조적으로 더 다양합니다. 화학 특허에서 처리된 entity는 대부분 즉시 진행되는 process에서 직접 사용된다. 그러나 레시피에서 처리된 entity는 텍스트에서 훨씬 나중에 언급될 수 있다(특히 "modular" 레시피에서, 예를 들어 케이크, 케이크 필링 및 케이크 아이싱이 별도로 준비되고 최종 단계에서만 결합되는 경우).
  • Hierarchical Structure in Recipe Relation Types: 레시피의 anaphora relation type은 hierarchical하게 정의되어(Fig 2.) 상태 변화을 고려하지 않고 레시피 anaphora resolution task의 단순화된 버전을 쉽게 유도할 수 있습니다. 화학 특허에서는 단순화할 수 있는 명확한 방법이 없습니다.

4 Task Definition

Anaphora resolution은 다음과 같이 두 단계로 되어있다. (1) mention detection (2) anaphora relation detection

레시피의 anaphora relation type은 hierarchical하게 정의되므로 상태 변화을 제거하여 레시피  anaphora resolution task의 단순화된 버전을 도출할 수 있다. 즉, 상태 변화에 대한 고려를 제거하면 COREFERENCE와 TRANSFORMED를 병합할 수 있고, INGREDIENT(WITHOUT-STATE-CHANGE)-ASSOCIATED와 INGREDIENT(WITH-STATE-CHANGE)-ASSOCIATED도 유사하게 병합할 수 있다. 이와 같이 상태 변경이 있는 경우(4-way) 및 상태 변경이 없는 경우(2-way) 레시피 anaphora resolution를 평가한다.

해당 데이터에는 일대다 anaphoric 관계가 포함되어 있기 때문에 standard coreference evaluation metrics를 사용이 적합하지 않다. Coreference에는 사용할 수 있지만 bridging에도 통합하여 평가하기 위해 precision, recall, F1 score를 핵심 metric으로 사용한다. 특히 두 가지 관점에서 coreference 점수를 메기며 ChEMU-ref corpus의 평가 방식을 따른다. (1) surface coreference, anaphor가 인접한 antecedent에 link되었는가, (2) atom coreference, anaphor가 정확한 antecedent에 연결되었는가

Manual annotation을 위해 Brat rapid annotation tool을 이용한다. 두 명의 레시피 전문가와 10개씩 8번 annotation을 진행하고 비교 분석하였다. 

훈련 후 inter-annotator agreement(IAA)는 Krippendorff's α=0.85, mention-level F1=0.88, relation-level F1=0.67을 달성하였다. 이는 각각 0.45, 0.51, 0.29에서 향상된 수치이다. 이 80개의 double-annotated 레시피를 조화된 annotation으로하여 corpus로 사용했다. ChEMU-ref corpus(Fang et al., 2021a)와 비교한 이 corpus의 통계는 table 2에 나와 있다.

Table 2: Corpus statistics. For ChEMU-ref, we include the training and development set. “COREF”, “TR”, “IWOA” and “IWA” denote the COREFERENCE, TRANSFORMED, INGREDIENT(WITHOUT-STATE- CHANGE)-ASSOCIATED and INGREDIENT(WITH- STATE-CHANGE)-ASSOCIATED relations, respectively. “/” shows the number of relations with and without consideration of state change. “Bridging*” is the total number of bridging relations across all subtypes.

 

5 Methodology

화학 domain에서 전이학습의 이점을 조사하기 위해 Fang et al. (2021a)의 configuration을 따랐다.

Joint training architecture

Snippet이 $T$ tokens로 표현, $X={x_{1},...x_{T}}$  이 때 CNN계열 pre-trained word & character embedding 을 이용.

Mention candidate detection을 위해 연속적인 token을 potential span으로 보고 각각에 대해 span score($S_{m}$)을 계산.  Span representation ($s_{i}$)는 BiLSTM의 출력 token representation의 concatenation.

Syntactic head representation ($h_{i}$)는 attention mechanism과 mention의 feature vector($\phi_i$)로 부터 얻어진다.

$$X^*=\mathrm{BiLSTM}(X)$$

$$\alpha_t =\omega_\alpha \cdot \mathrm{FFNN}_\alpha (x^*_t)$$

$$\alpha_{i,t}=\frac{\mathrm{exp}(\alpha_t)}{\sum_{k=\mathrm{START(i)}}^{\mathrm{END(i)}}\mathrm{exp}(\alpha_k)} $$

$$h_i=\sum_{t=\mathrm{START(i)}}^{\mathrm{END(i)}} \alpha_{i,t}\cdot x_t$$

$$ s_i = [x^*_{START(i)}, x^*_{END(i)}, h_i, \phi (i)]$$

이 때 FFNN은 feed-forward neural network이고, $\mathrm{START(i)}$과 $\mathrm{END(i)}$는 span $i$의 시작과 끝 token이다. 

span score $s_{m}(i)$는 아래와 같이 표현된다.

$$s_{m}(i)=\omega_s \cdot \mathrm{FFNN}_s (s_i)$$

 

고려되는 span의 수를 줄이기 위해 $\lambda T$개 후보 mention spans의 beam을 이용한다. 

Mention 의 Loss는 아래와 같이 표현된다.

$$L_{mention}=\sum_{i=1}^{\lambda T}m_i\ast \mathrm{log}(\mathrm{sigmoid}(s_m(i)))+(1-m_i)\ast \mathrm{log}(1-\mathrm{sigmoid}(s_m(i)))$$

$$m_i=\left\{\begin{matrix}
0 & \mathrm{span}\: i\notin \mathrm{GOLD}_m \\
1 & \mathrm{span}\: i\in \mathrm{GOLD}_m \\
\end{matrix}\right.$$

이 때, $\mathrm{GOLD}_m$는 anaphora resolution gold mention의 집합이다.

이제 anaphoric relation을 찾아야하는데 span pair embedding은 다음을 concatenate한 것이다.
span embedding $(s_m(i), s_m(j))$, span embedding의 element-wise multiplication $(s_m(i)\circ s_m(j))$, feature vector $(\phi (i,j))$

$$s_{i,j}=[s_m(i), s_m(j), s_m(i)\circ s_m(j), \phi (i,j)]$$

Coreference와 bridging은 상이하기 때문에 따로 작업했다. 

Coreference에 대해서는 주어진 anaphor에 대해 모든 정확한 antecedent의 marginal log-likelighood의 최적화를 하였다.

$$L_{coref}=\mathrm{log}\prod_{i=1}^{N}\sum_{\hat{y}\in Y(i)\cap \mathrm{GOLD_c}(i)}P(\hat{y})$$

여기서 $N$은 mention 후보의 수이고 $Y(i)={\varepsilon , 1, ..., i-1}$ 는 각 $y_i$에 대한 가능한 할당의 집합이다. $\varepsilon$은 dummy antecedent이고 숫자는 진행되는 span을 의미한다. $\mathrm{GOLD_c}(i)$는 span $i$에 대한 gold coreferent antecedents를 의미하며, 만약 span $i$가 coreferent antecedent를 보유하고 있지 않다면, $\mathrm{GOLD_c}(i)=\varepsilon$이다. $P(y_i)$는 해당 anaphor에 대한 선행 점수 $s_c$에 대해 softmax를 통해 얻습니다.

$$P(y)=\frac{\mathrm{exp}(s_{c}(i,y))}{\sum_{y'\in Y}\mathrm{exp}(s_{c}(i,y'))} $$

$$s_c(i,j)=\left\{\begin{matrix}
0 & j=\varepsilon  \\
w_c\cdot \mathrm{FFNN}_c(s_{i,j}) & j\neq \varepsilon  \\
\end{matrix}\right.$$

Bridging resolution의 경우, 4개의 class를 분류해야 한다. Bridging relation를 one-hot represestation을 이용하고 bridging relation이 없는 span pair에 대해 새로운 relation 유형 NO-RELATION을 도입합니다. Bridging의 손실함수는:

$$y_b(i,j)=\mathrm{softmax}(w_b\cdot \mathrm{FFNN}_b(s_{i,j}))$$

$$L_{bridging}=-\sum_{c=1}^{K_c}\sum_{i=1}^{N}\sum_{j=1}^{i}b_{i,j,c}\mathrm{log}(y_b(i,j,c))$$

$K_c$가 bridging 카테고리의 수라고 할 때 $y_b(i,j,c)$는 카테고리 $c$에서 $y_b(i,j)$의 예측을 의미한다.

$$b_{i,j,c}=\left\{\begin{matrix}
0 & \mathrm{span \: pair}(i,j)\notin \mathrm{GOLD}_b(c) \\
1 & \mathrm{span \: pair}(i,j)\in \mathrm{GOLD}_b(c) \\
\end{matrix}\right.$$

$\mathrm{GOLD}_b(c)$ 는 카테고리 $c$에 대한 gold bridging relation이다.

최종적으로 total loss는 $L=L_{mention}+L_{ref}$이며,

$$L_{ref}=\left\{\begin{matrix}
L_{coref} & \mathrm{for \: coreference} \\
L_{bridging} & \mathrm{for \: bridging} \\
L_{coref}+L_{bridging}& \mathrm{for \: joint \: training} \\
\end{matrix}\right.$$

6 Experiments

Recipe anaphora resolution에 대한 상태 변화 고려 유무에 따른 실험 결과를 기술하겠다. 300차원의 GloVe, 1024차원의 ELMo word representation, 8차원의 pretrained token embedding으로 3, 4, 5개의 윈도우가 있는 character CNN에서 학습된 character embedding. 150차원과 rectified linear unit의 2개의 hidden layer로 구성된 feed-forward neural network. Gold mentions는 coreference와 bridging으로 나누었으며, joint training시에는 합쳐서 학습했다.

10-fold 교차검증을 진행하였다. End-to-end 모델이 random initialization에 따라 성능 편차가 있기 때문에, dataset을 5번 섞었으며 섞을 때마다 3번의 교차검증을 진행했고 그 평균값을 report했다. 

Table 3: Anaphora resolution results based on 10-fold cross validation without considering state change. Models were trained over 10,000 epochs, and averaged over 3 runs with 5 different random seeds (a total of 5×3×10 runs). Models are trained for “coreference”, “bridging” or “joint_train” (both tasks jointly). “FA” denotes the F1 score for anaphor prediction, and “FR” for relation prediction.

Table 3은 상태 변화를 고려하지 않을 때 값이다. Coreference resolution에 대해서는 atom과 surface 두 가지에 대해 실험결과를 report했으며, bridging에 대해서는 전체 bridging에 대해 report했다. 이 때 surface와 atom이 동일한 trend 결과를 보이기 때문에 surface 결과를 기준으로 overall 값을 뽑았다.

Joint training 결과는 suface coreference(26.2), bridging(26.9)로 component-wise model 대비 +1.4%, +0.9% 향상된 결과이다. Precision 대비 recall 값들이 전반적으로 낮을 것을 통해 recipe에서 anaphoric form을 찾는 것이 어려운 것을 알 수 있다. 이러한 경향은 상태 변화를 고려하였을 때도 동일하게 나타났으며, 그 값은 상태 변화 예측의 어려움 때문에 더 낮았다. 

Table 6: Anaphora resolution results based on 10-fold cross validation with state change. Models were trained over 10,000 epochs, and averaged over 3 runs with 5 different random seeds (a total of 5×3×10 runs). Models are trained for “coreference”, “bridging” or “joint_train” (both tasks jointly). “FA” denotes the F1 score for anaphor prediction, and “FR” for relation prediction.

3.4에서 기술한 바와 같이 화학 특허와 recipe는 유사한 문서 구조를 가지고 있다. 이 가정에 따라 전이 학습을 진행해볼 수 있다. 따라서 ChEMU-ref corpus를 이용하여 10,000 epoch 사전학습을 진행하고 recipe corpus로 fine-tuning 하였다.

Table 4: Experiments with transfer learning, without considering state change. “FA” denotes the F1 score for anaphor prediction, and “FR” for relation prediction.

Table 4. 는 전잏학습 결과를 보여준다. 전이 학습과 joint training을 이용하여 overall 27.9%의 relation 예측  F1 점수를 달성하여 기존 대비 +0.8% 향상된 수치이다. Component-wise model에서도 각각 +0.5%, +0.7% 향상된 수치를 보여주었다. 

Joint training을 기반으로 한 10-fold 교차 검증에서 무작위로 선택된 5개 배치에 대한 오류 분석을 수행했다.

  • 재료가 다른 재료와 결합될 때 의미 파악에 어려움을 겪음
    : Table 5. 에서 the yellowtail은 이전 재료들을 모두 포함하고 있다. 그러나 모델은 이 의미를 파악하지 못해 coreference 분석을 부정확하게 한다.
  • 상태 변화 감지 실패
    : 주로 TRANSFORMED를 COREFERENCE로, INGREDIENT(WITHOUT-STATE-CHANGE)-ASSOCIATED를 INGREDIENT(WITH-STATE-CHANGE)-ASSOCIATED)로 오인한다.

Table 5: Examples of anaphora phenomena from the RecipeRef dataset.

Coreference resolution에서 발생하는 오류의 원인

  • Coreference와 bridging의 불균형한 데이터
    : table 2. 에서 확인할 수 있듯이 coreference 데이터 수가 recipe에서는 적다.
  • 상이한 surface 표현의 entities
    : 어휘 변화에 직면하여 entity의 coreference resolution relation를 포착하지 못한다.

Bridging에서 발생하는 오류의 원인

  • 데이터 불균형
    : INGREDIENT(WITH-STATE-CHANGE)-ASSOCIATED)가 훨씬 많아서 이것으로 예측하는 경향이 크다.
  • Many-to-one 관계에서 INGREDIENT(WITH-STATE-CHANGE)-ASSOCIATED)를 over-predict하는 경향
    : 이에 대한 자연스러운 설명은 span pair 예측이 서로 독립적으로 이루어지며 모델이 anaphor 간의 상호 작용을 캡처할 방법이 없다. 후보 선행 사례를 동시에 평가하면 이 문제를 해결할 수 있습니다.

전이 학습의 이점

  • Mention detection 성능 향상
    : Table 5. 3번의 the juice는 전이 학습 전에는 잡지 못하던 것이다
  • 어휘적으로 다양한 coreferent mention detection이 향상된다. 
    : Table 5. 4번의 기존 모델은 the butter와 all burre의 coreference relation을 잡지 못했다. 

향후 계획

  1. COREFERENCE 및 TRANSFORMED 관계가 있는 joint learning(상태 변화가 있는지 여부만 다름, 함께 고려하는 것이 효과적일 수 있음)
  2. 전이 학습을 더욱 향상시킬 수 있는 재료 entity에 대한 지식을 포함한 외부 지식의 통합
  3. Transformer 기반 모델의 활용(Joshi et al., 2020; Xia 및 Van Durme, 2021)

7 Conclusion

화학 특허로부터 recipes로 전이학습하는 anaphora resolution을 해보았다. 화학 특허의 annotation schema와 guideline을 참고하여 recipes에 대한 anaphora resolution 자료를 생성햇따. 모델 개발에 있어서 상태 변화 고려 유무에 따른 두 가지 task를 정의했다. 이 논문에서는 joint training과 transfer learning의 이점을 보여준다.