본문 바로가기

논문/ACL

ACL 2022) Composition Sampling for Diverse Conditional Generation

Abstract

기존의 stochastic decoding strategies에 비해 더 높은 품질의 conditional generation을 위해 diverse outputs을 생성하는 간단하지만 효과적인 방법인 Composition Sampling을 제안합니다. 이 방법은 최근 제안된 plan-based neural generation model을 기반으로 하여 먼저 출력의 composition을 생성한 다음 입력과 이를 조건화하여 생성하도록 훈련되었다. 접근 방식은 먼저 entity 체인의 composition을 샘플링한 다음 beam search를 사용하여 이에 최상의 텍스트를 생성함으로써 텍스트 degenertation을 방지합니다. 인간 기반 평가와 함께 기존 및 새로 제안된 자동 메트릭을 사용하는 요약(CNN/DailyMail 및 XSum) 및 질문 생성(SQuAD)에 대한 실험은 composition sampling이 diverse outputs을 생성하기 위한 현재 가장 유용한 decoding strategy임을 보여줍니다.

*degeneration: 잘못된 생성

Introduction

Multiple diverse outputs의 생성을 NLG에서 중요하다. 요약이나 QA와 같은 one-to-many 관계를 가진다. 같은 source에 대해 다양한 요약과 질문이 여러개 존재하며 이는 모델이 다양한 출력할 때 효과적이다. 그러나 NLG의 최근 연구의 주요 초점은 단일 최고 output의 quality를 개선하는 것이며, diversity은 아직 해결되지 않은 문제로 남아 있다. 이는 대상 sequence의 다양성으로 인해 correctness이나 faithfulness가 희생되어서는 안 되는 conditional generation에서 특히 어렵다. 논문에서 우리는 요약과 QA이라는 두 가지 task에서 의미론적으로 다양한 텍스트를 생성하기 위한 디코딩 방법을 조사한다.

Beam search: diverse output 생성에 어려움

Stochastic sampling strategies (top-k sampling, nucleus sampling): diverse sequence 생성에 좋지만 conditional generation에서 degenerate 해서 부적합하다.

Figure 1: Human written summary, single-best predicted summary using beam search (beam size 8), and diverse summaries with nucleus sampling (p = 0.95) and our composition sampling for a CNN/DailyMail article (shown in the Appendix, Figure 6). We highlight spans in orange that are not faithful to the input.

이러한 단점을 극복하기 위해 Composition Sampling을 제안한다. 이는 먼저 대상의 의미 구성을 계획한 다음 구성 및 입력에 따라 텍스트를 생성하도록 훈련된 최근 제안된 생성 모델(Narayan et al., 2021)을 기반으로 합니다. Composition Sampling은 먼저 entity chain composition을 샘플링한 다음 beam search을 사용하여 샘플링된 entity chain에 기반한 최상의 sequence를 생성합니다. top-k 또는 nucleus sampling과 composition에 diversity을 주입하여 degenerate를 방지한다.

해당 논문에서의 기여도는 아래와 같다.

  1. Composition sampling, diverse conditional generation 디코딩 방법 제안
  2. 문맥적 diversity를 계산하기 위한 metrics 제안, lexical diversity 보완과 다양한 output set가 맥락적으로 유사하지 않은지(Self-BERTscore; Zhang et al. 2020b) 또는 비 수반되는지(Self-Entailment) 여부를 평가
  3. Evaluate Diversity and faithfulness(EDNA), 다양한 요약이 input에 대해 faithful하고 서로 entailing 하는가를 정량화

 

평가는 두 요약 task(CNN/DailyMail, Xsum)과 QA(SQuAD)로 진행했으며 Composition sampling이 가장 효과적으로 다양한 생성을 한다. 사람이 평가할 때 composition sampled 요약은 beam search로 생성된 최상의 요약만큼 failthful하다.

 

Background

Conditional generation task는 일반적으로 attention-based encoder-decoder architecture를 사용한다. encoder는 input text $d$를 인코딩하고 디코더는 output $s_{1:n}$를 한번에 한 토큰씩  $p(s_{i}|s_{1},...,s_{i-1};d)$ 예측한다. 이 때 $n$은 출력 길이,이고 $s_{i}$는출력에서  $i$번째 토큰이다

 

Plan-based Conditional Generation

Narayan et al.(2021)이 plan-based approach for neural summerization을 개발했다. 디코더는 타겟 요약 $s$ 의 composition $c_{1:m}$를 생성한다 $p(c_{j}|c_{1},...,s_{j-1};d)$. 그리고 같은 디코더로 $s$도 input $d$와 composition $c_{1:m}$을 조건으로  $p(s_{i}|s_{1},...,s_{i-1};c;d)$ 생성한다 ($m$은 composition 길이). 특히, 그들은 output 요약에서  entity의 chain이 관찰되어야 한다는 가정 하에 entity chain을 요약 $s$의 composition $c$로 채택합니다. Inference 시, 문서 $d$를 입력으로 composition과 summary가 연결된 $c;s$를 생성한다. $c$와 $s$는 특수 마커인 "[CONTENT]"와 "[SUMMARY]"가 각각 선행되어 집니다. 

Figure 2: Illustration of composition sampling and other decoding strategies with vanilla and plan-based generation models. The term ‘composition’ is inspired from the quote “AWell-Composed Painting is HalfDone” from French painter Pierre Bonnard. Images in black-and-white are early sketches or compositions of the painting in color. Nucleus or focus sampling often lead to hallucinations (highlight spans in red); corresponding color images are blurred to illustrate this. (Credit: The image of “Anna Pavlovna of Russia” is taken from Wikipedia.)

만약 $s$가 여러 문장을 포함한다면 "|||"가 $c$와의 경계를 구분한다. 입력 문서로 주어지지 않은 entity는 drop하여 hallucination을 방지.
*hallucinations: faithful과 관계 되어 있는 듯? 예를 들어 첼시와 아스날 경기인데 문장 생성은 맨유로 하면 hallucination이 발생한 것

 

Maximization-based decoding

The most likely output $\hat{s}$을 encoder-decoder로 부터 얻을 때 우리는 일반적으로 최대화 기반의 목적 함수를 사용한다. $\hat{x}=\texttt{argmax}_{x}p(x|d)$, 이 때 $x$는 출력 텍스트 $s$로부터 예측된 값 또는 composition이 연결된 $c;s$이다. 이 때 최적 sequence를 찾기 위해서는 beam search를 사용하는 것이 일반적이다.

 

Stochastic sampling for diverse decoding

Sampling-bsed strategies는 diversity를 위해 LM에서 많이 사용되었다.

  • Temperature sampling, 각 디코딩 단계에서 분포를 높은 확률의 토큰 쪽으로 왜곡
  • top-k sampling, k개의 고확률 토큰으로 분포를 truncates
  • Nuleus sampling (Holtzman et al., 2020), top-k처럼 분포의 꼬리를 자르지만 k를 동적으로 선택, 각 디코딩 단계에서 높은 확률(미리 지정한 값 이상의 축적된 확률을 지니는)의 토큰을  vocabulary $V$의 subset token들로 정의된 nucleus $N$으로부터 추출 
  • Focus sampling Aralikatte et al. (2021), subset $V_{k} \in V$ vocabulary 분포에서 source-relevant and topical token $k$를 sampling 하여 구축. 이후 beam search를 이용하여 $V_{k}$에 한정된 요약을 생성한다. 그러나 이 방식은 $k$에 굉장히 민감하다

Composition Sampling

Composition sampling은 stochastic sampling을 maximization-based decoding과 섞어서 plan-based generation을 활용하는 방법이다. Nucleus sampling을 통해 $c_{sample}$을 $p(c|d)$로 부터 얻는다. 이 때 $d$는 입력문서 $c$는 entity chains다(fig 2에 "[CONTENT]"라 접두가 붙은). 우선 nucleos sampling으로 diverse composition을 얻으면, 이후 beam search를 이요하여 most-likely diverse output $s$를 생성한다(fig 2에 "[SUMMARY]"라 접두어가 붙은). 입력 $d$와 composition $c_{sample}$에 대해 $p(s|c_{sample};d)$로 표현된다.

 

Why Entity Chains?

top-k 또는 nucleus sampling과 달리 composition samplin은 diversity를 composition에 포함시켜 degeneration을 피한다. 이를 효과적으로 작동하게 하려면 $c$의 선택이 "semantic composition"이여하 한다는 것이 기저에 깔려있다. 만약 우리가 "diversity"를 원하면, 문서 $d$에서 $c_{1}$과 $c_{2}$가 달라야 두 요약 $s_{1}=\texttt{argmax}_{s}p(s|c_{1};d)$와 $s_{2}=\texttt{argmax}_{s}p(s|c_{2};d)$가 다를 것이다. 작업에서 semantic composition을 모델링하기 위해 entity chain을 선택했다. Entity chain은 텍스트에서 entity-level lexical cohesion(Barzilay and Elhadad, 1997)과 coherence(Halliday and Hasan, 1976; Azzam et al., 1999)을 모델링하기 위해 광범위하게 연구되었다. 또한 entity chain은 $d$에 대해 유일하다. 따라서 다른 input에 대한 composition과 쉽게 구별이 가능하다. 또한 entity chain은 input document에만 존재하기 때문에 composition을 entity로 제한하여 hallucinations와 entity degeneration을 피할 수 있다.

 

가정 1:  output 텍스트 $s$의 semantic composition $c$가 entity chain에 해당하면 $p(c|d)$를 배우는 것이 $p(s|d)$를 배우는 것보다 훨씬 쉽다. $d$는 입력입니다. 따라서 $p(s|d)$에서 직접 샘플링하는 것보다 더 높은 신뢰도로 $p(c|d)$에서 sampling한 다음 $\texttt{argmax}_{s}p(s|c; d)$를 계산할 수 있습니다.

 

Fig 3의 요약 예를 사용하여 $c$에 대한 선택으로서 entity chain의 효율성을 보여줍니다. plan 없이 처음부터 요약 $s$를 생성할 음의 로그 가능성 $(-log p(s|d))$은 121.18인 반면 plan $(-log p(c|d))$을 사용하여 composition $c$를 생성할 음의 로그 가능성은 46.95입니다. 따라서 모델은 $p(s|d)$에서 직접 샘플링하는 것보다 $p(c|d)$에서 샘플링할 때 훨씬 더 확실합니다.
 

Why Grounded Generation?

$s$의 생성은 본질적으로 entity composition $c$에 근거한다. Narayan et al. (2021)에 따르면, entity chain은 훈련 중에 대상에서 추출됩니다. 따라서 composition 계획의 어려운 부분이 완료되면 output generation 중에 모델이 덜 혼란스러워집니다.

Fig 3에서 plan-based 모델은 없는 모델보다 entity 예측에 더 confident하다.

  • plan-based model, entity 예측 perplexity 0.24 | 전체 요약 생성 perplexity 1.15
  • w/o plan-based model, entity 예측 perplexity 1.36 | 전체 요약 생성 perplexity 1.48

사실, plan-based 모델에서 타겟의 길이가 증가했음에도 불구하고(즉, $s_{1:n}$ 대신 $c_{1:m}; s_{1:n}$), 더 긴 시퀀스($c_{1:m}; s_{1:n}$) grounding으로 인해 plan 없이 요약만 예측하는 것보다 낮다(1.16 대 1.48).

 

전반적으로 plan-based 접근 방식인 $p(c; s|d)$는 plan이 없는 경우, 즉 $p(s|d)$에 비해 각 디코딩 단계에서 더 확실한 분포를 학습합니다. Fig 3의 예에서 각 decoding 단계에서 어휘 분포의 상위 15개 토큰에 대한 평균 누적 확률은 $p(s|d)$의 경우 0.283이고 $p(c; s|d)$의 경우 0.433입니다.

 

Single Document Summarization

Datasets & Models

요약 datasets: CNN/DailyMail highlight generation (Hermann et al., 2015) and XSum extreme summarization (Narayan et al., 2018) 입력/출력, 512/128(XSum), 1024/256(CNN/DailyMail) 

PEGASUS finetuned model  (Zhang et al., 2020a), 요약을 직접 생성 (특별한 decoding strategy가 없다)
FROST model(Narayan et al., 2021),  entity chain 생성 후에 요약을 생성

양쪽다 거대한 transformer architecture를 사용 [L = 16, H = 1, 024, F = 4, 096, A = 16 (568M parameters)]

해당 논문은 decoding strategy를 설명하므로 요약 모델을 새롭게 학습시키지는 않는다. 

모든 모델은 8의 beam size와 0.8의 length-penalty로 decoding된다. Nucleus sampling과 composition sampling의 경우 0.95로 설정된 nucleus probability $p$를 사용한다. Focus sampling(Aralikatte et al., 2021)의 경우 $k = 10000$을 사용한다.

Evaluation Metrics

Decoding strategy는 automatic과 인간 평가로 가능도, fluency, relevance, faithfulness, 그리고 diversity를 평가한다.

FROST 모델은 entity chain으로 plan을 예측하고 다음 요약한다. 가능도를 제외하고 모든 평가는 요약이 완료된 후 수행한다. Diversity 평가는 각 test 문서에 대해 5번 표본을 추출하여 평균낸다.

 

Sequence Likelihood

생성된 sequence에 대해 perlexity를 계산한다.

 

Lexical Fluency and Relevance

요약에 대해서는 ROUGE-L F1 점수를 사용한다.

 

Semantic Relevance

문맥의 유사도를 평가하는 BERTScore를 사용한다.

 

Faithfulness

우리는 Multi-NLI 데이터셋에 대한 uncased BERT-Large 사전 훈련 모델을 fine-tuning하여 학습된 분류기를 사용하여 입력 문서의 요약의 entailment 확률을 사용한다.

추가적으로 사람에 의한 평가도 사용한다. 문서를 읽고 1-4 (entirely unfaithful, somewhat unfaith- ful, somewhat faithful, and entirely faithful)의 점수를 부여한다.  Annotator는 평가 방식의 agreement를 위해 faithful 또는 unfaithful 한 것을 구체화했다. 

 

Diversity

Diversity는 5개 중 완전히 새로운 요약을 생성한 경우를 보고한다. 또한 Self-BLEU을 이용하여 요약의 lexical diversity을 측정한다. 5개의 표본 중 한 개를 hypothesis로 나머지를 reference로 모든 쌍을 고려하여 각 쌍의 BLEU 점수를 계산한다. 평균 BLEU 점수를 문서의 Self-BLEU로 사용한다. 결과적으로 낮은 Self-BLEU 점수를 가질 수록 더욱 다양한 요약을 생성했다고 판단할 수 있다. 

추가적으로 요약의 semantic diversity를 측정하기 위해 Self-Entailment와 Self-BERTScore를 제안한다. Self-BLEU와 같이 Entailment 와 BERTScore를 요약의 각 쌍에 대해 수행한 후 그 평균을 사용한다. 성능은 각각 두 점수가 낮을 수록 diverse하다. 

또한 사람에 의한 diversity 평가방식도 있다. 역시 두 개의 요약을 읽고 1-4점의 점수를 부여한다. 각 쌍에 대해 3개의 등급을 수집하고 평균낸다. 이 평가는 단일 문장 XSum 요약 데이터로만 수행되었다.

 

Diversity and Faithfulness

Diverse한 요약이 Faithful하지 않다면 의미가 없다. 따라서 "Evaluating Diversity aNd fAithfulness"(EDNA)라는 새로운 평가 지표를 제안한다. EDNA는 Entailment와 (1-Self-Entailment)의 조화 평균으로 값이 높을수록 faithful하고 diverse한 요약을 의미한다. 두 값은 유사한 출력 공간에 0-1 값으로 매핑될 것이므로 섞었을 때 더욱 밸런스가 적절하게 맞는다.

 

Results

 

Table 1: Comparison of decoding strategies with ROUGE: single-best vs diverse decoding (we report averages over 5 samples). Best results in each block are bold-faced. See Table 5 in the Appendix for more comparisons.

 

Table1은 XSum과 CNN/Dailymail 데이터에 대한 ROUGE값을 보여준다.

상단의 박스는 maximization based decoding 을 사용한 model이다.

  • GSum(Dou et al., 2020)은 테스트 시에 추가 모델로 guide 된 요약을 decode 하는 최신 모델이다. 
  • CTRLsum(He et al., 2020)은 키워드와 자동 추출된 문장으로 요약을 조절한다. 
  • FAME(Aralikatte et al., 2021) focus attention mechanism을 사용하여 decoder가 입력 문서와 유사하거나 주제가 되는 토큰을 사전에 생성하도록 권장합니다.
  • FROST(Narayan et al., 2021)는 먼저 Entity chain을 생성한 다음 요약을 생성하는 반면 FROST++는 예측 entity를 문서에 있는 entity로 제한하는 제한된 변형입니다.

하단의 박스는 diverse decoding에 초점을 맞춘 것이다.

Focus sampling (Aralikatte et al., 2021): FAME에 적용

Nucleus sampling (Holtzman et al., 2020)과 Composition sampling: PEGASUS와 FROST에 적용

 

Table 2: Likelihood, faithfulness and diversity results on 50 documents sampled from XSum and CNN/DailyMail each. We report on perplexity (ppl), Entailment (Ent), Uniqueness (Uniq), Self-BLEU (S-BL), Self-Entailment (S-Ent), Self-BERTScore (S-BSc) and EDNA scores, along with ROUGE (RL) and BERTScore (BSc) for compar- ison. We also report on human judgements for faithfulness and diversity. Additional R1 and R2 numbers can be found in the Appendix (Table 6). Best results in the diverse block for each dataset are bold faced. Scores for single- best decoded summaries are also presented for comparison. Focus (FAME) diverse predictions on CNN/DailyMail are not available. The lower the Self-* metric is, the better the decoding method in generating diverse outputs.

Table2는 XSum과 CNN/DailyMail 각각 50개의 문서로 likelihood, faithfulness, 그리고 divesity를 확인했다. 이 데이터 셋의 reference는 non-extractive한 entity chain을 갖는 데이터로 구성되었으며, extractive한 경우는 모든 entity를 입력문서에서 찾을 수 있는 경우이다. 저자는 모델이 data-divergence issue 때문에 faithful 요약을 생성하기 힘들다는 것을 발견했다. 

 

Composition Sampling is not as Performance Diminishing as Nucleus Sampling

Single best decoding은 FROST로 39.76 ROUGE를 XSum에서 기록했다. Nucleus와 composition sampling은 평균 7.27, 2.78 떨어진 수치를 보여주었다. 유사하게 CNN/DailyMail에서 FROST기준 평균 nucleus는 6.51, composition은 3.28 떨어진 수치를 보였다. 즉 nucleus sampling이 non-plan based models에서 (예를들어 PEGASUS) ROUGE값이 많이 떨어진다. XSum과 CNN/DailyMail에서 각각 평균 8.59, 7.30 ROUGE값이 저하됐다. 이 수치는 Table2에서 심화되는데 reference 더욱 추상적인 데이터를 사용한 것이 원인으로 사료된다. 

XSum에 대해서는 composition sampling이 FROST++에서 FROST보다 ROUGE 값이 낮은 것으로 보인다. 이 역시 XSum의 reference 요약이 극도로 추상적이여서 그렇다. 결과적으로 모델은 hallucinate factual content를 요구하고 이는 입력에대해 faithful하지 못하다. 하지만 Composition(FROST++)의 경우 표본의 supported entities만 유지하여 reference로부터 다양한 요약을 생성한다. 따라서 extractive한 CNN/DailyMail의 경우 ROUGE 성능이 향상되는 것을 확인할 수 있다. 

 

Composition Sampling is more Confident in its Predictions than Nucleus Sampling Perplexity

XSum에 대해 FROST의 perplexity는 nucleus sampling 적용시 0.31에서 0.83으로 향상됐으나 composition sampling의 경우 0.51만 상승했다. PEGASUS의 경우 nucleus sampling에서 0.51에서 1.47로 더 큰 성능 향상을 보였다. 이러한 경향은 CNN/DailyMail에서도 유사했다.

Composition(FROST++)은Composition(FROST)대비 XSum 요약 생성에서 divergence issue로 인해 0.51에서 0.74로 증가했다. 흥미롭게도 Composition(FROST++)는 single-best beam docoding만큼 diverse 요약 생성 시에 confident하다 0.71 vs 0.74). Composition(FROST++)은 Composition(FROST)보다 extractive한 CNN/DailyMail에서 더욱 confident하다 (0.46 vs 0.52).

 

Constrained Composition is Most Effective in Generating Meaningful Diverse Summaries

Nucleus sampling이 두 dataset에서 가장 diverse한 요약을 생성하는 것은 당연하다(Diversity 평가 지표에서 모두 최고점수를 기록). 그러나 이 요약들은 faithfulness하지 못하다. Composition(FROST++)가 가장 faithfulness 한 요약을 생성한다. 또한 가장 높은 EDNA 점수를 가지는 것으로 나타난다. 사람이 평가한 결과에서는 Nucleus(PEGASUS)와 Nucleus(FROST) 가 차이가 없고 Focus(FAME)보다는 faithful 했습니다. 

결과적으로 composition smapling이 nucleus 또는 focus sampling의 의미있는 대체제가 될 수 있다. 

 

Faithfulness and Diversity Metrics Correlate with Human Judgements

논문에서 faithfulness와 diversity가 사람이 평가한 것과 유사한 automatic metrics을 찾기 위해 Spearman's rank correlation coefficient를 이용하여 Table 3에 비교해보았다. 

Table 3: Different automatic metrics and their correla- tion against human assessments using Spearman’s rank coefficient

결과로 부터 entailment가 faithfulness에서 적당한 상관관계를 보이며, Self-BLEU, Self-Entailment, 그리고 Self-BERTScore가 diversity와 좋은 상관관계를 보여준다. 한번에 양쪽과 양의 상관관계를 보이는 것은 EDNA이다. 

Figure 4: Perplexity, entailment, self-entailment and EDNA scores on the CNN/DailyMail challenge set (Table 2) with varying temperatures (for random sampling) and nucleus Probabilities (for nucleus and composition sam- pling). For each diverse decoding strategy, we sample 5 times per document and report the average.

Fig 4.에서 faithfullness와 diveristy 점수를 다양한 decoding strategies에 대해 온도를 변화시켜가면서 nucleus probability를 보았다. Composition(FROST++)이 Beam(FROST)보다 faithful 했으나 Beam(FROST++)보다는 아니였다. 요약 중 Composition(FROST++)가 p=0.95로 가장 높은 EDNA 점수를 전체 중에 달성하였다. 

 

Question generation

Dataset and Metric

질문 생성은 passage-answer 쌍을 통해서 질문을 생성하는 task이다. 해당 작업은 SQuAD를 86,635, 8,965, 그리고 8,964의 비율로 학습, 검증, 테스트로 나누어서 진행했다. 해당 작업은 BLEU-4(Top-1, single best accuracy), Oracle(Top-5, the best accuracy among the 5-sampled hypothses), 그리고 Self-BLEU로 평가했다. 

 

Results

 

Table 4: Comparison of different decoding techniques on question generation. We report on BLEU-4 Top-1 accuracy (T1) and Top-5 (T5), and Self-BLEU (S-BL). Results for diverse decoding comparison models are taken from Wang et al. (2020). Best results in each block are bold-faced. 2018),

Question Generation 실험에서 똑같이 single-best decoding과 diverse decoding을 비교하였다. 

  • NQG++ (Zhou et al., 2017), a pointer generator-based model, 
  • CP+GSA (Zhao et al.2018), a model which combines a pointer mechanism with a gated self-attention encoder, and fine- tuned PEGASUS and FROST models. 
  • top-k sampling (Fan et al., 2018)
  • diverse beam search (Vijayakumar et al., 2018)
  • mixture decoding (Shen et al., 2019)
  • mixture content selection (Cho et al., 2019; Wang et al., 2020)

실험 결과 composition sampling은 nucleus sampling만큼 BLEU  성능 저하가 일어나지 않았다. FROST top-1 BLEU가 21.04인데, nucleus sampling은 10.40 포인트 떨어진 반면 composition sampling은 2.27포인트만 감소하였다. Nucleus sampling은 가장 좋은 Self-BLEU diversity 점수를 25.50으로 얻었으나 10.64로 굉장히 낮은 BLEU Top-1 점수를 보여주었다. Composition smaple된 question은 좋은 T1, T5 점수를 보이지만 다른 방법에 비해 less diverse하다. 원인은 두 개의 한계 때문으로 보인다. 1. SQuAD 질문이 대부분 extractive하다. 2. 질문이 passage와 answer를 조건으로 생성했다. 

 

Conclusion

Faithful하고 diverse한 조건부 생성을 하는 Composition Sampling을 제안한다. 해당 방법은 외부 프로그램을 필요로 하지 않는다. 실험 결과는 현존하는 방법 중 가장 diverse하고 meaningful한 결과를 생성하는 decoding strategy다. 또한 Self-Entailment와 Self-BERTScore를 소개하여 semiantic diversity를 평가하였으며 EDNA를 통해 faithfulness와 diversity를 한번에 측정하였다.