2019 | Exploring ways to incorporate additional knowledge to improve Natural Language Commonsense Question Answering

Title: Exploring ways to incorporate additional knowledge to improve Natural Language Commonsense Question Answering
Authors: Arindam Mitra, Pratyay Banerjee, Kuntal Kumar Pal, Swaroop Mishra, Chitta Baral
Org.: Arizona State University
Published: NULL, 2019

Code: NULL

This Work

Research Background:

DARPA 和 Allen AI 提出了一系列数据集来促进需要 commonsense knowledge (CS-KN) 问答任务的研究；
- 额外的挑战：常识知识通常不容易以文本形式获取；
近期，BERT/GPT 等预训练语言模型在多个 Multiple Choice Question-Answering (MCQ) 数据集上展示出了相当好的效果；
- 已经超越了一些针对特定任务精心设计的模型，甚至可以超过人类水平（i.e., SWAG）；
- 成为了大多数新提出的数据集 baseline；
- 在需要超越QA对本身知识的question上也表现良好；
  - 一些知识可能借由文本的形式，通过在巨大规模的text语料上训练时，封装在了LM中，由此引出的问题：
    - 如果进一步给 LM 灌注 the needed KN 是否能带来性能的提升？
    - 进行 KN infusion 的方法是什么？

这篇文章的目标是：设计将外部（常识）知识结合到 LM-based 模型中的方法，以提高QA模型在MCQ任务上的性能。

本文的具体工作：

确定外部知识源，展示通过 IR 技术抽取出的 fact 集合，在训练和测试阶段，会为性能带来提升；
进一步探索如果用不同的方式提供 task-specific 知识或是用不同的策略使用可用的知识，能否进一步带来提升；具体介绍了：
- 3种传递知识 (pass knowledge) 的策略；
  - 1\ revision: 在KB中拥有与数据集相关的 knowledge statements 上微调LM；
  - 2\ open-book: 为 Q-A 对从KB中选择一定数量的 knowledge statements (textually similar to Q-A pair) 用来回答问题；
  - 3\ mixture (revision & open-book): 先进行 revision，在进行 open-book；
- 5种利用知识 (use knowledge) 的模型；
  - concat / max / simple sum / weighted sum / mac ;
提出了一个新的框架，用于处理回答 MCQ 任务中 question 所需要的信息分散在不同的知识句 (knowledge sentences) 中的情况；

MCQ Datasets & Knowledge

(为了研究如何引入知识，首先要选出需要外部知识的一些数据集作为测试系统的QA任务)

MCQ Tasks:

Abductive Natural Language Inference^[1]
Physical Interaction QA^[2]
Social Interaction QA^[3]
Parent and Family QA
- 这个数据集是本文为了对知识有更好的可控性而合成的数据集；
- 一方面来测试NLM的记忆能力，另一方面测试将分散在多个句子中的知识结合起来的能力；
- 数据集的来源是DBPedia，抽取其中的亲子关系，构造成多选型数据集；

Knowledge Sources (different KBs for different tasks):

SCT and RCOStories Corpora^[4]
Wikihow^[5]
ATOMIC^[6]
DBPedia

Relevant Knowledge Extraction:

使用IR和Re-ranking等方法抽取出相关的 knowledge paragraph
这里使用的方法参考自ACL 2019的一篇文章^[7]
- 先使用IR模型，然后通过计算 Information Gain 进行 re-ranking
- query 通过简单的 heuristic 方法产生（即，question/answer option/context中出现的非停用词）
- 对于每个数据集，选择 top-10 的知识句子。

示例：每个数据集及其从各自KB中抽取出的知识：
example

Modes of Knowledge Infusion

本文中使用的预训练的 BERT-uncased-whole-word-masked model 作为base模型。

本节介绍的5种知识结合方法是在open-book策略下进行的。

模型的输入：

question $Q$;
$n$ 个候选答案 $a_1, …, a_n$;
$n$ 个 premises（每个候选答案对应一个premise）
1. 每个 premise包含 $m$ 个 knowledge passages
2. 使用 $k_{ij}$ 表示第 $i-th$ 答案选项的第 $j-th$ knowledge passage

模型的输出：为每个候选答案计算一个分数 $score(i)$ , 最终选择分数最高的作为最终的答案

1.Concat

将每个选项的所有的（$m$ 个）knowledge passage 连接起来，形成一个 knowledge passage $k_i$ ；
BERT 的输入为: [CLS] K_i [SEP] Q a_i [SEP] ；
选择 BERT 最后一层的 [CLS] 的表示；
计算所有选项，得到 $n$ 个 [CLS] 表示，再经过一个 linear layer 计算得到 $score(i)$ ；

2.Parallel-Max

BERT 的输入为: [CLS] K_ij [SEP] Q a_i [SEP] ；
每条知识和QA对分别编码，对每个QA对中涉及的m条知识，计算m个打分选择最大值作为选项的打分

3.Simple Sum

simple/weighted sum / MAC 假设信息分散在多个句子中，需要聚集这些分散的信息；
BERT 的输入为: [CLS] K_ij [SEP] Q a_i [SEP] ；
将 $m$ 个向量相加，得到最终的 summary vector；
计算所有选项，得到 $n$ 个 summary vector，再经过一个 linear layer 计算得到 $score(i)$ ；

4.Weighted Sum

与simple sum的区别：一些knowledge passage可能更有用;
为一个候选项对应的 $m$ 个 [CLS] 表示计算一个标量权重 $w_{ij}$ （weight layer）, 然后计算 $m$ 个 [CLS] 表示的权重和;
最后通过一个线性映射和复用 weight layer 来计算候选项$a_i$的 $score(i)$;

5.MAC

MAC = Multi-sentence Alighment Classification

第一步同 weighted sum，先为一个候选项对应的 $m$ 个 [CLS] 表示计算一个标量权重 $w_{ij}$
reduce the normalized score
- $ w_{ij}^{\prime} = w_{ij} - ( 1 - w_{ij}) \ast max_{j\neq l \wedge l \in \{1…m\}} \{LinkStrength_{ijl}\} $
- $LinkStrength_{ijl} \in [0,1]$ 表示两个 knowledge passage 之间的连接强度
  - 如果两个知识（即 knowledge passage）有更好的 link strength，那么他们可以联合起来推出新的信息
  - 例如：
    - Facebook was launched in Cambridge 和 Cambridge is in MA 的 link strength 更高，可以推出 Facebook was launched in MA
    - Facebook was launched in Cambridge 和 Boston is in MA 的 link strength 较低
- weight reduction 的含义是：如果一个知识/knowledge passage，不足够和其他知识进行联合，那么它可能在最终的predicttion阶段也没必要被考虑
link strength 的计算方式可以有很多形式，本文中介绍了一种 memory-efficient 的方式
- 从BERT输出的表示中抽取出 knowledge passage 对应的 token 表示：$h_{i,j}^1, …, h_{i,j}^p$
- $LinkStrength_{ijl} = \frac{exp(link_{ij}^T link_{il})}{\sum_{x\neq j}^{x=1...m} exp(link_{ij}^T link_{ix})}$
- $link_{ij} = \sum_{t=1}^p s_{ij}^t \ast h_{ij}^t$
  - $s_{ij}$ 是标量，由 $h_{ij}$ 通过一个线性层得到，表示 $h_{ij}$ 是否可以被纳入 link description $link_{ij}$

Strategies of Knowledge Infusion

Notation:

$D$ 表示 MCQ 数据集；$T$ 表示 pre-trained LM；$K_D$ 表示知识库，即抽取出来的 knowledge passages/sentences；K 表示 general knowledge base，即用来预训练 $T$ 的语料；
$K$ 不一定包含 $K_D$

Revision：在$K_D$上使用与MLM和NSP任务微调$T$ ，然后再在 $D$ 上进行微调
Open-Book：$D$ 中的每个训练样例都有各自的 $K_D$，在扩充了知识的 $D$ 上微调 $T$
Revision along with Open-Book：先进行 Revision，再进行 Open-book

Experiments

三种策略及五种知识融合模型在四个数据集上的效果：
知识模型融合性能最好的再测试集上的效果：
对比实验：
1. 对于预测正确的情况，分析 (1) Exact appropriate knowledge is present, (2) A related but relevant knowledge is present, (3) Knowledge is present only in the correct option, and (4) No knowledge is present.
2. 对于预测错误的情况，分析 (1) Is the knowledge insufﬁcient, (2) Is the knowledge present in the wrong answer, (3) Knowledge is appropriate but model fails, and (4) Gold label is questionable.

Analysis & Summary

遗留问题：5种知识结合方法的计算中，标量权重值通过什么NN得到？标量的范围是否有限制？比如，需要在$[0,1]$之间？
这篇文章较为全面的总结了向LM中引入知识的策略以及计算表示的方法。
方法比较启发性但是很有效，在三个commonsense knowledge的数据集上都取得了SOTA的结果。
虽然已有的KB无法包含所有回答问题所需要的knowledge，但是KB确实能够提供重要的knowledge。
BERT虽然已经具备了一些knowledge，但是仍然存在 给定knowledge但是模型无法回答的情况，或是使用了 irrelevant knowledge 产生了错误预测的情况，这些都是值得进一步研究的问题。

1.Abductive commonsense reasoning. 2019. Bhagavatula, C.; Bras, R. L.; Malaviya, C.; Sakaguchi, K.; Holtzman, A.; Rashkin, H.; Downey, D.; Yih, S. W.-t.; and Choi, Y.. arXiv preprint arXiv:1908.05739. ↩
2.https://leaderboard.allenai.org/physicaliqa ↩
3.Socialiqa: Commonsense reasoning about social interactions. 2019. Sap, M.; Rashkin, H.; Chen, D.; LeBras, R.; and Choi, Y. arXiv preprint arXiv:1904.09728. ↩
4.A corpus and evaluation framework for deeper understanding of commonsense stories. 2016. Mostafazadeh, N.; Chambers, N.; He, X.; Parikh, D.; Batra, D.; Vanderwende, L.; Kohli, P.; and Allen, J.arXiv preprint arXiv:1604.01696. ↩
5.Wikihow: A large scale text summarization dataset. 2018. Koupaee, M., and Wang, W. Y. arXiv preprint arXiv:1810.09305. ↩
6.Atomic: an atlas of machine commonsense for if-then reasoning. 2019. Sap, M.; Le Bras, R.; Allaway, E.; Bhagavatula, C.; Lourie, N.; Rashkin, H.; Roof, B.; Smith, N. A.; and Choi, Y. In Proceedings of the AAAI Conference on Artiﬁcial Intelligence, volume 33, 3027–3035. ↩
7.Careful selection of knowledge to solve open book question answering. 2019. Banerjee, P.; Pal, K. K.; Mitra, A.; and Baral, C. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, 6120–6129. Florence, Italy: Association for Computational Linguistics. ↩