AAAI,2019
中山大学,微软亚研
Motivation
- 现有的神经网络模型不能很好的回答常识问题是由于缺乏concepts之间的常识联系
- 回答有些问题需要模型有能力在常识知识上进行推理
- 回答这类的问题既需要词本身的知识又需要世界知识
This Work
- 利用外部常识知识(ConceptNet)提高QA系统的常识推理能力
- 根据外部关于世界的常识知识预训练一个模型,对concepts之间的直接关系和间接关系进行预训练
- 预训练的functions可以轻松地加到神经网络中
- concept之间的关系可以分为直接和间接
- 可以学习两个度量每对concept之间直接和间接关系的functions
- 好处:
- 模型具有很大的concept/entity覆盖度
- 模型常识推理的能力不受限于训练实例的数量和不需要覆盖所有终端任务中需要的推理类型
- 易于扩展
- 实验数据集:ARC / MCScripts
Approach
- 候选答案的打分函数由两部分组成
- $f(a_i) = \alpha f_{doc}(a_i) + \beta f_{cs}(a_i)$
- 分别是 document-based model 给出的打分 和 commonsense-based model 给出的打分
- document-based model 同 yuanfudao 的 tri-attention
Commonsense-based Model
- 预训练知识表示的参数:
关系表示:
- 两个concept之间的关系表示:$f_{cs}(c_1,c_2)=Enc(c_1) \odot Enc(c_2)$
- concept encoder $Enc(\cdot)$ 的计算:
- $h^w(c) = BiLSTM(Emb(c))$
- 考虑到邻居节点:$h^n(c) = \sum_{c^\prime\in NBR(c)}(W^{r(c,c^\prime)} h^w(c^\prime) + b^{r(c,c^\prime)})$
- $Enc(c) = [h^w(c);h^n(c)]$
- 基于排序的损失函数:
- $l(c_1,c_2,c^\prime) = max(0, f_{cs}(c_1, c^\prime) - f_{cs}(c_1,c_2) + mgn)$
- $c_1$和$c_2$是正例
- $c_1$和$c^\prime$是负例
- 根据不同的策略对负例进行采样
- 直接关系:直接根据kg中的邻接图进行采样
- 间接关系:拥有共同邻节点的作为正例,没有one-hop或two-hop关系的作为负例
$f_{cs}(a_i)$函数是commonsense-based model 的打分函数:
- $f_{cs}(a_i) = \frac{1}{|E_1|} \sum_{x\in E_1} max_{y\in E_2}(f_{cs}(x,y))$
- max 表示选择$E_1$中最相关的concept
- 其中$E_1$和$E_2$分别表示从问题句子Q和候选答案抽取出来的常识事实
- 同样还可以计算从文章和候选答案抽取处理的常识事实
- 对于P-Q对,为了保证和候选答案的相关性,去除不在候选答案抽取出来的知识集中的concept
- 每个$E$是从知识库中抽取出的三元组
- $f_{cs}(a_i) = \frac{1}{|E_1|} \sum_{x\in E_1} max_{y\in E_2}(f_{cs}(x,y))$
相关工作
Topic:结合外部知识库或结构知识库的相关工作
这方面的工作可以分为两类,大部分属于第一类
- enhance each basic computational unit (word or noun phrase)
- Leveraging knowledge bases in lstms for improving machine reading
- Knowledgeable reader: Enhancing cloze-style reading comprehension with external commonsense knowledge.
- support external signals at the top layer before the model makes the final decision
分析
- cons:
- 对文本和问题的建模和对知识的建模是分开的,通过最终的打分函数进行关联
- pros:
- 通过区分直接关系和间接关系的采样来训练得到的知识表示向量效果更好