EMNLP2018 | Open Domain Question Answering Using Early Fusion of Knowledge Bases and Text

Title: Open Domain Question Answering Using Early Fusion of Knowledge Bases and Text
Authors: Haitian Sun, Bhuwan Dhingra et al.
Org.: CMU
Published: EMNLP 2018

official code: https://github.com/OceanskySun/GraftNet

Motivation

大多数 open domain QA 任务都是使用单信息源（要么是text from encyclopedia，或者是 single KB）来回答问题
判断一个信息源的适用性（suitability），取决于信息源的覆盖度（coverage）和从其中抽取答案的难度（difficulty of extracting answers from it）
- 非结构化，large text corpus作为信息源：具有很高的覆盖度，但是信息被不同的text pattern表示（这里可以理解为，不同领域/体裁的文本有不同的表现形式），模型还需要学习这些text pattern，导致模型难以泛化到其他领域以及新的推理类型
- 结构化，KB作为信息源：覆盖度低（由于不可避免的不完全性和有限的模式），但是更易于抽取答案
由于有两种信息源存在，有些问题可被text回答，有些问题更适合用KB回答，但是只使用一种信息源不足以回答问题，一个很自然的问题就是如何有效地结合多种类型的信息，有以下两种方式：
- late fusion:
  - 为每种信息源设计SOTA的QA模型，得到他们的预测结果之后，再用一些启发式的方法将得到的答案进行聚合
  - 问题：sub-optimal的解决方法，模型受限于从不同的信息源中聚集证据信息
- early fusion：本文所采取的方式
  - 只利用一个模型，训练其从一个问题子图中抽取答案
  - 问题子图，既包含相关的 KB fact 又包含 text
  - 可以灵活地结合多个信息源的知识

This Work

这篇文章进行的是开放域的KBQA任务（incomplete KB），结合图表示学习，提出了一个GRAFT-Net模型，可以从同时包含文本、KB实体与关系的 Question-specific 子图中抽取答案

为了实现early fusion，提出了一个 Graphs of Relations Among Facts and Text Network（GRAFT-Net）
基于图卷积神经网络模型，可以在由KB facts和text sentences组成的异构图上进行运算
- 提出了 heterogeneous update rules 来处理KB节点；LSTM-based update rules来更新text节点
- 提出了 directed propagation method，启发自 Personalized PageRank 算法，用于限制图中 embedding 在基于从seed节点链接到question的路径上进行传播
实验数据集：WikiMovies，WebQuestionSP

EMNLP2018 | Open Domain Question Answering Using Early Fusion of Knowledge Bases and Text

Motivation

This Work

Task Setup

Task Description

Question Subgraph Retrieval

GRAFT-Net

1.Node Initialization

2.Heterogeneous Updates

3.Conditioning on the Question

4.Answer Selection

5.Regularization via Fact Dropout

Experiments

Summary & Analysis