EMNLP2018 | Open Domain Question Answering Using Early Fusion of Knowledge Bases and Text

Title: Open Domain Question Answering Using Early Fusion of Knowledge Bases and Text
Authors: Haitian Sun, Bhuwan Dhingra et al.
Org.: CMU
Published: EMNLP 2018

official code: https://github.com/OceanskySun/GraftNet

Motivation

  • 大多数 open domain QA 任务都是使用单信息源(要么是text from encyclopedia,或者是 single KB)来回答问题
  • 判断一个信息源的适用性(suitability),取决于信息源的覆盖度(coverage)和从其中抽取答案的难度(difficulty of extracting answers from it)
    • 非结构化,large text corpus作为信息源:具有很高的覆盖度,但是信息被不同的text pattern表示(这里可以理解为,不同领域/体裁的文本有不同的表现形式),模型还需要学习这些text pattern,导致模型难以泛化到其他领域以及新的推理类型
    • 结构化,KB作为信息源:覆盖度低(由于不可避免的不完全性和有限的模式),但是更易于抽取答案
  • 由于有两种信息源存在,有些问题可被text回答,有些问题更适合用KB回答,但是只使用一种信息源不足以回答问题,一个很自然的问题就是如何有效地结合多种类型的信息,有以下两种方式:
    • late fusion:
      • 为每种信息源设计SOTA的QA模型,得到他们的预测结果之后,再用一些启发式的方法将得到的答案进行聚合
      • 问题:sub-optimal的解决方法,模型受限于从不同的信息源中聚集证据信息
    • early fusion:本文所采取的方式
      • 只利用一个模型,训练其从一个问题子图中抽取答案
      • 问题子图,既包含相关的 KB fact 又包含 text
      • 可以灵活地结合多个信息源的知识

This Work

这篇文章进行的是开放域的KBQA任务(incomplete KB),结合图表示学习,提出了一个GRAFT-Net模型,可以从同时包含文本、KB实体与关系的 Question-specific 子图中抽取答案

  • 为了实现early fusion,提出了一个 Graphs of Relations Among Facts and Text Network(GRAFT-Net)
  • 基于图卷积神经网络模型,可以在由KB facts和text sentences组成的异构图上进行运算
    • 提出了 heterogeneous update rules 来处理KB节点;LSTM-based update rules来更新text节点
    • 提出了 directed propagation method, 启发自 Personalized PageRank 算法,用于限制图中 embedding 在基于从seed节点链接到question的路径上进行传播
  • 实验数据集:WikiMovies,WebQuestionSP

Task Setup

Task Description

Question Subgraph Retrieval

GRAFT-Net

1.Node Initialization

2.Heterogeneous Updates

Entities
Documents

3.Conditioning on the Question

Attention over Relations
Directed Propagation

4.Answer Selection

5.Regularization via Fact Dropout

Experiments

Summary & Analysis

**** END of This Post. Thank for Your READING ****
If you have any Question, welcome to Email me or leave your comments below.