Defining Comprehension on MRC

Content:

1 - On Making Reading Comprehension More Comprehensive

Authors: Matt Gardner, Jonathan Berant, Hannaneh Hajishirzi, Alon Talmor, Sewon Min
Org.: AI2, Tel Aviv University, UW
Published: EMNLP 2019 workshop on MRQA

2 - To Test Machine Comprehension, Start by Defining Comprehension

Authors: Jesse Dunietz, Gregory Burnham, Akash Baharadwaj, Owen Rambow, Jennifer Chu-Carroll, David Ferrucci
Org.: Elemental Cognition
Published: ACL 2020

On Making RC more Comprehensive

Intro:

使机器理解自然语言文本是一个重要的任务,令这个任务更有挑战性的是我们尚未搞清什么是理解文本,或,如何评判一个machine是否成功完成了这个任务。

现有研究中,采取了问答式机器阅读理解的方式来验证一个系统是否理解了文本,即,给定一个文本片段,一个自然语言问题(假定该问题需要在一定程度上对文本的理解才能回答)。

但是却没有工作系统地验证这种理解的方法(问答式机器阅读理解),或讨论其缺点。

本文认为,QA式MRC是一种很好的但是存在潜在担忧的方式以衡量机器对文本的理解。

数据集层面:
现有的RC数据集,大部分其发自SQuAD,SQuAD数据集为RC的研究开启了很好的铺垫,但是远不足以探究系统的理解能力。
这些数据集仅需要简单的对局部的谓词-论元结构或实体类型的理解,然而理解文本远不止这些,还有比如,在篇章中跟踪实体,理解所读文本暗含的意思,以及恢复作者想要传达的潜在世界模型。

任务层面:
Question Answering是用来探究这些复杂问题的自然形式,但是QA存在很多固有的挑战。
具体而言:(在构造数据集时)非常容易写一些看似需要深入理解文本才能回答的问题,但事实上,这些问题会给机器提供词汇或其他线索,让系统在回答问题时绕过预期的推理。
这就需要我们在数据收集的过程中,设计一些机制以对抗这样的shortcuts。

本文的工作:

  1. 证实了问答式阅读理解的合理性;
  2. 并描述了各种问题,可以用来更全面地测试一个系统对一篇文章的理解,而不仅仅是探究局部的predicate-argument结构;
  3. 该方法(问答式阅读理解)的主要陷阱问题是:问题容易找到surface cue,或者其他偏置,而使模型找到推理过程中的捷径(shortcut)
    • 本文针对当前文献中提出的mitigate shortcuts 的方法进行了讨论,并对未来数据集收集工作提出了建议。

Defining Reading Comprehension

如何定义理解一段文本?

根据[Kendeou and Trevors,2012][00],理想的基准是像人一样:人类在阅读一篇文章时用来恢复某些意义概念的过程。但是这样的过程在计算上并没有明确的定义。

长期以来,自然语言处理界一直利用语言形式linguistic formalism)来表示这一意义,比如:语法树、词义消歧、语义角色、共指消解。然而,没有一种语言形式主义能够抓住段落的全部含义。

本文借助图灵测试的想法(通过在自然语言中进行交互,agents才能展示他们对语言的理解),提出了一个postulate:

an entity (human or machine) understands a passage of text if it can correctly answer arbitrary questions about that text.

该postulate的内容是理解的充分条件,而非必要条件(还会存在其他定义理解的方式)。

基于上述的postulate,本文将MRC定义为一个任务,旨在理解一个连贯段落文本,其中会给定系统一个段落和一个关于该段落的问题,并且系统必须给出答案。

然而利用Questions来评判理解存在几个问题,比如:

  1. 尚不清楚问题的范围应该是什么?
  2. 收集任意的问题是非常有挑战性的,因为那些似乎在探索某种特定理解的问题可能有捷径,可以在没有真正理解文本的情况下正确地回答它们。

本文后续对这两个问题进行了分析

What kinds of Questions?

本文中列举了一些能够刻画文本理解的高层次问题,目前很少有数据集中显示地提出这些问题。

1、Sentence-level Linguistic Structure

  • 目前的工作:鼓励非常局部(单个句子内部)的推理
  • 超越单个句子:需要结果passage中多个文本片段;
    • E.g.: Drop
  • 关注针对谓词论元结构以外的其他现象:
    • 在语义分析中存在着许多丰富的问题,如否定范围、分配与非分配的协调、事实性、指示语、结合与空成分、介词意义、名词复合词等等;
    • 这些问题都已经有很好的形式化定义;

2、Paragraph-level Structure

  • 目前的工作:虽然阅读理解数据集的输入是一段文本,但大多数数据集并没有明确针对需要理解整个段落的问题,或者句子如何组合成一个连贯的整体;
  • 关注段落或语篇层面现象的问题,如实体跟踪、语篇关系或语用学;
    • E.g.: Quoref

3、Grounding and Background Knowledge

  • 根据已知的知识来理解文本
  • 人们在阅读特定文本时表现出不同的理解水平,这在很大程度上取决于他们在适当背景知识的下理解文本的能力。

4、Implicative Reasoning

  • 理解文本包括理解该文本对可能看到的其他文本的含义(或蕴涵)
  • 在某种意义上,这可以看作是将文本中的谓词grounding到一些先验知识中,这些先验知识包括该谓词的含义,也包括重建文本所描述的世界模型的更一般的概念;
    • E.g.: ShARC、ROPES

5、Communicative Aspects

Ways to Combat Shortcuts

在解决阅读理解任务时有一些捷径shortcuts,使模型能够通过lexical overlap和entity types等表面线索(superficial clues)找到答案

以下几种方式可以防止这种shortcus:

1、 Question/Passage Mismatch: 减少 lexical overlap;

  • 构造问题时,不提供原文,而是提供相同语义的文本;
    • NarrativeQA、DuoRC
  • 先收集问题,再去pair到相应的文本上;
    • QuAC、TriviaQA
  • 更真实的问题;
    • Natural Question、BoolQ

2、“No answer” option

3、Dialog

  • 需要额外上下文

4、Complex Reasoning

5、Context Construction

6、Adversarial Construction

7、Minimal question pairs

  • 借用语言分析中的“最小对”概念:ROPES;
    • 为了避免问题或段落中哪个实体首先出现的细微偏差,或者问题和段落词之间的简单词汇联想偏差,人群工作者被要求对他们写的问题进行最小的修改,以改变答案;
    • 例如,问题【哪个城市会有更多的树?】可能会改成【哪个城市的树会更少?】。
    • 这种方法并不适用于所有的阅读理解场景,但它可以成为减少捷径的有效手段:一个单独的问题可能会表现出捷径的特征,但假设最小对中的另一个问题也会有相同的捷径,导致了一个依赖于快捷方式的系统,使其中至少一个错误。

8、Free-form answers

  • 捷径出现的原因:有限的输出空间,可以搜索到导致正确答案的简单偏差。

9、Multi-task Evaluation

  • 在多个数据集上评估模型

10、Explainability

  • 要求对阅读理解模型提供的最终答案进行某种解释:
    • E.g.: HotpotQA

Recommendations for Future Research

  • 创建没有捷径的数据集
  • 在多数据集上评估模型
    • 防止模型过度拟合单个数据集中的统计偏差
  • 防止先验偏差
  • 检测偏差
  • 构建对抗性样例

To test MC, start by Defining Comprehension

Contributions

本文贡献:

  1. 本文认为,现有的方法不能充分定义理解,对于测试的内容太不系统。
  2. 本文对一类广泛使用的文本,即简短的叙述,给出了理解的详细定义——理解的模板。
  3. 实验表明现有的系统不能胜任本文中定义的叙事理解任务。

Defining deep story understanding

Template of Understanding (ToU):

  • 一组问题模板,可以填写任何给定段落的特定事件和实体。

A ToU for Story,针对故事理解:

  1. Spatial
    • Where are entities positioned over time, relative to landmarks and each other? How are they physically oriented? And where do events take place?
  2. Temporal
    • What events and sub-events occur, and in what order? Also, for what blocks of that timeline do entities’ states hold true?
  3. Causal
    • How do events and states lead mechanistically to the events and states described or implied by the text?
  4. Motivational
    • How do agents’ beliefs, desires, and emotions lead to their actions?

参考:

  1. 四组重叠的故事理解问题,对应于[1][01]确定的人类阅读故事时关注的四个要素。
  2. 后两个问题,来自于计算故事理解的早期工作:[2][02]将causal chains、plans和goals确定为理解多句故事的关键要素。

  1. 00.Panayiota Kendeou and Gregory Trevors. 2012. Quality learning from texts we read: What does it take?, pages 251–275. Cambridge University Press.
  2. 01.Rolf A. Zwaan, Mark C. Langston, and Arthur C. Graesser. 1995. The construction of situation models in narrative comprehension: An event-indexing model. Psychological Science, 6(5):292–297.
  3. 02.Roger C. Schank and Robert P. Abelson. 1977. Scripts, Plans, Goals and Understanding. Lawrence Erlbaum Associates, Hillsdale, NJ.
**** END of This Post. Thank for Your READING ****
If you have any Question, welcome to Email me or leave your comments below.