1 - On Making Reading Comprehension More Comprehensive
Authors: Matt Gardner, Jonathan Berant, Hannaneh Hajishirzi, Alon Talmor, Sewon Min
Org.: AI2, Tel Aviv University, UW
Published: EMNLP 2019 workshop on MRQA
2 - To Test Machine Comprehension, Start by Defining Comprehension
Authors: Jesse Dunietz, Gregory Burnham, Akash Baharadwaj, Owen Rambow, Jennifer Chu-Carroll, David Ferrucci
Org.: Elemental Cognition
Published: ACL 2020
On Making RC more Comprehensive
Intro:
使机器理解自然语言文本是一个重要的任务,令这个任务更有挑战性的是我们尚未搞清什么是理解文本,或,如何评判一个machine是否成功完成了这个任务。
现有研究中,采取了问答式机器阅读理解的方式来验证一个系统是否理解了文本,即,给定一个文本片段,一个自然语言问题(假定该问题需要在一定程度上对文本的理解才能回答)。
但是却没有工作系统地验证这种理解的方法(问答式机器阅读理解),或讨论其缺点。
本文认为,QA式MRC是一种很好的但是存在潜在担忧的方式以衡量机器对文本的理解。
数据集层面:
现有的RC数据集,大部分其发自SQuAD,SQuAD数据集为RC的研究开启了很好的铺垫,但是远不足以探究系统的理解能力。
这些数据集仅需要简单的对局部的谓词-论元结构或实体类型的理解,然而理解文本远不止这些,还有比如,在篇章中跟踪实体,理解所读文本暗含的意思,以及恢复作者想要传达的潜在世界模型。
任务层面:
Question Answering是用来探究这些复杂问题的自然形式,但是QA存在很多固有的挑战。
具体而言:(在构造数据集时)非常容易写一些看似需要深入理解文本才能回答的问题,但事实上,这些问题会给机器提供词汇或其他线索,让系统在回答问题时绕过预期的推理。
这就需要我们在数据收集的过程中,设计一些机制以对抗这样的shortcuts。
本文的工作:
- 证实了问答式阅读理解的合理性;
- 并描述了各种问题,可以用来更全面地测试一个系统对一篇文章的理解,而不仅仅是探究局部的predicate-argument结构;
- 该方法(问答式阅读理解)的主要陷阱问题是:问题容易找到surface cue,或者其他偏置,而使模型找到推理过程中的捷径(shortcut)
- 本文针对当前文献中提出的mitigate shortcuts 的方法进行了讨论,并对未来数据集收集工作提出了建议。
Defining Reading Comprehension
如何定义理解一段文本?
根据[Kendeou and Trevors,2012][00],理想的基准是像人一样:人类在阅读一篇文章时用来恢复某些意义概念的过程。但是这样的过程在计算上并没有明确的定义。
长期以来,自然语言处理界一直利用语言形式(linguistic formalism)来表示这一意义,比如:语法树、词义消歧、语义角色、共指消解。然而,没有一种语言形式主义能够抓住段落的全部含义。
本文借助图灵测试的想法(通过在自然语言中进行交互,agents才能展示他们对语言的理解),提出了一个postulate:
an entity (human or machine) understands a passage of text if it can correctly answer arbitrary questions about that text.
该postulate的内容是理解的充分条件,而非必要条件(还会存在其他定义理解的方式)。
基于上述的postulate,本文将MRC定义为一个任务,旨在理解一个连贯段落文本,其中会给定系统一个段落和一个关于该段落的问题,并且系统必须给出答案。
然而利用Questions来评判理解存在几个问题,比如:
- 尚不清楚问题的范围应该是什么?
- 收集任意的问题是非常有挑战性的,因为那些似乎在探索某种特定理解的问题可能有捷径,可以在没有真正理解文本的情况下正确地回答它们。
本文后续对这两个问题进行了分析
What kinds of Questions?
本文中列举了一些能够刻画文本理解的高层次问题,目前很少有数据集中显示地提出这些问题。
1、Sentence-level Linguistic Structure
- 目前的工作:鼓励非常局部(单个句子内部)的推理
- 超越单个句子:需要结果passage中多个文本片段;
- E.g.: Drop
- 关注针对谓词论元结构以外的其他现象:
- 在语义分析中存在着许多丰富的问题,如否定范围、分配与非分配的协调、事实性、指示语、结合与空成分、介词意义、名词复合词等等;
- 这些问题都已经有很好的形式化定义;
2、Paragraph-level Structure
- 目前的工作:虽然阅读理解数据集的输入是一段文本,但大多数数据集并没有明确针对需要理解整个段落的问题,或者句子如何组合成一个连贯的整体;
- 关注段落或语篇层面现象的问题,如实体跟踪、语篇关系或语用学;
- E.g.: Quoref
3、Grounding and Background Knowledge
- 根据已知的知识来理解文本
- 人们在阅读特定文本时表现出不同的理解水平,这在很大程度上取决于他们在适当背景知识的下理解文本的能力。
4、Implicative Reasoning
- 理解文本包括理解该文本对可能看到的其他文本的含义(或蕴涵)
- 在某种意义上,这可以看作是将文本中的谓词grounding到一些先验知识中,这些先验知识包括该谓词的含义,也包括重建文本所描述的世界模型的更一般的概念;
- E.g.: ShARC、ROPES
5、Communicative Aspects
Ways to Combat Shortcuts
在解决阅读理解任务时有一些捷径shortcuts,使模型能够通过lexical overlap和entity types等表面线索(superficial clues)找到答案
以下几种方式可以防止这种shortcus:
1、 Question/Passage Mismatch: 减少 lexical overlap;
- 构造问题时,不提供原文,而是提供相同语义的文本;
- NarrativeQA、DuoRC
- 先收集问题,再去pair到相应的文本上;
- QuAC、TriviaQA
- 更真实的问题;
- Natural Question、BoolQ
2、“No answer” option
3、Dialog
- 需要额外上下文
4、Complex Reasoning
5、Context Construction
6、Adversarial Construction
7、Minimal question pairs
- 借用语言分析中的“最小对”概念:ROPES;
- 为了避免问题或段落中哪个实体首先出现的细微偏差,或者问题和段落词之间的简单词汇联想偏差,人群工作者被要求对他们写的问题进行最小的修改,以改变答案;
- 例如,问题【哪个城市会有更多的树?】可能会改成【哪个城市的树会更少?】。
- 这种方法并不适用于所有的阅读理解场景,但它可以成为减少捷径的有效手段:一个单独的问题可能会表现出捷径的特征,但假设最小对中的另一个问题也会有相同的捷径,导致了一个依赖于快捷方式的系统,使其中至少一个错误。
8、Free-form answers
- 捷径出现的原因:有限的输出空间,可以搜索到导致正确答案的简单偏差。
9、Multi-task Evaluation
- 在多个数据集上评估模型
10、Explainability
- 要求对阅读理解模型提供的最终答案进行某种解释:
- E.g.: HotpotQA
Recommendations for Future Research
- 创建没有捷径的数据集
- 在多数据集上评估模型
- 防止模型过度拟合单个数据集中的统计偏差
- 防止先验偏差
- 检测偏差
- 构建对抗性样例
To test MC, start by Defining Comprehension
Contributions
本文贡献:
- 本文认为,现有的方法不能充分定义理解,对于测试的内容太不系统。
- 本文对一类广泛使用的文本,即简短的叙述,给出了理解的详细定义——理解的模板。
- 实验表明现有的系统不能胜任本文中定义的叙事理解任务。
Defining deep story understanding
Template of Understanding (ToU):
- 一组问题模板,可以填写任何给定段落的特定事件和实体。
A ToU for Story,针对故事理解:
- Spatial
- Where are entities positioned over time, relative to landmarks and each other? How are they physically oriented? And where do events take place?
- Temporal
- What events and sub-events occur, and in what order? Also, for what blocks of that timeline do entities’ states hold true?
- Causal
- How do events and states lead mechanistically to the events and states described or implied by the text?
- Motivational
- How do agents’ beliefs, desires, and emotions lead to their actions?
参考:
- 四组重叠的故事理解问题,对应于[1][01]确定的人类阅读故事时关注的四个要素。
- 后两个问题,来自于计算故事理解的早期工作:[2][02]将causal chains、plans和goals确定为理解多句故事的关键要素。
- 00.Panayiota Kendeou and Gregory Trevors. 2012. Quality learning from texts we read: What does it take?, pages 251–275. Cambridge University Press. ↩
- 01.Rolf A. Zwaan, Mark C. Langston, and Arthur C. Graesser. 1995. The construction of situation models in narrative comprehension: An event-indexing model. Psychological Science, 6(5):292–297. ↩
- 02.Roger C. Schank and Robert P. Abelson. 1977. Scripts, Plans, Goals and Understanding. Lawrence Erlbaum Associates, Hillsdale, NJ. ↩