Title: Transformers as Soft Reasoners over Language
Authors: Peter Clark, Oyvind Tafjord, Kyle Richardson
Org.: AI2;
Published: unpublished
Demo: https://rule-reasoning.apps.allenai.org/
1. Motivation
使系统具备基于显式提供的知识的推理能力是AI研究的长期目标,但是构建合适的表示被证明是极具挑战的。
2. This Work
本文尝试探索,是否transformer可以被训练用来进行直接推理(或模仿推理),但是使用语言表达的规则(rules expressed in language),从而绕过形式表示(formal representation)。
本文还刻画其推理能力的程度。
本文使用一个合成的数据,来测试不断增加的推理复杂性(规则数量、否定、链接深度)
本文的发现,为transformer提供了一个新的角色:transformer可以作为一个有限的软定理证明器(soft theorem prover),在语言的explicit theories上运行;
也为在QA上的explainability,correctability,counterfactual reasoning(可解释性、可修正性、反事实推理)提供了新的可能;
本文围绕下面几个问题展开:
- Can transformers learn to reason with explicit rules?
- (Table.1)
- 在合成数据集中,在测试集上的效果高达99%;
- 在需要更深推理的测试集上效果可以达到95%;
- Can the trained model solve hand-authored reasoning problems?
- (Table.4)
- zero shot,90%;
- Do the results transfer to theories expressed in more natural language?
- (Table.5)
- 自然语言更多时,zero shot,66%;
- Can the model identify which facts an answer depends on?
- (Fig.9)
- 模型可以对其结论产生解释;
- Can other neural architectures learn to reason?
- (Table.6)
- 对比了BERT(95%)、ESIM(80%),不限结构;
3. Dataset Generation
合成了5个数据集,每个example由三个元素构成(context,statement,answer):
- context:由fact和rule构成,
- statement:相当于问题,
- answer:为True/False,
- True表示statement可以由context中演绎(deductive)出来;
- False表示statement不符合 closed-world assumption(CWA,封闭世界假定,当前不是已知的事物都为假);
再生成样例之前,先生成logic形式的small theory(facts+rules)
5个数据集以推理深度进行区分:
- 从D=0到D<=5;
- D=0表示,仅通过context就可以推理出答案;
Theory Generation时考虑两种fact:
- atributes:is($e_i$,$a_j$)
- 例如:
is(Alan, Big)
- 例如:
- relations:$r_k(e_i,e_k)$
- 例如:
eats(Dog, Rabbit)
- 例如:
Experiments
模型采用RoBERTa,在RACE上进行微调;
RoBERTa的输入为:[CLS]context[SEP]statement[SEP]
[CLS]
位的输出映射到一个logit,当其大于0时,输出True,反之,输出False;- 用交叉熵作为目标函数;
Summary & Analysis
TBU