《A Novel Cascade Binary Tagging Framework for RTE》

论文:《A Novel Cascade Binary Tagging Framework for Relational Triple Extraction》

Abstract

从非结构化文本中提取关系三元组是大规模知识图谱构建的关键。然而,现有的研究很少能解决同一句话中多个关系三元组共享同一个实体的重叠三元组问题。在这项工作中,本文引入了一个新的视角来重新审视关系三元组抽取任务,并提出了一个新的级联二元标记框架(CASREL),该框架是从一个问题原理的公式推导而来的。本文的新框架没有像以前那样将关系视为离散的标签,而是将关系建模为将主题映射到句子中的对象的函数,从而自然地处理重叠问题。实验表明,即使其编码器模块使用随机初始化的BERT编码器,CASREL框架也已经优于最新的方法,显示了新标记框架的强大功能。在使用预训练好的BERT编码器时,它的性能得到了进一步的提升,在两个公共数据集NYT和WebNLG上分别以17.5和30.2的F1分数绝对超过最强基线。对重叠三元组的不同场景的深入分析表明,该方法在所有这些场景中都提供了一致的性能增益。

Introduction

Problem:

Previous work

shortcomings:

1、类分布高度不平衡。在所有提取的实体对中,大多数没有形成有效的关系,产生了太多的负样本。

2、当同一实体参与多个有效关系(重叠的三元组)时,分类器可能会混淆。如果没有足够的训练实例,分类器就很难判断实体参与的关系。因此,提取的三元组通常是不完整和不准确的。

该框架的核心是新视角,即可以将关系建模为映射头实体到尾实体的函数,而不是将关系视为实体对上的离散标签。

更准确地说,不是学习关系分类器,而是学习特定关系的标记。

其中每一个都能识别特定关系下给定主题的可能尾实体;或者不返回任何实体,表示与给定主题和关系不存在三元组。

在此框架下,三元组抽取是一个分为两步的过程:

1、识别句子中所有可能的头实体;

2、每一个头实体应用特定于关系的标记来同时识别所有可能的关系和相应的尾实体。

框架构成:一个基于BERT的编码器模块、一个头实体标记模块和一个特定于关系的尾实体标记模块组成。

contributions:

1、引入了一个新的视角,重新审视关系三元组抽取任务,通过设计一个通用算法框架来解决重叠三元组问题。

2、将上述框架实例化为一个基于Transformer编码器的级联二进制标记模型,这使得该模型能够将新的标记框架的能力与预训练的大规模语言模型中的先验知识结合起来。

3、在两个公共数据集上的大量实验表明,该框架的性能明显优于最新的方法,在两个数据集上分别获得了17.5和30.2的F1明显提高。详细分析表明,该模型在所有场景中都得到了一致的改进。

The CASREL Framework

目标:最大化条件概率:

给定标记好的句子xj ,和xj中潜在的重叠实体三元组集Tj = {(s, r, o)}

上述公式的优点:

1、从数据似然开始,到最终得到尾实体,整体框架是在triple-level上进行的。

2、对实体怎样出现在句子中没有任何假设,适用于重叠实体的情况。

3、式(3)中的分解激发了一种新的三元组抽取标记方案:学习一个识别句子中头实体的实体标记符p(s | xj);对于每个关系r,学习一个识别给定实体的特定于关系对象的宾语标记符pr(o | s,xj)。

主要模块为:一个头实体标记模块和一个特定于关系的尾实体标记模块,实例化有很多方法,本文中基于BERT进行二分类。

BERT Encoder

将单个句子作为bert的输入来构成encoder。

Cascade Decoder

Subject Tagger

两个二分类器分别识别头实体的start、end

目标,优化下面的条件概率:

L为句子长度,I{z} = 1,如果z=true,否则z=false。

Relation-specific Object Taggers

与头实体标记器直接解码编码向量hN不同,关系特定对象标记器也考虑了头实体的特征。关系特定对象标记器对每个词汇的详细操作如下:

vk sub表示低层模块中的头实体表示向量,为了保持xi(hNi)和vk sub保持维度一致,选择如果头实体有多个词语组成,则选择使用vk sub的平均向量。

Data Log-likelihood Objective

Experiments

Experimental Setting

Dataset:

指标:Precision (Prec.), Recall (Rec.) ,F1-score

Experimental Result

可以看到CasRel模型比其他的SOTA baseline都要好,即使是random(没有进行微调)和LSTM的模型也有很强的竞争力。

相同的模型在NYT和WebNLG数据集上的效果有差距,原因是NYT模型中Normal的情况比较多,而WebNLG数据集中较多是EPO和SEO这两类,两个数据集不一致的数据分布导致所有基线模型在NYT上的性能相对较好,在WebNLG上的性能较差,从而暴露了它们在提取重叠关系三元组方面的缺陷。而CasRel模型在两种情况下都能有较好的效果。

Details

可以看到三类中,基线模型抽取Normal类型是最容易的,但CasRel模型在三种类型上都有良好的表现。

CasRel模型在复杂情形下,对于基线模型有更大的优势。

编辑于 05-26

文章被以下专栏收录