《Text Summarization with Pretrained Encoders》阅读笔记

《Text Summarization with Pretrained Encoders》

论文来源:EMNLP 2019

论文链接:arxiv.org/abs/1908.0834



问题介绍:

预训练的语言模型在许多自然语言处理任务中都取得了最新的进展,Bert在大量文本上进行预训练,具有无监督的目标,即屏蔽语言建模和下一个句子预测,并且可以针对不同的任务特定目标进行微调。

本文研究了语言模型预训练对文本摘要的影响。摘要不同于以往的任务,它要求广泛的自然语言理解超出单个单词和句子的意义。其目的是将文档压缩成较短的版本,同时保留其大部分含义。此外,在抽象摘要任务中,该任务需要语言生成能力,以便创建包含源文本中未出现的新单词和短语的摘要。


主要贡献:

  1. 强调了文档编码对于摘要任务的重要性
  2. 展示了在抽取式和生成式摘要任务中有效地使用预训练语言模型进行摘要的方法
  3. 所提出的模型可以为进一步提高摘要性能打下了基础,也可以作为新方法的baseline


网络介绍:



原Bert:

Bertsum:

主要是学习句子级别的表征。

Bertsumext:

其中 h_{i}^{L} 是来自Transformer顶层(第L层)的senti向量。在实验中,我们实现了L=1,2,3的Transformer,发现L=2的Transformer表现最好。我们把这种型号命名为Bertsumext。

抽象摘要:

使用标准的编码器-解码器框架进行抽象摘要。

编码器是预训练的Bertsum,解码器是随机初始化的6层Transformer。

对于编码器和解码器,我们分别使用β1=0.9和β2=0.999的两个ADAM优化器,每个优化器具有不同的预热步骤和学习速率:

实验结果:

CNN/DailyMail:


NYT:


XSum:


n-gram:


人工评价对比:



发布于 2019-10-29

文章被以下专栏收录