ON-LSTM阅读笔记

标题:

Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networksarxiv.org

来源:ICLR2019

1.回顾LSTM结构

表达式

2.概念介绍

2.1层级

层级越低代表语言中颗粒度越小的结构,而层级越高则代表颗粒度越粗的结构,比如在中文句子中,“字”可以认为是最低层级的结构,词次之,再上面是词组、短语等。层级越高,颗粒度越粗,那么它在句子中的跨度就越大。

2.2序信息

神经元通常都是无序的,比如遗忘门ft是一个向量,向量的各个元素的位置没有什么规律。如果把LSTM运算过程中涉及到的所有向量的位置按照同一方式重新打乱,最后的输出结果只是原来向量的重新排序,信息量也不变。

3.ON-LSTM

3.1指导思想:

on-lstm假设神经元向量是有序的,即index越小的元素,层级越低,容易被遗忘;index越大,层级越高,越应该长期的传播。

3.2创新点

相较于LSTM,唯一的不同的是从ĉ t到ct的更新机制不一样。

先假设有两个函数F1、F2,输入历史信息ht−1和当前输入xt,得到两个整数df和di,分别表示ht-1和xt的层级。

当df<=di,即当前输入的信息层级高,会影响到index为[0,di]的元素值:

当df>di,

示意图

对以上两种情况进行统一计算,

其中,记号1k,表示第k位为1、其他都为0的dmax维向量(即one hot向量)

如何求F1,F2?即求f̃ t和ĩ t(分别代表历史信息和输入信息的层级向量)

通过对onehot向量做近似表示即可

所以可以得到整个on-lstm公式

3.实验

语言模型

另外,对于预训练好的语言模型,输入一个句子,可以无监督的提取句子的层级树结构,例如


参考:苏剑林. (2019, May 28). 《ON-LSTM:用有序神经元表达层次结构 》[Blog post]. Retrieved fromspaces.ac.cn/archives/6

发布于 05-20

文章被以下专栏收录