《用于槽填充和意图检测的slot-gates模型》阅读笔记
标题:《Slot-Gated Modeling for Joint Slot Filling and Intent Prediction》
来源:NAACL2018
原文链接:http://www.aclweb.org/anthology/N18-2118
方向:slot filling 、intent
声明:转载请注明出处:学习ML的皮皮虾
Intruduction:
基于Attention的RNN模型在联合意图识别(ID)和槽位填充(SF)上实现最好性能(其ID和SF的attention权重独立)。然而,其通过损失函数将两者关联只是隐式地关联。由于slot filling通常高度依赖于intent,因此本工作重点介绍如何通过引入插槽选通机制来模拟slot和intent向量之间的显式关系。本文提出slot gate结构,其关注于学习intent和slot attention向量之间的关系,通过全局优化获得更好的semantic frame。通过在ATIS和Snips数据集实验,相比于attention模型semantic frame准确率提升了4.2%。
创新点:
- 提出slot-gate方法实现了最好的性能表现。
- 通过数据集实验表明slot-gate的有效性。
- slot-gate有助于分析slot filling和intent的关系。
Model
底部特征:
使用BILSTM结构,输入:x={ }, 输出:
attention:
slot filling :对于slot filling,x映射到其对应的槽标签序列 。 对于每个隐藏状态
,我们通过学习的attention weight
计算slot上下文向量
作为LSTM的隐藏状态
的加权和:
σ:激活函数
:前馈神经网络的权重矩阵。
:计算的是
和当前输入向量
之间的关系
T是attention维度,一般和输入向量一致
slot 标签计算公式:
:输入中第i个字的slot标签
:权重矩阵。
:the hidden state
:slot上下文向量
intent:
:intent 上下文向量,计算公式和
相似
:权重矩阵
:the hidden state
Slot-Gated Mechanism
提出的Slot-gated模型引入了一个额外的gate,利用intent上下文向量来建模slot-intent关系,以提高槽填充性能。 首先,组合slot上下文向量 和intent上下文向量
以通过图3中所示的时隙门:
其中v和W分别是可训练的向量和矩阵。 在一个时间步骤中对元素进行求和。 g可以看作联合上下文向量(和
)的加权特征。
加入g:
为了比较slot gate的作用,本文还提出了一个只包含intent attention的slot gate 模型,其中(6)和(7)分别改为(8)和(9)(如图2所示)b)):
Joint Optimization
Experiment
为了评估所提出的模型,我们对基准数据集ATIS(航空旅行信息系统)和Snips进行了实验,该数据集是从Snips个人语音助手收集的,其中每个意图的样本数量大致相同。与单域ATIS数据集相比,Snips更复杂,主要是由于意图多样性和大词汇量。 统计数据见表1。
Conclusion
本文着重于通过在最先进的注意力模型中引入slot gate机制来学习显式slot关系,这允许slot filling可以以学习的intent结果为条件,以实现更好的slot filling。