《用于槽填充和意图检测的slot-gates模型》阅读笔记

《用于槽填充和意图检测的slot-gates模型》阅读笔记

标题:《Slot-Gated Modeling for Joint Slot Filling and Intent Prediction》

来源:NAACL2018

原文链接:aclweb.org/anthology/N1

方向:slot filling 、intent

声明:转载请注明出处:学习ML的皮皮虾


Intruduction:


基于Attention的RNN模型在联合意图识别(ID)和槽位填充(SF)上实现最好性能(其ID和SF的attention权重独立)。然而,其通过损失函数将两者关联只是隐式地关联。由于slot filling通常高度依赖于intent,因此本工作重点介绍如何通过引入插槽选通机制来模拟slot和intent向量之间的显式关系。本文提出slot gate结构,其关注于学习intent和slot attention向量之间的关系,通过全局优化获得更好的semantic frame。通过在ATIS和Snips数据集实验,相比于attention模型semantic frame准确率提升了4.2%。


创新点:

  1. 提出slot-gate方法实现了最好的性能表现。
  2. 通过数据集实验表明slot-gate的有效性。
  3. slot-gate有助于分析slot filling和intent的关系。


Model



底部特征

使用BILSTM结构,输入:x={ x_{1},x_{2}...x_{T} }, 输出: h_{i}=[\overrightarrow{h}_{i},\overleftarrow{h}_{i}]


attention:

slot filling :对于slot filling,x映射到其对应的槽标签序列 y=\left\{ y_{1}^{S},y_{2}^{S}...y_{T}^{s}\right\} 。 对于每个隐藏状态 h_{i} ,我们通过学习的attention weight \alpha_{i,j}^{S} 计算slot上下文向量 c_{i}^{S} 作为LSTM的隐藏状态 h_{1},...h_{T} 的加权和:


σ:激活函数

W_{he}^{S} :前馈神经网络的权重矩阵。

e_{i,k} :计算的是 h_{k} 和当前输入向量 h_{i} 之间的关系

T是attention维度,一般和输入向量一致


slot 标签计算公式:

y_{i}^{S} :输入中第i个字的slot标签

W_{hy}^{S} :权重矩阵。

h_{i} :the hidden state

c_{i}^{S} :slot上下文向量


intent:

c^{I} :intent 上下文向量,计算公式和 c_{i}^{S} 相似

W_{hy}^{I} :权重矩阵

h_{T} :the hidden state


Slot-Gated Mechanism


提出的Slot-gated模型引入了一个额外的gate,利用intent上下文向量来建模slot-intent关系,以提高槽填充性能。 首先,组合slot上下文向量 c_{i}^{S} 和intent上下文向量 c^{I} 以通过图3中所示的时隙门:

其中v和W分别是可训练的向量和矩阵。 在一个时间步骤中对元素进行求和。 g可以看作联合上下文向量(c_{i}^{S}c^{I})的加权特征。

加入g:

为了比较slot gate的作用,本文还提出了一个只包含intent attention的slot gate 模型,其中(6)和(7)分别改为(8)和(9)(如图2所示)b)):


Joint Optimization



Experiment

为了评估所提出的模型,我们对基准数据集ATIS(航空旅行信息系统)和Snips进行了实验,该数据集是从Snips个人语音助手收集的,其中每个意图的样本数量大致相同。与单域ATIS数据集相比,Snips更复杂,主要是由于意图多样性和大词汇量。 统计数据见表1。


Conclusion

本文着重于通过在最先进的注意力模型中引入slot gate机制来学习显式slot关系,这允许slot filling可以以学习的intent结果为条件,以实现更好的slot filling。

编辑于 2018-11-05

文章被以下专栏收录