智能单元
首发于智能单元
最前沿:基于GAN和RL的思想来训练对话生成,通过图灵测试可期!

最前沿:基于GAN和RL的思想来训练对话生成,通过图灵测试可期!

PS:本文分析略深,需要一定的RL和GAN的基础。

前两天,Stanford的NLP小组出了一篇神经网络对话生成的论文:

原文链接:arxiv.org/pdf/1701.0654

标题就是使用对抗学习来做神经对话生成。

这个idea非常的赞!在我看来是通往图灵测试的正确一步。

以前的对话生成,我们使用Seq2Seq的监督学习,其实也就是模仿学习。但是模仿学习的问题是神经网络的理解能力有限,训练样本有限,只能生成一定程度的对话。

那么,有没有可能让计算机真正理解对话的意思,然后自己学会对话呢?

有了深度增强学习,有了AlphaGo大家可以知道这是可能的。事实上这篇论文的作者Jiwei Li之前的一篇文章就是用深度增强学习来做对话生成。

但是使用深度增强学习最大的问题就是需要有reward。没有reward没法训练。

但是怎么定义一个对话的reward呢?好困难,有太多评价标准。但是有一个标准是绝对的,就是图灵测试的标准。只要这个对话看起来像人说的就行了。

这就不得不联系到了GAN生成对抗网络。把GAN中的分类器用来对对话做分类就行了。这样训练出来的分类器可以一定程度上判断计算机生成的对话与人的对话的差距。而这个差距就是reward

这篇文章可以说把DRL和GAN的思想很好的结合起来并应用在对话生成问题上,也取得了比较好的效果。相信在这个方法的基础上进一步发展,比如改进网络结构,将对话拓展到段落,更多的训练等等。也许3-5年图灵测试就真正通过了,而这一次,是机器自己真正学会了交流!


PS:本文同步发于“智能单元”微信公众号,欢迎大家关注,第一时间获取通用人工智能原创资讯!

编辑于 2017-01-26

文章被以下专栏收录

    面向通用人工智能和机器人学习,聚焦深度增强学习,可微神经计算机和生成对抗模型。