AI机动队
首发于AI机动队
表示学习——深度学习第十五章

表示学习——深度学习第十五章

这一章聚焦表示学习(Representation Learning)及其应用,主要内容有无监督及有监督预训练的作用,迁移学习及分布式表示。在前言部分(机器学习的《易筋经》:深度学习花书前言(上))提到过,机器学习的主要问题就是如何更合理高效的将特征表示出来。那么,我们怎么判定某种表示更好呢,这需要具体问题具体分析,这通常依赖于后续的学习任务是否能够得益于这种表示。通常,我们是进行某些无监督学习提取出特征,而这些特征可用来我们更好的进行监督学习,或者将这些特征迁移到其他相关任务中。我们也可以将监督学习训练的前馈神经网络看做是一种表示学习,通常神经网络的最后一层是个分类器如softmax,它之前的隐藏层可以看做是给这个分类器提供一个高效的表征。

在深度学习的再次兴起中,贪心逐层无监督预训练(Greedy Layer-Wise Unsupervised Pretraining)作为无监督学习的代表起了重要的作用,这其中包括了RBM(restricted boltzmann machine),单层自编码器,稀疏自编码器等等,它可以通过无监督学习得到输入数据的分布,常常用来提供神经网络的合理的初始值设置。一个常用例子是word embedding,如果我们仅仅用one-hot encoding即用某个元素上为1其他元素为零的向量来表示所有单词的时候,所有的单侧的距离都是相同的 \sqrt{2} ,而我们用word embedding将其映射到新的空间,令词义更相近的单词靠得更近,如下图所示。如果我们有某些字符串类型的数据,则利用word embedding可以更有效的表示数据之间的关系。

当然,随着深度学习的发展,无监督预训练重要性逐渐下降,除了自然语言处理外,在其他应用场景如图像识别渐渐被监督预训练所取代,即利用某些在大量有标记图像数据下学习到的公开的较好的配置来初始化我们具体问题的模型。

迁移学习(Transfer Learning)指的是我们将在某种设置下学习到的知识迁移到一个新的领域中,这有点类似于我们人类举一反三的能力。其基本思想是对于某类任务,其输入或输出遵循一定的基本的共通的规律,学习其中一个则其他任务也可以受益。其中极端的例子是zero-shot learning,即在没有相应的具有标记的数据的情况下进行学习,例如在机器翻译中,假如我们想将X语言中的单词A翻译成Y语言中的单词B,而我们并没有直接的将X中A对应到Y中B单词的训练数据,但我们之前已经得到了A在X中的表征,B在Y中的表征,假如我们学习过X与Y的表征空间的映射(例如我们只需要一些X和Y中哪些句子是成对的数据而不需要单词一一对应的数据即可学习这种映射),则我们可以推断A的对应的翻译B。

分布式表示(Distributed Representation)指的是我们希望学习到的表示是由各个相互独立的基本元素组成的,这样我们可以高效的将空间进行分割。例如如下图中人脸的表示,我们可以学习独立的特征如是男性还是女性,戴眼镜还是不戴。这样分布式表示的好处是我们并不需要数据中囊括所有元素的所有的组合如我们并不需要戴眼镜的女性的训练数据,而且我们可以通过这些基本元素合成新的数据。

不可否认的是,之前很多的无监督学习方法有一定的局限性,比如我们常常需要设定特定的优化目标,比如均方差尽量小,这决定了哪些特征可以是显著的特征而忽略了其他特征。例如图像合成领域某些局域的对比度变化不高的图案会被忽略掉。所以Ian提出了生成对抗网络(Generative Adversarial Network)简称GAN,这个在第20章会详细总结,其基本思想就是我们训练生成模型取欺骗另一个分类器,而分类器则是尽量提高能区分出我们的生成模型与真实的训练数据的准确度。这样两个模型都不断改进,并且能提取所有的关键信息而不产生遗漏。如下图中所示,采用均方差为训练目标的传统无监督学习的合成图像会丢失掉耳朵的信息,而GAN合成的图像则可以以假乱真。

最后,回到最初的问题,我们怎样判定某种表示优于另一种表示呢?这里总结一些大致的指导思想,当然具体问题还需要选取合适的判定条件:

  • 平滑性。即对于输入的微小变化,输出不受影响,我们可以比较容易的从训练数据推广到与它们相邻的数据。
  • 线性。即假定某些变量是线性相关的,这样我们可以利用已有数据延展到分布较远的数据,当然这一点不一定适用所有问题。
  • 影响因素独立性。这样我们就可以将概率分布简单的分解为若干更基本的概率分布的乘积 P(h)=\prod_{i}P(h_i)
  • 等级性,即我们可以不断的从简单的概念逐级叠加成更复杂的结构。
  • 不同任务间的基本因素的可共享性。
  • 特征在时间空间变换上的缓慢性。例如前面的慢特征分析模型(线性因子模型——深度学习第十三章)。
  • 稀疏性,即只有少数重要的特征。

总结一下,合理的特征表示是机器学习的核心思想之一,怎样使知识迁移,使机器能像人类一样自然地学习,也是比较活跃的研究课题之一。


注:截图均来自Ian Goodfellow等合著的Deep Learning一书,推荐阅读原书。

编辑于 2018-10-09

文章被以下专栏收录