AI机动队
首发于AI机动队
最大似然法与最大后验概率估计——深度学习花书第五章(三)

最大似然法与最大后验概率估计——深度学习花书第五章(三)

继续花书第五章总结,主要内容有最大似然法(Maximum likelihood estimation), 贝叶斯统计(Bayesian statistics)与最大后验概率估计(Maximum A Posteriori estimation简称MAP estimation)。

最大似然法

在上一部分 川陀学者:欠拟合、过拟合与正则化——深度学习花书第五章(二)里我们看到了几个经典的估计量(estimator),但是对于怎么得到这些估计量并没有解释,我们希望能够有一些能指导我们选择估计量的原理,最大似然法就是其中之一。

我们考虑从某个未知的数据生成分布 p_{data}(x) 中抽样了m个样本X=\left\{ x^{(1)},...,x^{(m)} \right\}。我们用 p_{model} (x;\theta) 来代表含有参数 \theta 的模型的概率分布,用来近似真实分布 p_{data}(x) 。则最大似然法要求 \theta 满足

通常,为了方便计算,我们又将其等价转化为对数形式:

进一步的由于argmax对于添加一个常量乘项不会给出不同的最合适的 \theta ,所以我们可以对其除以样本量m,得到其期望形式:

通过这个形式,我们可以理解为最大似然法就是为了要减小模型的概率分布 p_{model} (x;\theta) 与真实的概率分布 \hat p _{data}之间的差异,这个差异我们可以用概率论——深度学习花书第三章总结过的KL divergence来表示

KL divergence中第一项只与真实分布有关,和模型无关,所以当我们训练模型以使KL divergence最小化时,实际上就是求使交叉熵-E_{x\sim \hat p _{data}}log{{p_{model}(x)}}最小的 \theta ,而这实际上就是上面给出的 \theta _{ML}

我们还是用之前的线性回归问题机器学习问题定义与线性回归——深度学习花书第五章(一)作为例子说明最大似然法。之前的回归问题我们的目标设为减小均方差,但并没有解释为什么要这么做,这可以用最大似然法来理解。与之前对于某个x只预测单一的y值相比,我们这里将其看做y相对于x的条件分布问题p(y|x), 我们假设条件分布满足高斯分布 p(y|x) = N(y;\hat y (x;w), \sigma ^2 ) 其中 \hat y (x;w) 是高斯分布的平均值,假设均方差是固定的,则我们需要求使下式最大的参数:

由于前两项是常量,所以我们就是要求是最后一项最大化的参数,也即求

最小化的参数,可见由最大似然法所推导的目标与之前的减小均方差的目标是一致的。

贝叶斯统计

要注意,最大似然近似还是从频率统计的观点出发的,即估计一个单一的参数 \theta 值,并依据这一值做出预测。而从贝叶斯统计的角度出发,我们需要考虑所有可能的 \theta 值来做出预测。关于频率统计和贝叶斯统计及贝叶斯公式请回顾概率论——深度学习花书第三章

在我们观察数据前,我们假设有对于 \theta先验概率分布(prior probability distribution) p(\theta) ,通过我们的数据集观察 \left\{ x^{(1)},...,x^{(m)} \right\} ,我们可以得到受这些观察影响后新的后验概率分布(posterior probability distribution),由贝叶斯公式得到

通常我们可以将先验分布选为一些熵比较高的分布例如均匀分布或高斯分布,然后通过对数据的不断观测,减小后验概率的熵从而使其集中在比较可能的参数配置上。

与最大似然法仅用点估计做推断相比,在利用贝叶斯统计做推断时,我们需要所有可能的 \theta 值,即当我们已观察 \left\{ x^{(1)},...,x^{(m)} \right\} 需要推断新的样本 x^{(m+1)} 时,其概率表示为:

可以理解为所有可能的 \theta 都对最后的概率有贡献,并且其权重为相应的后验概率。

和频率统计相比较,频率统计通常用方差来衡量点估计的不确定性(欠拟合、过拟合与正则化——深度学习花书第五章(二)),方差代表了随取样变化预测的不确定性。而贝叶斯统计处理不确定性的方法是取全域的积分,能更好的阻止过拟合。对于样本量有限的情况,贝叶斯统计常常能进行更好的泛化,但对于样本量较大时,由于计算量过大而常常被弃用。

最大后验概率估计

由于贝叶斯统计需要对全域进行积分,有的时候很难实现,我们有时也采用点估计方法对后验概率进行估计,称之为最大后验概率估计(MAP estimation)。 与最大似然法不同的是,最大后验概率仍利用了贝叶斯统计中先验概率来影响最终的点估计,可用公式表达为:

第一项与最大似然法相同,是对数概率项,而最后一项即是先验概率项,我们通过先验概率可以影响最后的预测。一种应用是通过先验概率来进行正则化,例如对于线性回归问题,假如我们选取先验概率为相对于权重w的高斯分布形式为 N(w;0, \frac{1}{\lambda}I) 的分布,则先验概率项正比于对权重的惩罚项 \lambda w^T w ,即我们之前的防止过拟合的正则项,达到权重衰减的效果。


至此最大似然法,贝叶斯统计及最大后验概率估计总结完毕,下一篇总结经典的监督学习算法。

编辑于 2018-08-23

文章被以下专栏收录