贝叶斯估计

贝叶斯估计

  最近在看有关贝叶斯估计的东东~总结了三篇有关贝叶斯估计、Beta分布狄利克雷分布等的文章。真的很感谢网上的优质博客和回答,踩在了巨人的肩膀上才能看得更远~路过的看官欢迎批评指正~

1.介绍

  在概率论与数理统计领域中,对于一个未知参数的分布我们往往可以采用生成一批观测数据、通过这批观测数据做参数估计的做法来估计参数。最常用的有最大似然估计(MLP)、矩估计、最大后验估计(MAP)、贝叶斯估计等。

  MLP通过最大化似然函数 L(\theta|D) 从而找出参数 \theta ,思想在于找出能最大概率生成这批数据的参数。但是这种做法完全依赖于数据本身,当数据量大的时候,最大似然估计往往能很好的估计出参数 \theta ;但是当数据量小的时候,估计出来的结果并不会很好。就例如丢硬币问题,当我们投掷了5次,得出了正正正正正的结果,极大似然估计会得出投出正面的概率为100%!这显然是不符常理的。

  贝叶斯派的人认为,被估计的参数同样服从一种分布,即参数也为一个随机变量。他们在估计参数前会先带来先验知识,例如参数在 [0.5,0.6] 的区域内出现的概率最大,在引入了先验知识后在数据量小的情况下估计出来的结果往往会更合理。

2.MAP与贝叶斯估计

  MLP认为参数是一个常数,希望能找出最大化产生观测数据的参数,即:

\theta^*=argmax_{\theta}L(\theta|D)=argmax_{\theta}P(D|\theta)=argmax_{\theta}\theta^{m_h}(1-\theta)^{m_t}\\

  贝叶斯派认为参数是一个随机变量,对它做估计就是计算其后验概率分布 P(\theta|D) ,我们借助贝叶斯公式展开有:

P(\theta|D)=\frac{P(D|\theta)P(\theta)}{P(D)}\\

其中 P(D) 可当成是常数,因此可以有:

P(\theta|D)\propto P(D|\theta)P(\theta)\\

其中 P(\theta) 为参数服从的分布,即先验知识。

  接着我们可以有两种做法:

  • 最大后验估计(MAP):找出最大化后验概率的参数 \theta^*=argmax_{\theta}P(D|\theta)P(\theta) ,预测阶段,借助参数做预测: P(X^{new}|\theta^*,D)
  • 贝叶斯估计:借助先验分布 P(\theta) 与观测数据得到的 P(D|\theta) 得出后验分布 P(\theta|D) ,预测阶段借助后验分布有 P(X^{new}|D)=\int P(X^{new},\theta|D)d\theta=\int P(X^{new}|\theta,D)P(\theta|D)d\theta

3.三种参数估计方法对比

  无论是MLP还是MAP,目的均在于找到最优的 \theta ;但是贝叶斯估计目的在于找到后验分布,并利用后验分布做群体决策。

  更具体地,做参数估计的最终目的都是在于借助估计的结果做下一次的预测,参数可取的范围很大,可能有 \theta_1,\theta_2,\cdots,\theta_m 等,三种估计方法的区别如下:

  • MLP是从这么多参数中,找到表现最好的参数 \theta^* (最可能生成观测数据的那一个参数),并借助该参数做预测。目标式子: \theta^*=argmax_{\theta}L(\theta|D) ,预测阶段: P(X^{new}|\theta^*)
  • MAP带有一定的观点(先验知识),他知道这些参数之前的表现如何,故它找到的是综合以前的评价与当前表现最好的参数 \theta^* ,并借助该参数做预测。目标式子: \theta^*=argmax_{\theta}P(\theta|D) ,预测阶段: P(X^{new}|\theta^*)
  • 贝叶斯估计同样带有一定的观点,但是它做预测时是用所有参数共同决定,只不过每个参数会各有权重( P(\theta|D) ),权重是以前的评价与当前的表现的综合。目标式子:得到 P(\theta|D) ,预测阶段: P(X^{new}|D)=\int P(X^{new}|\theta,D)P(\theta|D)d\theta .

可以看出贝叶斯估计会比其他两种方法要复杂,在观测数据足够多的情况下,先验知识会逐渐减弱,MAP会逐渐近似于MLP。

参考:

1. 《贝叶斯引论》(Introduction to Bayesian Networks) 第7.3节

2. 李文哲:机器学习中的MLE、MAP、贝叶斯估计

3. 什么是狄利克雷分布?狄利克雷过程又是什么?

4. blog.csdn.net/baimafuji

5. 贝叶斯估计、最大似然估计、最大后验概率估计

传送门

Beta分布与贝叶斯估计:zhuanlan.zhihu.com/p/72

狄利克雷分布与贝叶斯估计:zhuanlan.zhihu.com/p/72

编辑于 2019-08-01