联合概率、边缘概率、条件概率

联合概率、边缘概率、条件概率

最近在看概率论和统计,因为自己迈进了机器学习的大门,概率论和统计的知识不得不补。讲到这儿,我想说真的想学点有用的知识不能以应试为导向,不然会被坑惨。我想很多人都身有体会,以前学过的概率论和线性代数压根就没有真正地去理解。而迈进机器学习的大门,正好是一个全新的开始,可以让我们用所学的知识真正地去发挥它的价值。

讲解这三个知识点我以上面这张图为引导(来源于《程序员的数学之概率统计》),现在我们要将它分成两个类别(数字牌和人头牌(X)、红色和黑色(Y))来统计它们所占的比例,其中的每一种分类都包含了整个样本整体,得到的统计表如下:

这其中我们可以看到:若按颜色划分类别 P(X=红色)( 9/16 ) + P(X=黑色)( 7/16 ) = 1,若按牌的类别划分 P(Y=数字牌)( 9/16 ) + P(Y=人头牌)( 7/16 ) = 1,而这两个分类其实是你中有我,我中有你,因为本身都在 16 张牌中,怎么分两个类别都会有交叉。

表格中的概率值很清晰地表达了 X 和 Y 的联合概率,所谓联合概率,就是既满足 X 条件,又满足 Y 条件的概率,两个条件的满足是站在同一起跑线的,同时它们所对应的包围圈(对于这样的一个包围圈,其中各类概率的总和为 1,而这个 1 所容纳的范围只是相对而言的)也是总体的 16 张扑克牌。

而对于条件概率,和联合概率就不一样了,首先它所对应的包围圈更为狭小,比如说 P(Y = 数字牌 | X = 红色) 这个条件概率所对应的包围圈只限定在 X=红色 这个圈中,而红色的牌只有 9 张,9 张牌中我再按照牌的类别进行划分,便得到 P(Y = 数字牌 | X = 红色) = 3/9, P(Y = 人头牌 | X = 红色) = 6/9。当你看到条件概率的公式: P(Y = b | X = a) = P(X = a, Y = b) / P( X = a),公式中的包围圈是 16 张牌这个整体。这只是分了两类,分成多类也是类似的道理。

边缘概率是相对于联合概率而言的,只是抹去了其中分类的数量,比如上面的例子,单一就从颜色的类别上说,P(X=红色) = 9/16 ,P(X=黑色) = 7/16,这就是边缘分布。 多个类别也可以以此类推。

讲的很浅显,若有不对之处,还请读者指正。后期会补充这其中和我接触的机器学习相关的知识,敬请期待。

发布于 2018-12-22