随机森林的泛化能力你给说说?

随机森林的泛化能力你给说说?

面试中问到随机森林模型都会说到模型的泛化能力比较好,但是为什么比较好呢,笔者在面美团的时候被问到,当时说的是因为随机森林的采样在样本随机性以及特征随机性上的随机保证了泛化能力,但是这样为啥就能保证泛化力好呢?能否有啥理论上的推导了,这.....我还真的一脸懵比~~~


在BREIMAN于2001年的文章【1】中有提到过,随着决策树目的增加,随机森林会收敛到一个极限误差值 [This result explains why random forests do not overfit as more trees are added, but produce a limiting value of the generalization error.] 论文在这里,论文的末尾有证明。

表示看到公式很晕,能不能直接解释一下,省的自己还得看论文,对此我在国内看了一篇文章【2】中介绍的是,随机森林的泛化误差界与单个决策树的分类强度 \[s\] 成负相关,与决策树之间的相关性 \[\bar \rho \] 成正相关,分类强度 \[s\] 越大且相关性 \[\bar \rho \] 越小,泛化误差界越小,可以看到随机森林中的随机性可以保证 \[\bar \rho \] 越小,如果每棵树的 \[s\] 越大的话,泛化误差会收敛到一个small界,这个界当然越小越好,就是泛化误差越小。

知乎上也有一些人在讨论,可以看看下文中的链接。

【1】Breiman L. Random forests[J]. Machine learning, 2001, 45(1): 5-32.
【2】董师师, 黄哲学. 随机森林理论浅析[J]. 集成技术, 2013 (1).
请问随机森林为什么不会过度拟合?
【scikit-learn文档解析】集成方法 Ensemble Methods(上):Bagging与随机森林


笔者虽然只是一些问题的搬运工,但是笔者才疏学浅呀,具体需要对问题进行深入的小伙伴还望自己阅读相关文献,这里只是提出一些问题,以便于面试时问到,如果内容有一些错误,还望批评指正~~~~

编辑于 2017-11-04

文章被以下专栏收录

    本专栏主要分享常见的机器学习&深度学习面试题,当然也会包括一些如推荐系统、NLP其它涉及到机器学习&深度学习领域的面试题等,一起学习,共同进步!