加密哥
首发于加密哥
机器学习【初探建模那些事儿】(一)

机器学习【初探建模那些事儿】(一)

(一)模型是怎么工作的

我们会大致的介绍机器学习是怎么工作的以及如何使用这些模型。如果你学习过统计建模或者机器学习相关的课程,你会觉得有些简单。别担心,我们后面会有深入的课程

这个微课堂会让你基于以下情景建模:

你的堂弟炒房赚了数百万美元,他想找你合伙,他来提供资金,你会提供预测各种房屋价值的模型。

你问你的堂弟他过去如何预测房地产价值。他说以前只是直觉,但是他发现了一些价格模式,他正在考虑利用这些模式来对新房进行预测。

机器学习的工作方式是类似的,我们将从一个叫决策树的模型开始,更高级的模型可以提供更准确的预测,但是决策树很容易理解,它是数据科学里一些最佳模型的基本构建模块。

为了简单起见,我们将从最简单的决策树开始

它将房屋分为两类,任何房屋的预测价格是同一类房屋的历史平均价格。

我们使用数据来决定将房屋分成两组,然后再次确定每组的预测价格。从数据获得模式的这一步骤称为拟合或者训练模型,用于拟合模型的数据称为训练数据

模型如何拟合里有很多细节(例如,如何分割数据),非常复杂,我们将在后面涉及。在模型被训练以后,你可以将模型用于使用新数据来预测其他房屋的价格

(二)改进一下决策树

以下两个决策树哪个更像真实训练数据拟合的?

左边的决策树可能更有意义,因为它捕捉了这样一个现实:拥有更多卧室的房屋往往比卧室更少的房屋价格更高

这种模式的最大缺点是它不能捕捉影响房价的大多数因素,如浴室数量,批量,位置等。

你可以使用具有更多“拆分”的树来捕获更多因素。 这些被称为“更深”的树。决策树也考虑每个房屋的总大小可能如下所示:

你可以通过在决策树中进行追踪来预测任何房屋的价格,并始终选择与该房屋特征相对应的路径。 房子的预测价格位于树的底部。 我们进行预测的底部点称为叶子。

叶子上的分割和值将由数据确定,因此你需要查看将要使用的数据。

原文链接:机器学习【初探建模那些事儿】:1.开篇

编辑于 2020-02-07

文章被以下专栏收录