利用机器学习预测足球比赛

准确地讲,本文并非是在预测足球比赛,而是“事后诸葛亮”,通过对比赛各项数据统计与比赛结果进行分析,找出对比赛结果影响最大的因素。这样的分析旨在为真正的预测做些准备。

本文利用机器学习中的监督学习来回答以下问题:

  • 足球比赛的数据统计可以在多大的程度上对应比赛结果?
  • 哪种足球数据统计与比赛结果最为相关?比如,我们是否应该关注控球率?

详细数据分析过程(含代码):利用机器学习预测足球比赛


足球比赛的数据统计可以在多大的程度上对应比赛结果?

主要模型结果总结如下:

最好的模型预测准确率在56~58%左右。足球比赛因为有胜平负三种结果,要想准确预测非常困难。


哪种足球数据统计与比赛结果最为相关?

射门数。由下图可以看到,在泊松回归模型中,与主队进球数最相关的是主队射门数,射门越多,进球越多。这样的结果符合预期。

需要注意的是主队传中数。传中次数在所有数据中对比赛结果的影响排在第二,仅次于射门,高于控球率、角球等等大家非常熟悉的数据。然而截止到2018年,传中次数也并没有作为一个主要的数据被拿来进行报道和讨论。

更出人意料地是,传中次数对球队进球的影响是负的,而不是正的。这意味着,传中越多,进球越少。

主队控球率与进球数有一定的关联,但与前两者相比并不明显。

另一方面,与客队进球数最相关的数据是客队射门数,射门越多,进球越多。其次是客队传中数,传中数越多,进球越少。而客队控球率与进球数的关联就微乎其微了。

如何理解传中与进球之间的关联性?

上面的结果显示,主队传中数越多,主队的进球数就越少。那么,这是否意味着,主队要想多进球,只要尽量不传中就可以了呢?

事实上,并没有这样的结论。这是非常需要注意的一点,也是很容易犯的错误。监督学习这一数据分析工具只能对不同变量之间的相关性进行分析,而无法验证其中的因果关系。传中数与进球数相关,并不意味着传中与进球就有着必然的因果关系。监督学习无法说明传中是如何影响进球的。

这里提一种观点:传中数其实可以看做是反映对手防守质量的一个指标。传中数越多,表示对方的防守越好,本方很难直接打入对方腹地,只能通过传中这样的手段来进攻。

传中数对比赛结果的影响并不只在本文的数据上成立,本人使用另外的数据源也能得到同样的结论。除此之外,这篇论文也有同样的结论。

在梯度提升模型和随机森林模型中也有类似的结论(见下图)。

鉴于传中次数对比赛结果的影响,这一数据需要在比赛转播和赛后数据统计中有所体现。

发布于 2018-12-21

文章被以下专栏收录