播客笔记特别篇:费城76人的数据科学家如何看待追踪数据

播客笔记特别篇:费城76人的数据科学家如何看待追踪数据

靠安装在每一座NBA球馆顶端的高速摄像机来获取的追踪数据在联盟中已经兴起了六七年,并不算是什么新鲜事物了,但还是有很多球迷对它并不了解,而远在美国篮球业界对于这项数据本身的探索也远没有达到成熟的程度,无论是对现有追踪数据的进一步分析,还是尝试利用新技术拓宽可获取数据的边界,这项新兴数据的发展并没有停止。

最近,在76人工作的数据科学家Grant Fiddyment进行了一次小规模的客座演讲,介绍了关于追踪数据的方方面面,同时还分享了一些数据分析人员的工作内容。而我们的团队成员正好在现场,有了一次近距离和现役球队分析人员交流的机会,所以这是播客笔记的一期特别篇,不是通过网络面向广大球迷的播客,而是一次面对面交流的分享(虽然回答提问的环节内容很少)。

Grant Fiddyment 毕业于波士顿大学,拥有计算神经科学的博士学位,现担任费城76人分析


追踪数据的起源

和棒球在数据分析上领先于其他运动一样,追踪数据在大约15年前最早出现于棒球场上。如今当我们在ESPN上打开任意一场棒球比赛的play-by-play,可以看到里面不仅记录了该回合的结果,还包括诸如投手投出球的类型、球速以及击球位置等细节。这些数据的获取是靠安装在棒球场里的3台摄像机,它们可以捕捉比赛中球员和球的位置、移动等信息。当这些在过去需要依靠人力、耗费大量时间的信息可以轻易获取的时候,球队在比赛策略上可以分析的内容得到了极大的丰富。尤其是在防守端,例如当了解一名击球手击球方向的倾向之后,球队可以做出在策略上聪明的选择。

和绝大多数NBA球迷一样,Grant Fiddyment说自己知道篮球场上的追踪数据是因为Zach Lowe在2013年的一篇文章,这篇文章第一次向公众介绍了追踪数据这项新技术,同时展示了一些从猛龙队得到的分析成果示例。早在当时,猛龙就可以像下面这个视频演示的那样,通过分析追踪数据(也就是球员在比赛中任一时刻的坐标信息)来识别球场上的挡拆行为、防挡拆策略,甚至还能给出理想情况下防守球员“应该”出现的防守位置并判断该回合失分是谁的防守责任:

SportVU摄像追踪技术https://www.zhihu.com/video/1180044834844344320

白色是猛龙,蓝色是尼克斯,没有颜色的圆圈代表理想情况下防守方球员应该出现的位置,右侧的信息栏中展示了分析的结果

这篇文章写于2012-13赛季,当时联盟中只有15支球队从数据公司STATS(该公司今年已经和另一家公司合并,组建称为STATSPerform公司,本文仍简称为STATS)购买了摄像机设备,但并不是所有球队都能达到猛龙这样的分析水平。不过从2013-14赛季开始,STATS公司的SportVU摄像机系统就已经出现在每一座NBA球馆的顶端,所有球队都开始尝试挖掘追踪数据背后的价值。(目前,联盟的数据供应商已经更换为Sportradar和SecondSpectrum)

以76人为例,球队在追踪数据的分析甚至整个数据团队的建设上投入巨大,据报道球队每年在数据分析上花费超过300万美元。当时猛龙的数据分析主管Alex Rucker目前在76人担任球队的分析和策略副总裁,球队同时还雇用像Grant Fiddyment等在神经科学、数学、计算机科学等领域拥有博士学位的人才作为数据科学家。这些球队分析人员在追踪数据的探索上分工不同,有的人负责数据清理工作,有的人负责编写程序整合不同的数据源,Grant Fiddyment则会将自己在神经科学方面的知识应用于探索球员追踪数据上。相比于我们偶尔在ESPN文章中读到的关于追踪数据的零星片段,球队内部的工作更加深入。

追踪数据背后的价值

Boxscore如今已经过时的核心原因在于人们意识到,传统的基础数据并不能很好地记录比赛的过程,会遗漏大量重要的细节;尤其在防守端,用抢断盖帽来衡量防守非常片面,一个优秀的防守球员理论上可以没有抢断和盖帽,只需要在正确的时间出现在正确的位置上。而追踪数据正如上面的视频所展示的那样,几乎是还原了比赛的真实过程。

Grant Fiddyment举了两个案例来介绍追踪数据的应用。在进攻端,顶尖的无球射手和另一名球员做交叉跑位,两名防守球员全去扑往外线移动的无球射手,因此他的队友获得了篮下空切轻松上篮的机会。在类似回合的play-by-play中,无球射手完全没有出现在比赛记录中,但进攻得分却是源于他们创造出的机会,而这样的行为可以通过对追踪数据的分析量化。在更有应用价值的防守端,那些过去需要分析人员看录像手动记录的防守动作,比如二次换防,现在只需要数据分析人员写的几行代码便可以从球员的追踪数据中识别出来。和棒球一样,当球队“轻松”获得了这些统计出来的量化信息,就可以极大优化决策判断的过程。这只是追踪数据应用的冰山一角。

Grant在回答关于Hustle数据的提问时,认为这项数据的命名不够严谨,因为不同人对球场拼抢行为的理解并不相同。但球队在拥有追踪数据之后,可以定义具体的行为并从数据中获取答案:例如可以从数据中计算出球员拼抢地板球的跑动速度是多少。Grant还提到球迷对于谁是NBA中最快的球员有争论,通过追踪数据就可以对此有精确的回答。挖掘追踪数据的过程更像是面对一份比赛的真实记录,球队需要提出明确的球场问题,并从中得到相应的答案。但追踪数据也不是十全十美的。Grant说目前摄像机无法捕捉到球员的垂直位置、身体朝向以及肢体动作,这些信息点在分析进攻和防守时同样非常重要,是球队未来需要探索的方向。

追踪数据的发展

追踪数据蕴含巨大的分析价值,但其价格也是昂贵的。洛维在2013年的文章中介绍道STATS公司的SportVU摄像机系统每年的价格是10万美元,如今联盟新的数据供应商second spectrum提供的服务同样不菲。这点花费对于身价上亿的NBA老板们来说不值一提,但想要在NBA的人才储备库——NCAA的球馆里安装追踪摄像机却不太现实。Grant在讲座中也提到说,球队目前分析大学球员还是更多依靠传统的数据。

但这并不意味着想要获得NCAA比赛的追踪数据不可能。前文提到STATS公司目前已经不再为NBA提供追踪数据服务,他们将目光转向大学篮球市场,利用人工智能和计算机视觉等技术,实现了在仅依靠电视转播录像的情况下对球员追踪数据进行捕捉。该公司在2019年的MIT斯隆运动分析峰会上对这一数据进行了展示。

STATS Perform的转播录像追踪技https://www.zhihu.com/video/1180045109126713344


由于电视转播镜头的视角并不固定,所采集出来的数据准确度有多高不得而知,不少NBA管理层和教练接受采访时对此表示怀疑。但同时他们也承认,如果利用转播录像获取追踪数据是可行的,对选秀分析的价值将是巨大的。目前已经有第一个吃螃蟹的球队,魔术在今年2月和STATS公司达成合作,目前拥有STATS平台数据的独家访问权,可以利用这些数据来分析评估大学球员。魔术队今年的首轮秀Chuma Okeke在赛季前决定明年夏天再与球队签订标准新秀合同,因此本赛季我们似乎还无法检验魔术的选秀成果。或许在未来,随着更多深入的报道,我们可以看看STATS的这项技术效果如何。

数据科学家和教练组的紧密合作

在被问到教练组对于追踪数据的接受程度是如何的,Grant表示联盟中大部分教练都非常old-school。这一点在Zach Lowe当年的文章中也有印证,猛龙主教练凯西在接受采访时表示:“这些数据很好的证明了教练眼睛所看到的事情。但你不可能基于数据去做所有的决定。”当然也有像76人主教练布朗这样非常接纳数据分析思维的教练。数据分析团队会在每场比赛之前提供给教练组详细的分析报告,也有分析人员会在比赛中坐在板凳席,在必要时给出建议。Grant讲到,教练关心的重点是分析团队的工作是否能帮助到教练组,能在哪些方面提供价值。包括数据团队在整个球队当中的作用是让其他人的工作更加轻松,有时候球队分析人员甚至会编写程序帮助其他部门的同事摆脱费时费力的工作。

当然,在和教练组沟通的过程中,另一个重要的方面是持续良好的沟通(和播客笔记第二期中John Hollinger分享的一样)。Grant提到他的上司Alex Rucker非常善于和教练组沟通,这种沟通不仅限于提供信息,分析人员也会对比赛的基本内容提供见解。不过,沟通中也存在很多小细节、小技巧:尽量少给数字,给数字尽量不用小数点;用一些可视化技巧,比如利用颜色来强调突出;将一切建议的效果转化为胜场数“利用这种策略我们就能多赢xxx场比赛”等等。和教练组沟通的过程更像是做presentation,传达观点要简单明了。

目前76人的数据团队工作分为三个大方向,除了日常团队一起进行的基本工作之外,团队的不同人员会和教练组、球探部门以及训练团队分别合作,进行不同的项目。对于球队的整体运转来说,数据团队的工作可能只是冰山一角,有时候甚至很难评价分析部门的工作效果。但在目前联盟数据分析军备竞赛的趋势下,这样的投入是绝对值得的。

编辑于昨天 21:37

文章被以下专栏收录

    给你列一组有趣的数据,画一张好看的图表,讲一个新鲜的故事,关于NBA,关于篮球,关于反智主义有多蠢。