随着信息技术的发展,NBA中的数据分析已经达到了很高的水平,球员、球队的各项数据都会被记录下来,也有更多客观的指标来衡量球队球员的水平,更加有可能准确的预测比赛的结果。
新赛季回顾
今天我们将利用历史数据来预测新赛季NBA球队的排名,我们收集的数据包括:
新赛季的赛程安排,球队球员及教练配置,球队基本数据以及2000年以来各个赛季的排名。数据来源于-,nba官网,stat-nba网站和。-,nba官网,stat-nba网站包含了丰富的球队基础数据和高级数据,包括各个赛季球队球员的薪资情况。
一
日程
2018-19赛季是连续第四年出现背靠背比赛场次创纪录的低点。本赛季,每支球队平均只进行13.3场背靠背比赛,比2014-15赛季(每支球队平均进行19.3场背靠背比赛)减少了31%。
二
薪水
各支球队的薪水都在逐年上涨,2000-2001赛季薪水最高的是波特兰开拓者队,年薪为美元,薪水最低的是洛杉矶快船队,年薪为美元。从新赛季目前公布的数据来看,薪水最高的是迈阿密热火队,年薪为美元,薪水最低的是纽约尼克斯队,年薪为美元。
三
年龄
各支球队的平均年龄在24岁至27岁之间,也就是说新赛季各支球队的球员都比较年轻,年龄差异最大的球队是达拉斯小牛队,年龄差异最小的球队是多伦多猛龙队。
四
辅导
经过休赛期的调整,9支球队更换了主教练,这给新赛季的预测带来了新的变数。这9支球队分别是:奥兰多魔术队、底特律活塞队、多伦多猛龙队、菲尼克斯太阳队、孟菲斯灰熊队、密尔沃基雄鹿队、纽约尼克斯队、夏洛特黄蜂队、亚特兰大老鹰队。
预测东西部联盟排名
一
数据描述
接下来我们利用2000年以来的历史数据来预测新赛季各支球队的排名,得到近20年来各支球队在各个赛季初的各项数据指标,主要有三类:
球员:球员平均年龄、球员年龄差异、全明星球员数量。
变量分析:众所周知,球员平均年龄是衡量一支球队竞技能力的重要指标,平均年龄过小的球队往往缺乏经验nba球员冠军次数排名,而平均年龄过大的球队则缺乏活力。同时,球队年龄的方差也可以用来衡量一支球队的年龄结构是否合理,最合理的球员结构一定是三代球员,既有老将,也有年轻球员,这样的球队往往实力很强。另外NBA毕竟是巨星的舞台,所以每支球队的全明星球员数量决定了球队的上限。
教练:教练常规赛胜率、教练季后赛胜率、教练总冠军数、最佳教练数。
变量分析:一支好球队必须有一名好教练。马刺的长期成功离不开波波维奇的伟大,所以我们将教练作为一个重要的参考维度。教练的经验和履历是一支球队在漫长的赛季中保持竞争力的重要条件。
球队:球队所在城市是否为大城市、球队的薪资总额及薪资占联盟薪资总额的比例、球队上赛季的排名、球队近三个赛季的平均排名、夺冠次数、进入总决赛次数。
变量描述:球队本身的文化底蕴和所在城市也对球队成绩有重要影响,球队近几个赛季的薪资总额和成绩也对球队新赛季的成绩有重要的预测作用。
二
预测模型
我们采用的方法是随机森林,是一种用多棵树来训练和预测样本的分类器。它的准确率很高,对于默认值也能取得很好的效果。在机器学习中,随机森林是一种包含多棵决策树的分类器,它的输出类别由各棵树输出的类别的众数决定。决策树相当于一个师傅,根据自己从数据集中学到的知识nba球员冠军次数排名,对新的数据进行预测。但俗话说,一个诸葛亮敌不过三个皮匠。随机森林是一种希望造出多个皮匠,并希望最终分类效果能超过单个师傅的算法。
随机森林的优点:
(1)可以获得高精度的预测结果。
(2)它可以处理大量的输入变量。
(3)自动确定各变量的重要性。
(4)在构建森林时,它可以内部产生广义误差的无偏估计。
(5)对于不平衡的分类数据集,它可以平衡误差。
(6)它可以扩展到适用于未标记数据,这些数据通常使用无监督方法进行聚类。
(7)学习过程很快。
预测结果
通过构建一个由 200 棵决策树组成的随机森林,我们得到了以下预测结果。
东部联盟球队排名预测
西部联盟球队排名预测
从预测结果来看,最终的预测排名与主流普遍预期还是比较一致的。根据历史数据,勇士和凯尔特人极有可能分列东西部榜首,这与我们大多数人的预期一致。值得注意的是,洛杉矶湖人队不幸排在预测结果的末尾,克利夫兰骑士队则排在第三位,这显然与大多数人的预期不一致。这是因为数据分析只能从数据中得出结论,更多的是基于历史数据的统计推断。我们的模型没有考虑到“小皇帝”詹姆斯的巨大影响力,这也是数据分析的最大难点。
不过,我们也得到了一些让人眼前一亮的结果,虽然太阳队在17-18赛季的表现并不是很理想,但是太阳队在新赛季的预测中进步还是很明显的,这要归功于太阳队中拥有很多潜力十足的年轻球员。另外,也有一些球队的预测结果和实际预期相差较大nba球员冠军次数排名,说明我们的模型需要进一步优化。
此外,我们还得出了一些有趣的结论。东西部球队都是用同一个模型进行预测,但从结果来看,东部球队的排名权重大于西部球队。我们用东部球队的排名权重减去西部球队的排名权重(权重越低,排名越高),发现从第一名到第十五名,大部分都是大于0的,说明西部球队整体表现更佳,竞争也会更加激烈,这也符合NBA西强东弱的主流观点。
模型改进:在新模型中,我们增加了球队近几个赛季表现的权重,同时考虑了詹姆斯等巨星的影响,以及教练更换、球队间交易等因素,并统计分析了这些因素对排名权重的影响,对模型进行了修正。
修正预测结果
东部联盟球队排名预测
西部联盟球队排名预测
预测结果毕竟是基于历史数据,体育竞技的魅力就在于不确定性,伤病因素、球队磨合、球队更衣室文化、年轻球员的成长等也是重要的影响因素,但这些都很难用数据量化,所以我们的预测只是一个参考。
没想到数据分析这么有趣?