NBA球队实力聚类分析.doc_第1页
NBA球队实力聚类分析.doc_第2页
NBA球队实力聚类分析.doc_第3页
NBA球队实力聚类分析.doc_第4页
NBA球队实力聚类分析.doc_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

北京航空航天大学应用数理统计论文NBA球队实力的聚类和判别分析摘 要:本文运用SPSS软件对NBA30支球队的实力进行了聚类分析,根据本赛季30场常规赛的数据将它们分为4类。并在此基础上建立了判别函数方程,对30支球队所属类型进行交叉验证判别分析,结果与聚类分析结果基本一致。关键词: SPSS,NBA,聚类分析,判别分析1.引言NBA是世界上最顶级的篮球联赛,美国四大职业体育联赛之一。NBA是社交媒体上最受欢迎的体育联盟,联盟、球队以及球员的社交媒体平台拥有超过6亿的关注人群和粉丝。NBA共有30支球队,东西部各15支,每支球队都要经历82场常规赛,之后东西部各前8名球队还要进行季后赛的比拼,直到决出冠军。本赛季每支球队都已经打了30场常规赛,球队战绩与上赛季相比也有较大变化。本文通过对30支球队的30场常规赛数据进行分析,对球队实力进行分类,对于球迷了解球队实力、预测比赛结果和季后赛席位有很好的参考价值。聚类分析是多元统计分析中研究样本或指标的一种主要的分类方法,其基本思想是把所有待分类事物各自看成独立的一类,求出两两之间的亲疏指标值,把关系最为亲密的两类合并成一个新类,然后计算新类与原有各类之间的亲疏指标值,再把其中关系最为密切的两类合并如此反复进行,直到最终所有待分类事物合并成一个大类为止。样品数据之间的亲疏程度主要通过样品之间的距离、样品间的相关系数来表示。根据不同的距离定义方法可以测算出定义在P维空间上样本之间的距离,并根据此距离来度量样本之间的相似程度。聚类分析直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类。判别分析则先根据已知类别的事物的性质,利用某种技术建立函数式,然后对未知类别的新事物进行判断以将之归入已知类别中。2. 解决问题的方法和计算结果2.1 数据收集本文采取的数据来源于新浪官网的NBA球队数据库。选取30支球队的一些数据统计作为聚类分析的依据。这些统计包括投篮命中率、三分球命中率、总篮板数、助攻数、抢断数、失误数、犯规数、得分和失分以及净胜分十项指标,具体数据见表2-1。表2-1 2014-2015赛季NBA球队常规赛数据统计球队名称投篮命中率X1三分命中率X2总篮板X3助攻X4抢断X5失误X6犯规X7得分X8失分X9净胜分X10热火46.20%35.60%35.919.88.714.420.694.597.7-3.2尼克斯44.80%35.30%39.421.27.114.822.794.6101.4-6.8雄鹿46.40%36.40%40.422.79172399.3100.1-0.8快船47.20%38.30%40.624.47.712.621.1106.3101.15.2老鹰46.70%37.30%40.725.78.514.718.7101.997.34.6骑士46.20%34.70%40.822.77.113.718.1102.299.42.8魔术45.60%37.70%4119.86.614.920.893.999-5.1森林狼43.50%33.20%41.322.49.115.320.798.5109-10.5猛龙46.40%36.80%41.421.17.411.622108.5100.18.4爵士45.60%33%41.620.16.214.818.896.1100.2-4.176人41.20%29.60%41.819.910.118.92290.8102.6-11.8篮网44.70%33.50%41.820.8714.720.396.599.1-2.6黄蜂43%32.40%4220.55.511.218.695.7100.2-4.5小牛47.70%35.20%42.123.3812.420.3109.5103.26.3灰熊46.30%35.50%42.222.78.112.219.8102.397.64.7太阳45.80%36.90%42.3218.315.122.4105.7103.72湖人43.60%35.70%42.620.57.612.321.8102.3109.2-6.9鹈鹕45.70%33.40%42.921.77.612.219.6101.6102-0.4奇才47.20%39%43.425.1814.222100.596.63.9凯尔特人46%32.40%43.525.58.415.221103.3104.4-1.1马刺46.70%38.20%44.224.47.51519.7102.898.93.9国王46.10%34.30%44.7206.216.322.6102.6103.9-1.3火箭42.80%34.50%44.8209.117.323.3100.997.33.6活塞41.90%34.10%44.820.57.313.62095.5100.7-5.2勇士47.90%37%45.225.78.91620.1107.498.78.7步行者43.10%33.40%45.320.75.714.321.294.798.5-3.8公牛45.80%36.50%45.5225.714.719.1103.598.74.8掘金43%31.70%4620.76.814.924101.5104.3-2.8雷霆44.40%32.40%46.319.66.715.322.99896.11.9开拓者45.40%37.80%46.623.16.814.119.710496.57.52.2 聚类分析进入SPSS17.0分析程序,选择AnalyzeClassifyHierarchical Cluster,进行系统聚类分析(Hierarchical Cluster Analysis),采取对个案进行聚类,即Q型聚类分析。聚类方法使用Wards Method,距离测量技术选择Euclidean distance(欧氏距离),得出以下计算结果。 表2-2为分层聚类分析的聚类过程表。表中第一列表示聚类分析的步骤。第二列和第三列表示该步聚类分析中,哪两个样本聚成了一类;如:第一步显示第8和9两个样本聚成了一类,第七步显示样本16和样本18和第3步聚类形成的新类进行了聚类,依次类推,聚类过程共进行了29步,所有的样本聚成了一大类。第四列表示两个样本间的距离,从表中可以看出,距离小的样本之间先聚类;第五和第六列表示某步聚类分析中,参与聚类的是样本还是类,0则表示样本,数字n(非零)表示第n步聚类产生的类参与了本步聚类;第七列表示本步聚类结果在下面聚类的第几步中用到。表2-2 群组成员聚类过程表聚类表阶群集组合系数首次出现阶群集下一阶群集 1群集 2群集 1群集 21892.0640012224252.8050020318193.607007413223.75100105563.8820015627303.905009716184.23703178244.6170012927295.07560171013175.62640141112266.591002112286.60081191315216.78500231413286.9541002015578.08450191610148.58400231716278.61079221811208.7960026192510.05812152520132410.3471422221122311.6291102422131611.70420172423101511.97916132524121314.6492122272521016.7111923262621120.1712518272721222.454262428282323.65927029291244.7540280得到的使用Ward联结的树状图如图2-1,该图较好地反映了各球队类型之间的关联。图2-1 树状图上面的树状图清晰地表示了聚类的全过程。用逐级连线的方式连接性质相近的个案和新类,直至并为一类。经过SPSS软件处理,我们选择的分类范围最小为3类,最大为5类,分组结果如表2-3所示。 表2-3 群集成员(3类到5类)群集成员案例5 群集4 群集3 群集1:76人 1112:魔术 2223:热火 3334:尼克斯 2225:步行者 2226:活塞 2227:黄蜂 2228:爵士 2229:篮网 22210:雷霆 22211:森林狼 42212:雄鹿 54213:奇才 54214:火箭 22215:掘金 22216:鹈鹕 54217:老鹰 54218:骑士 54219:灰熊 54220:湖人 42221:国王 22222:马刺 54223:凯尔特人 54224:公牛 54225:开拓者 54226:太阳 54227:快船 54228:勇士 54229:猛龙 54230:小牛 542由聚类分析Ward联结树状图以及群集成员分类表可以看出,我们可以将NBA球队按实力分为4类比较合理,具体见表2-4。表2-4 分类结果类别球队第一类76人第二类魔术、尼克斯、步行者、活塞、黄蜂、爵士、篮网、雷霆、森林狼、火箭、掘金、湖人、国王第三类热火第四类雄鹿、奇才、鹈鹕、老鹰、骑士、灰熊、马刺、凯尔特人、公牛、开拓者、太阳、快船、勇士、猛龙、小牛第一类里面只有76人一个队,这是因为76人队的投篮命中率、三分命中率、场均得分、净胜分都是联盟最低,助攻数也很低,而且失误数为全联盟最高。这与目前76人联盟垫底的排名相符,76人也是唯一彻底摆烂的球队。第二类中的球队投篮命中率较低而失误较多,场均净胜分也均为负值。这些球队中除了火箭之外,其余球队的排名在联盟中都比较靠后,这一类球队是联盟中实力较弱的球队。火箭战绩高居西部第四,但是却被归为实力较弱的一类,这主要是由于火箭的场均失误较多,为联盟第二;场均犯规也很多;且投篮命中率较低,仅仅强于76人和活塞。而火箭战绩出色的原因主要是火箭的进攻节奏很快,进攻回合数多,且火箭是联盟罚球次数最多的球队,所以得分能力并不差。第三类球队只有热火一支球队,这是因为热火的场均篮板是联盟最少,且比倒数第二的尼克斯队少了足足4个篮板,助攻数也不多,进攻乏力让热火得分仅仅高于76人和魔术队。但是热火的排名位于联盟中游,在东部排到第七,这是因为热火队在抢不到篮板的情况下依然将对手得分控制在97.7分,这是很难做到的,这是靠每个人的积极防守做到的。热火这赛季遭遇了伤病困扰,相信如果没有伤病,在如此防守质量下,球队的成绩定能更进一步,成为联盟前几的队伍。第四类球队包含了除火箭外联盟中排名靠前的队伍。这些球队篮板、助攻、场均净胜分都排在联盟前列。排名相对靠后的凯尔特人队也进入了这一类,这是因为该队的各项统计均达到了该类的平均水平,助攻/失误比控制的也不错。球队战绩不理想的原因主要是失分太高,这可能是由于队员防守不积极造成的,而这在数据统计中并不能直观反映。2.3 判别分析判别分析是在已知分类数目的情况下,根据一定的指标对不知类别的数据进行归类。它是判别样品所属类型的一种统计方法。其主要原理是利用原有的分类信息,得到体现这种分类的函数关系式(称之为判别函数,一般是与分类相关的若干个指标的线形关系式),然后利用该函数去判断未知样品属于哪一类。因而是个学习和预测的过程。我们常用的判别分析方法有距离判别法、费歇尔判别法和贝叶斯判别法等。这里采用的是Fisher 判别法,这种方法是以Fisher 准则为标准来评选判别函数的。所谓Fisher 准则,指的是较优的判别函数应该能根据待判对象的n 个指标最大限度地将它所属的类与其他类区分开来。选用SPSS 19.0软件中的判别分析方法(AnalyzeClassifyDiscriminant),将各地区按聚类结果进行分组记为group,选用逐步判别法(Use stepwise method),即按照所指定的纳入/排出标准,以此引入和剔出变量,直到方程稳定为止。选用Bayes判别准则的Fishers判别函数。选择逐步判别分析时所用的拟合方法为WilkLambda 法(该统计量为组内离差平方和与总离差平方和的比值)。本文选用Fisher判别法构造判别函数。由于选取的影响因素(自变量)间可能存在不同程度自相关性,所以采用逐步进入法来进行判别分析。使用SPSS,分析结果如下:表2-5 分析案例处理摘要分析案例处理摘要未加权案例N百分比有效30100.0排除的缺失或越界组代码0.0至少一个缺失判别变量0.0缺失或越界组代码还有至少一个缺失判别变量0.0合计0.0合计30100.0表2-6 组统计量组统计量Average Linkage (Between Groups) 有效的 N(列表状态)未加权的已加权的1投篮命中率X111.000三分命中率X211.000总篮板X311.000助攻X411.000抢断X511.000失误X611.000犯规X711.000得分X811.000失分X911.000净胜分X1011.0002投篮命中率X11313.000三分命中率X21313.000总篮板X31313.000助攻X41313.000抢断X51313.000失误X61313.000犯规X71313.000得分X81313.000失分X91313.000净胜分X101313.0003投篮命中率X111.000三分命中率X211.000总篮板X311.000助攻X411.000抢断X511.000失误X611.000犯规X711.000得分X811.000失分X911.000净胜分X1011.0004投篮命中率X11515.000三分命中率X21515.000总篮板X31515.000助攻X41515.000抢断X51515.000失误X61515.000犯规X71515.000得分X81515.000失分X91515.000净胜分X101515.000合计投篮命中率X13030.000三分命中率X23030.000总篮板X33030.000助攻X43030.000抢断X53030.000失误X63030.000犯规X73030.000得分X83030.000失分X93030.000净胜分X103030.000表2-7 分类处理分类处理摘要已处理的30已排除的缺失或越界组代码0至少一个缺失判别变量0用于输出中30表2-8 组的先验概率组的先验概率Average Linkage (Between Groups) 先验用于分析的案例未加权的已加权的1.25011.0002.2501313.0003.25011.0004.2501515.000合计1.0003030.000表2-9 分类函数系数分类函数系数Average Linkage (Between Groups) 1234投篮命中率X134.10135.83838.75537.525助攻X47.6299.1917.27210.884抢断X53.886-.5592.671-.819得分X88.5219.5128.78010.193(常量)-1186.274-1347.228-1395.086-1527.546Fisher 的线性判别式函数由此表可知,各省份高考成绩相关性较大,通过对投篮命中率、助攻数、抢断数、得分四个因素就能判别30支球队所属的类别。 表2-10 按照案例顺序的统计量按照案例顺序的统计量案例数目实际组最高组第二最高组判别式得分预测组P(Dd | G=g)P(G=g | D=d)到质心的平方 Mahalanobis 距离组P(G=g | D=d)到质心的平方 Mahalanobis 距离函数 1函数 2函数 3pdf初始112*.00031.00031.3444.00086.927-5.5521.9551.970222.2243.9974.3754.00317.255-2.010.566-2.083332*.0023.99614.5284.00426.609-2.3012.930-1.830422.8673.983.7284.0179.854-1.655.207-.648522.48131.0002.4714.00023.222-2.137-2.050-.059622.29431.0003.7144.00044.979-3.068-1.1801.275722.34931.0003.2904.00024.297-1.999-2.386-.056822.6093.9911.8274.00912.334-1.262-.179-1.884922.9543.978.3294.0228.935-1.455-.097-.6311022.9093.991.5474.00910.946-1.755-.480-.9301122.17031.0005.0204.00028.627-1.394.7101.7821244.1103.9746.0362.02612.237.1532.075-.1531344.89631.000.6012.00029.5012.247.826.1621422.35031.0003.2854.00032.112-2.356.5631.3891522.38031.0003.0754.00023.392-1.068-1.861.9151644.5743.9501.9922.0506.861.308.220-.3381744.50631.0002.3362.00036.7732.480.7311.0711844.8623.999.7492.00114.6901.297-.303-.3441944.8223.999.9132.00114.2911.042.741-.1042022.6673.9981.5694.00214.968-1.002-.777.6972122.1233.7405.7714.2608.879.290-.692-1.7522244.97431.000.2232.00029.5462.347-.085.2442344.10231.0006.2162.00037.3312.425.1061.5742444.1423.9995.4482.00118.0591.509-1.932-.6932544.24931.0004.1202.00021.3621.647-1.372.4802644.7083.9941.3882.00610.491.660.621-.1772744.67831.0001.5212.00043.8773.241-.044.2332844.21631.0004.4582.00064.4944.0291.115.7782944.64831.0001.6512.00020.1791.844-.316-.6083044.22631.0004.3492.00046.8033.494.387-.278*. 错误分类的案例表2-11 分类检验结果分类结果aAverage Linkage (Between Groups) 预测组成员合计1234初始计数1010012013001330100140001515%1.0100.0.0.0100.02.0100.0.0.0100.03.0100.0.0.0100.04.0.0.0100.0

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论