当前位置:文档之家› spss因子分析、聚类分析(西甲球员综合能力分析)

spss因子分析、聚类分析(西甲球员综合能力分析)

吉林财经大学2011-2012学年第一学期多元统计分析期末论文

一二三四五总分

学院:工商管理学院

专业:人力资源管理

年级:2009级

学号:

姓名:

西甲球员的综合能力统计分析

摘要:足球运动是一项古老的体育活动,是目前全球体育界最具影响力的单项体育运动。球员是足球运动中不可缺少的部分,球技是影响球员乃至球队发展的重要因素。本文通过网上搜集西甲联赛部分球员的技术数据统计为依据,运用spss软件对不同球员的球技进行因子分析和聚类分析。

关键词:足球、球员、球技、因子分析、聚类分析

引言:足球是世界最受欢迎的一项运动,故有世界第一大运动的美称!当今足球运动已成为人们生活中不可缺少的组成部分,不论在任何地区,足球都成为了一项不可或缺的运动。当今世界各地都有足球联赛,各地也都有不同形式的球队及比赛,据不完全统计,现在世界上经常参加比赛的球队约80万支,登记注册的运动员约4000万人,其中职业运动员约10万人。当然,球员的水平也不尽相同,每个人心中都有各自所喜爱的球队及球员。当今世界两大豪门为巴塞罗那和皇家马德里,他们深受世界大多数人们的喜爱,所以本文选择了最受人们欢迎的西甲球员进行数据统计分析。

一、指标选取

进行球员技术的数据统计分析,必须选取合适的指标,做到全面准确地反映每一个球员的技术,对不同的球员加以区分,综合的反映一个球员的技术水平,因此从出场、出场时间、进球、助攻、射门等方面选取了能够反映个人球技水平的10项指标,分别为:X1——出场(次)

X2——出场时间(分)

X3——进球(个)

X4——助攻(个)

X5——射门(次)

X6——射正(次)

X7——犯规(次)

X8——越位(次)

X9——黄牌(张)

X10——角球(个)

原始数据的收集与整理:

球员出场出场时

进球助攻射门射正犯规越位黄牌角球

梅西21 1828 23 11 123 59 22 17 3 44 c罗20 1743 23 8 132 52 17 18 3 24 阿德里亚诺12 744 1 3 8 4 6 1 0 8 比利亚19 1219 8 2 54 25 12 22 2 19 伊瓜因21 953 14 1 37 23 13 24 1 5 罗西12 1019 3 0 59 23 9 18 5 18 卡卡15 715 4 4 19 12 8 1 1 11 洛伦特18 1502 8 1 51 20 37 17 0 12 哈维19 1487 6 5 24 9 3 1 0 8 厄齐尔20 1314 1 6 19 10 16 9 2 12 莱昂 4 253 1 0 11 3 3 1 2 1 尼尔马10 590 2 0 10 6 6 1 0 3 赫迪拉15 919 1 0 11 4 7 1 1 3 蒂亚戈12 621 0 0 13 3 18 1 3 1 皮克10 654 1 1 2 2 9 1 6 1 马塞洛16 1403 2 2 13 3 13 0 1 6 索尔达多22 1698 16 1 61 27 27 18 5 21 本泽马20 1257 12 8 58 28 16 19 0 8 佩德罗16 905 5 2 32 15 14 11 1 15 苏亚雷斯16 1250 0 0 8 1 25 0 7 0 内格雷多12 842 5 1 31 15 14 2 3 6 卡纳莱斯11 583 1 0 9 3 6 3 1 6 法尔考19 1598 12 1 63 34 34 18 0 12 法布雷加斯16 1094 9 5 22 15 9 5 3 8 伊涅斯塔12 729 1 4 23 8 10 2 1 11 阿尔维斯11 990 14 40 0 0 0 0 2 0 佩佩16 1394 1 0 6 3 17 4 4 0 普约尔11 748 1 0 5 3 9 0 2 0 拉莫斯20 1755 2 3 12 5 38 2 4 0 阿隆索21 1776 1 4 15 4 26 0 7 1 卡列洪10 361 6 0 15 9 4 3 0 6 华金13 1063 2 0 16 7 8 6 3 13 迪亚拉13 946 0 1 7 1 33 0 5 2 凯塔19 979 0 0 6 1 25 1 1 2

二、因子分析

因子分析是一种数据简化的技术,它是将具有相关性的多个原始变量通过空间线性变

换为较少的几个抽象的综合指标的一种方法。得到新的综合指标称为公因子,这些主成分不仅保留了原始指标的绝大多数信息,并且彼此不相关。利用因子得分计算 出每个评价对象的综合得分,并以此作为综合评价的依据。因子分析的主要目的是用来描述隐藏在一组测量到的变量中的一些更基本的,但又无法直接测量到的隐性变量

本文采用因子分析方法,将10个变量抽象为少数几个抽象的因子,那么前提是指标体系中的10个指标有一定的相关性。由指标相关系数矩阵可以得出指标间存在很强的相关性,故因子分析是可行的,也是有意义的。

(一)SPSS 软件运行结果及分析 1、描述性统计量表

Des criptive Statis tics

15.35 4.362341086.24

426.348345.47 6.416343.357.0453428.6831.2373412.8514.2323415.1210.236346.687.972342.32 2.056348.44

9.109

34

出场

出场时间进球助攻射门射正犯规越位黄牌角球

Mean Std. Deviation

Analysis N

表2-1

上面的表格显示了出场、出场时间、进球、助攻等10个指标的描述性统计量,如均值、标准化方差等,这为以后进行因子分析提供了一个直观地分析结果。从上表中可以看出,出场时间、射门、射正和犯规所占的比重是最大的,出场、进球、助攻、越位、黄牌和角球所占的比重较低。

2、因子分析共同度

Com m unalitie s

1.000.7471.000.8821.000.9071.000.9581.000.9221.000.9581.000.7811.000.7751.000.4571.000

.778

出场

出场时间进球助攻射门射正犯规越位黄牌角球

I nitial E xtraction

E xtraction Method: Principal Component Analysis.

表2-2

该表显示了所有变量的共同度数据。第一列是因子分析初始解下的变量共同度,均为1(原始变量标准化后的方差为1)。事实上,因子个数小于原有变量的个数才是因子分析的目的。所以,第二列列出了按指定提取条件提取特征值的共同度。可以看到,所有变量的绝大部分信息可被因子解释,因此本次因子提取的总体效果是比较理想的。

3、因子分析的总方差解释

表2-3

该表显示的是因子分析的总方差解释,是相关系数矩阵的特征值、方差贡献率及累计方差贡献率的计算结果。可以看到,第一个因子的特征值是5.178,解释了原有10个变量总方差的51.776%;前三个因子的累计方差贡献率为81.642%,并且只有它们的特征值大于1,说明前三个公因子基本包含了全部变量的主要信息,因此选取前三个因子为主因子即可。同时,“Extraction Sums of Squared Loadings ”和“Rotation Sums of Squared Loadings ”这两列分别列出了因子提取后和旋转后的因子方差解释情况。从表中可以看到,它们都选择

Total Variance E xplaine d

5.17851.77651.776 5.17851.77651.776 4.6354

6.35146.3511.84718.46670.242 1.84718.46670.242 2.26422.64468.9951.14011.40081.642 1.14011.40081.642

1.2651

2.64781.642

.8088.07989.721.361 3.60793.327.325 3.25396.581.176 1.75798.338.101 1.00899.346.052.52599.871.013

.129100.000

Component

12345678910Total % of Variance Cumulative %

Total % of Variance Cumulative %Total % of Variance Cumulative %I nitial E igenvalues

E xtraction Sums of Squared Loadings

Rotation Sums of Squared Loadings

E xtraction Method: Principal Component Analysis.

三个公因子。我们把这三个公因子分别表示为F1、F2和F3。

4、旋转前的因子载荷矩阵

Com ponent Matrix

a

.944-.218-.135.936-.174-.121.863-.324.239.830-.127-.265.827-.267-.152.739.440.085.738.513.272.416.776-.084.011.626.255.166

-.356

.896

射正射门进球越位角球出场

出场时间犯规黄牌助攻

123Component

E xtraction Method: P rincipal Component Analysis.3 components extracted.

a.

表2-4

该表显示了旋转前的因子载荷矩阵,它是因子分析的核心内容。通过载荷系数大小可以分析不同公共因子所反映的主要指标的区别。从结果看,大部分因子解释性较好,但是仍有少部分指标解释能力较差,如黄牌在三个因子的载荷系数区别不大。因此,接着采用因子旋转的方法使得因子载荷系数向0或1两极分化,使大的载荷更大,小的载荷更小,这样结果更加具有可解释性。

5、旋转后的因子载荷矩阵

Rotated Com pone nt M atrix

a

.970.123.052.945.163.051.881.032.037.864.130-.112.846.090.428.152.828-.269.454.801.186.520.690.032-.248.627.049.069

-.036

.975

射正射门角球越位进球犯规

出场时间出场黄牌助攻

123Component

E xtraction Method: Principal Component Analysis. Rotation Method: Varimax w ith Kaiser Normalization.Rotation converged in 4 iterations.

a.

表2-5

由旋转后的因子载荷矩阵可以看出,第一公因子F1在射正、射门、角球、越位、进球、上的载荷都很大,其中射门、射正、进球是反映个人能力的指标,角球是反映球员的战略战术的指标,越位在一定程度上反映了球员的意识及反应能力。因此, F1为反映个人技术能力及球场意识的公共因子,可以将其命名为个人技术能力及球场意识因子。

第二公因子F2在犯规、出场时间及出场次数上载荷较大,在此因子上的得分反映了球员的受重视程度,可以命名为受重视程度因子。

第三公因子F3仅在助攻上有较大的载荷,助攻反映了球员的球场意识,可以命名为球员意识水平因子。

6、因子得分系数矩阵

Com pone nt Scor e Coe fficient Matrix

.038.285.014-.011.361.156.163-.043.272-.083.033.805.220-.043-.050.232-.067-.054-.045.388-.190.221-.059-.179-.157.359.107.223-.103

-.062

出场

出场时间进球助攻射门射正犯规越位黄牌角球

123Component

E xtraction Method: Principal Component Analysis. Rotation Method: Varimax w ith Kaiser Normalization. Component Scores.

表2-6

根据表中的内容,可以写出以下因子得分函数:

F1=0.038X 1-0.011X 2+0.163X 3-0.083X 4+0.220X 5+0.232X 6-0.045X 7+0.221X 8-0.157X 9+0.223X 10 F2=0.285X 1+0.361X 2-0.043X 3+0.033X 4-0.043X 5-0.067X 6+0.388X 7-0.059X 8+0.359X 9-0.103X 10 F3=0.014X 1+0.156X 2+0.272X 3+0.805X 4-0.050X 5-0.054X 6-0.190X 7-0.179X 8+0.107X 9-0.062X 10 最后,计算出因子得分,以各因子的方差贡献率占三个因子总方差贡献率的比重作为权重进行加权汇总得出各城市的综合得分F ,即 F=(F1*51.776+F2*18.466+F3*11.4)/81.642

7、各个球员在每个公因子上的得分及综合得分如下表所示:

球员F1 F2 F3 F

梅西36.382 660.1074 281.607 211.6996 c罗33.87 629.1802 267.857 201.1914 阿德里亚诺-3.391 272.8942 116.488 75.83909 比利亚14.376 443.3188 182.984 134.9388 伊瓜因11.667 349.7894 143.514 106.5547 罗西14.854 369.443 150.243 113.9608 卡卡 2.146 263.0016 112.186 76.51233 洛伦特 6.011 555.6254 223.098 160.6369 哈维-5.834 540.777 234.964 151.4235 厄齐尔-3.898 483.8834 203.695 135.4167 莱昂0.643 93.476 38.487 26.92452 尼尔马-1.572 216.882 90.395 60.68022 赫迪拉-5.61 337.957 141.492 92.63932 蒂亚戈-3.656 234.74 92.892 63.74641 皮克-6.733 244.1984 101.724 65.1676 马塞洛-10.513 515.0488 217.699 140.2261 索尔达多11.028 623.2074 256.726 183.8001 本泽马12.744 459.1212 194.727 139.1178 佩德罗 6.811 332.3328 136.512 98.54904 苏亚雷斯-13.374 467.612 190.769 123.922 内格雷多 2.905 310.6354 128.256 90.01153 卡纳莱斯-1.582 214.859 88.82 59.99638 法尔考11.889 587.7174 238.211 173.7336 法布雷加斯-0.041 400.773 172.671 114.7326 伊涅斯塔 1.472 268.1426 112.969 77.35702 阿尔维斯-11.824 361.977 190.816 101.0187 佩佩-13.056 515.088 213.98 138.1029 普约尔-6.57 276.914 115.206 74.55322 拉莫斯-16.564 654.4802 268.999 175.0888 阿隆索-16.725 658.7966 275.623 176.888 卡列洪 4.596 132.422 55.183 40.57168 华金-2.335 388.693 162.297 109.097 迪亚拉-10.047 359.2694 142.3 94.75877 凯塔-9.11 368.303 147.69 98.14887

表2-7

(二)综合分析及评价

1、根据各个球员在三个公因子上的得分对其综合发展水平进行评价

(1)在个人能力因子F1上得分最高的前五个城市依次是梅西、C罗、罗西、比利亚和法尔考,得分分别为36.382、33.87、14.854、14.376和11.889。得分在10分以上的有8人,说明这些球员的个人能力以及足球技术都是比较优秀的,而梅西和C罗的成绩却达到了30以上,远远高于其他球员的得分。这说明此二人的球技在整个西甲球队中都是非常突出的,他们代表的不仅仅是自己,也代表了他们的球队。部分球员的个人能力还是比较好的,但是容易造成越位,这成为影响他们个人能力因子的重要因素,这样就导致他们在F1这个因子中比分不是太高,比如卡卡、佩德罗、卡列洪等。另外,此因素也受到出场次数以及出场时间等因素的限制。总体来说,就球员的个人技术能力而言,梅西和C罗无疑是技术水平最好的球员,其技术水平是其他球员所无法超越的。哈维和伊涅斯塔也是比较不错的球员,虽然技术水平也比较好,但是由于受到位置的限制,射门机会较少,致使此项数据在F1中的得分偏低。拉莫斯、阿隆索等部分球员射门次数较少,技术水平相对其他球员较弱,所以在F1中的得分最低。

(2)在球员受重视程度因子F2上得分较高的是梅西、阿隆索、拉莫斯、C罗、索尔达多,在F2中的得分分别为660.1074、658.7966、654.4802、629.1802和623.2074。此项得分在400分以上的有15人,说明这些球员的受重视程度对于教练和球队来说是较好的,在球队里是主力人员,发挥着不可替代的作用,同时这也表明了他们是球队里非常受信任的球员,出场时间较多以及出场次数较多,同时也避免不了有较多的犯规。得分最低的为卡列洪和莱昂,分别为132.422、93.476,这说明,他们的个人能力和没有完全的到教练的认可同时也没有完全得到其他队员的信任,因此这类球员应针对自己本身存在的问题进行改善,及早的融入到整个队伍之中。

(3)在球员意识水平因子F3上得分最高的是梅西和C罗,他们的得分均在200分以上,分别为211.6996和201.1914。另外,索尔达多、阿隆索、拉莫斯、法尔考等人的得分也相对较高,均达到170分以上,说明这些人在球场上的意识水平较高,能充分有效地捉住每一个可以利用的时机,同时也可以为他人创造机会。在此项因子中得分最低的为卡列洪和莱昂,得分分别为40.57和26.92分,这说明他们在球场上的判断能力较差,不能有效的抓住机会,球场意识水平较低。

2、结合各个球员的综合得分对其综合水平进行评价

根据综合得分F来综合评价各位球员的综合水平。综合得分排名前六位的球员依次是梅西、C罗、索尔达多、阿隆索、拉莫斯和法尔考,他们的综合得分均在170分以上,梅西和C罗的得分已达到200分以上;综合得分最低的六个球员依次是蒂亚戈、匹克、尼尔马、卡纳莱斯、卡列洪和莱昂。他们的得分均在70分一下。通过此项分析可知,这些球员的综合水平还是存在着较大的差距,综合能力较低的球员有待于进一步提高他们自己在各方面的能力,继续保持自己的优势,加强训练水平较低的其他指标。

三、聚类分析

为了更加清晰地反映上述34位球员的综合能力水平,在个人技术水平上存在的差异,

将对这些球员进行进一步聚类分析。

聚类分析(Cluster Analysis )是定量研究分类问题的一种多元统计分析方法。其基本思想是同一类中的个体有较大的相似性,不同类中的个体差异较大,于是根据一批样品的多个观测指标,找出能够度量样品(或变量)之间相似程度的统计量,并以此为依据,采用某种聚类的方法,将所有的样品(或变量)分别聚合到不同的类中。

(一)spss 数据结果及分析 聚类凝聚过程表

Agglom e ration Sche dule

1222.265003725.6860014312 1.1320161428 1.7660017823 2.6210025331 3.56930141316 4.53100152132 5.67700102033 6.981001621248.35480225189.8770018101911.4840020293013.33100243715.3816226133417.5117023202719.6699024141521.87140214524.169011271227.006003191030.12801222111433.8860172692138.02820102391342.904221529202947.90116133281754.062502831161.3191421294669.102180284879.2112725313996.585262330326129.9402903214163.478192833320203.138********

330.0003132

Stage

123456789101112131415161718192021222324252627282930313233Cluster 1Cluster 2

Cluster Com bined

Coefficients

Cluster 1Cluster 2

Stage Cluster First

Appears Next Stage

表3-1

样本归类表

Clus ter Me mber ship 1123332322222222332422322242442242

Case 1:Case 12:Case 23:Case 34:Case 45:Case 56:Case 67:Case 78:Case 89:Case 910:Cas e 1011:Cas e 1112:Cas e 1213:Cas e 1314:Cas e 1415:Cas e 1516:Cas e 1617:Cas e 1718:Cas e 1819:Cas e 1920:Cas e 2021:Cas e 2122:Cas e 2223:Cas e 2324:Cas e 2425:Cas e 2526:Cas e 2627:Cas e 2728:Cas e 2829:Cas e 2930:Cas e 3031:Cas e 3132:Cas e 3233:Cas e 3334:Cas e 34

4 Clus ters

表3-2

聚类树形图

* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * Dendrogram using Ward Method

Rescaled Distance Cluster Combine

C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+

Case 12 12 ??

Case 22 22 ??

Case 3 3 ??

Case 31 31 ????

Case 7 7 ???

Case 25 25 ???????

Case 14 14 ????

Case 28 28 ????

Case 15 15 ?????

Case 11 11 ?????????

Case 13 13 ????

Case 16 16 ????

Case 34 34 ????

Case 21 21 ?????????

Case 32 32 ?????

Case 24 24 ????

Case 10 10 ????

Case 19 19 ??????????????????????????????????????

Case 9 9 ?????

Case 26 26 ????????????????

Case 29 29 ????

Case 30 30 ?????????????????

Case 20 20 ???

Case 33 33 ???

Case 27 27 ???

Case 1 1 ???????????????

Case 2 2 ????

Case 8 8 ?????????????????????????????????????????

Case 23 23 ????

Case 17 17 ?????

Case 5 5 ?????????????

Case 18 18 ????

Case 4 4 ???

Case 6 6 ????

图3-1

表3-1是聚类的凝聚过程表,整体上反映了队球员进行聚类的全过程。从此表显示,聚类共进行了33步。另外,Coefficients值随着聚类的进行逐渐增大,开始增加的慢,后面增加得快,表明聚类开始时类间的差异小,结束时类间的差距大,这正是分层聚类方法所表现出来的特征。

表3-2是样品的归类表,本例采用Ward最小方差法,把球员最终分为四类,表中分别给出了各个球员所属的类别。

图3-1清晰地反映了聚类的全过程,他将实际的距离按比例调整到0.25范围以内,用逐级连接的方式连接性质相近的样品和新类,直到并为一类。可以在此图上用一把尺子垂直方向放在图上左右移动,与尺子相交的每一根横线就是一类。每根横线左端与之联系的各样品就是分到该类的成员。本例聚为四类:

第一类:梅西、C罗,此类为球员技术水平较好的球员

第二类:阿德里亚诺卡卡、哈维、厄齐尔、莱昂、尼尔马、赫迪拉、蒂亚戈、皮克、马塞洛、佩德罗、内格雷多、卡纳莱斯、法布雷加斯、伊涅斯塔、阿尔维斯、普约尔、卡列洪、华金、凯塔,此类球员为技术水平中等偏上的球员。

第三类:比利亚、伊瓜因、罗西、洛伦特、索尔达多、本泽马,此类球员为技术水平中等偏下的球员。

第四类:苏亚雷斯、佩佩、拉莫斯、阿隆索、迪亚拉,此类球员为技术水平较差的球员。

(二)综合分析

通过聚类分析的方法,将以上球员最终分为四类,梅西、C罗分为第一类,在上述因子分析中,F1、F2、F3三项因子的得分也都稳居第一位,并且得分全部都高出其他球员较多。经过上述分析以及数据表现说明此二人的个人能力较强,各项数据都较平均、稳定,不论个人技术水平还是球场上的意识水平都是很好的,受重视程度也是较高的。对此二人在进行比较,梅西的各项数据都要高出C罗一点点,说明梅西的个人综合能力还是要更胜一筹。

其他球员大多数都集中在第二类上,说明多数球员的技术水平还是处于中等偏上的位置,个人的综合能力大体上较好,第三类和第四类球员的综合能力不是太好,其中部分球员的个人能力还是不错的,但是受到其他方面原因的限制,在其他方面的数据偏低,可能导致他们最终的综合能力水平数据偏低。

四、对于加强球员综合能力水平的建议

通过以上因子分析和聚类分析队球员的各项数据、因子进行分析得出以上结论,针对这些结论所反映的问题提出以下建议。

加强个人的技术水平,平时多进行足球训练,在训练的同时不断提高自己的技术水平。抓住每一次上场的机会,在球场上尽量减少失误,注重团队合作水平,加强团队合作意识,因为足球比赛是团队的比赛,而不是个人的比赛,纵使个人技术再好没有合作个人的综合能力水平也不会较高。也只有这样才能减少失误,抓住机会进球,才能赢得球员、教练以及广大球迷们的认可。

球队高层管理者在引进球员的时候,能胜任多个位置(即多功能型球员)要优先考虑,

因为此类人能力较强,能够起到带头指导作用,能够带动其他球员的共同进步。另外,教练要多给予球员们鼓励,让他们感觉到自己的重要性,这样有利于激发他们的斗志,让他们首先自身先承认自己的价值,这样对他们的进步及综合素质的提高是非常有必要的。

相关主题
文本预览
相关文档 最新文档