某高校在校生体测成绩的统计分析毕业论文_第1页
某高校在校生体测成绩的统计分析毕业论文_第2页
某高校在校生体测成绩的统计分析毕业论文_第3页
某高校在校生体测成绩的统计分析毕业论文_第4页
某高校在校生体测成绩的统计分析毕业论文_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、. . . . 毕业论文某高校在校生体测成绩的统计分析A STATISTICAL ANALYSIS OF COLLEGE STUDENTS THE CERVIX SCORES38 / 43摘 要在现代生活中,随着生活水平的日渐提高,现在大学生的身体素质真是越来越差了,越是学历高的人,身体素质普遍就越差。很多人对身体素质这个词并不陌生。在日常生活中,人们常说,谁谁力气大,谁谁跑的快,或者谁谁很灵活,谁谁耐久力强。实际上这些能力都属于身体素质。身体素质通常指的是人体在肌肉活动中所表现出来的各种能力。一般包括力量、速度、耐力、灵敏和柔韧。因此,本文通过分析中国农业大学2010年6290名在校生体测成

2、绩数据,利用matlab统计分析理论建立相关模型,研究当前大学生身体素质的真实现状,该研究成果有着非常重要的应用价值。首先利用描述性统计分析方法对体测数据进行初步研究。再利用方差分析对13个学院的学生的身高进行单因素一元方差分析和非参数分析,判断不同学院的学生的身高有无显著性差异。在研究身高和体重的关系时,利用了MATLAN做了回归模型,用一元回归求出身高和体重的函数关系,二元回归求出来身高和体重做自变量,肺活量做因变量的函数关系。判别分析主要是用5999个学生的身高体重等级去判别291个学生的类别。关键词:体测成绩; 统计分析; MATLAB; 方差分析; 回归分析; 判别分析ABSTRAC

3、TIn the modern life, along with the rising of living standards, college students' physical quality is worse and worse now, the more highly educated people, physical quality general the worse. A lot of people is no stranger to the word physical quality. In daily life, people often say, so-and-so

4、in strength, who can run fast, or who is very flexible, so-and-so strong endurance. In fact these abilities are physical quality. Physical quality usually refers to the human body in muscle activity of all kinds of ability. Generally includes power, speed, stamina, agility and flexibility.Therefore,

5、 through the analysis of China agricultural university in 2010, 6290 students cervix result data, the relevant model is established using MATLAB statistic analysis theory, research the real status of the current college students' physical quality, the results of the study has a very important ap

6、plication value. First,use of descriptive statistics analysis method to a preliminary study on the cervix data. Second, analysis of variance on the height of 13 students of the college on a single factor analysis of variance and nonparametric analysis, judge the height of different college students

7、have significant differences. In the study of the relationship between height and weight, use of MATLAN made a regression model, use A regression model to the function relation of height and weight.Bivariate regression of height and weight do seek out independent variables, vital function of the dep

8、endent variables do. Discriminant analysis is mainly used 5999 grade student height and weight to determine 291 students in classes. Key words:The cervix grades; Statistic Analysis; MATLAB; Analysis of variance; Analysis of Regression; DiscriminantAnalysis目 录1 前言12 常用统计分析方法32.1 描述性统计分析32.2 方差分析42.3

9、回归分析82.4 判别分析93 MATLAB主要统计函数简介114 某高校在校生体测成绩统计分析134.1数据来源134.2描述性统计量134.3方差分析164.4 回归分析204.5判别分析265 总结与不足28参考文献29致31附录321 前 言 随着我国国力的增强,我国逐渐重视大中学生体质健康。2014年四月二十四日,教育部体卫司司长王登峰在发布会上透露,新版国家学生体质健康标准已经基本成形,和旧版相比,取消了所有选测项目,统一为必测项目。据介绍,新版中要求大、中学生必测长跑。测试成绩分优秀、良好、与格和不与格4个等级,分别记入学校为每个学生制作的国家学生体质健康标准登记卡。教育部表示,

10、学校没按规定执行的,将在学校体育工作等级评比中“不合格”。新版标准还要增加体育课学分。13 大学生的健康成长关系到一个国家和整个民族发展的未来,对于我国大学生而言,其身体与智力的发展正处于关键时期。大学生健康体适能测试,是高校体育工作中的一个重要的组成部分,也是学校教育评价体系中所必不可少。统计分析这种方法从整体上反映和分析事物数量特征,可以观察并发现事物的本质和发展规律,作出正确的判断。体测成绩的统计分析从微观上有助于学生自己更好的了解自己的身体健康状态,并作出相应调整。研究当前大学生身体素质的真实现状,该研究成果有着非常重要的应用价值。朱慧平,晓芳在18中采用文献资料法、数理统计法、问卷调

11、查等方法,对省当前大学生的体质健康状况进行了调查研究。结果发现:1)男生和女生体质健康状况存在着较大的差距,男生明显好于女生。2)城市、县城、村镇的学生体质健康状况存在着一定的差异,乡村学生好于城市学生。3)年级不同,学生的体质状况也不同,研究结果表示大二学生最好,大四学生最差,从大学一年级到四年级学生的体质健康状况有先提高后降低的趋势。恺宪在17中探讨不同体育生活方式对大学生的体质状况有什么影响以与两者相互关系, 研究当中主要采用文献资料、问卷调查、专家访谈等研究方法, 进行问卷调查对地区普通高校大学生的体育生活方式, 结果发现: 不同年级的体育生活方式存在明显的差异, 前三个年级的学生都有

12、很好的体育生活方式,到大四之后学生的体育生活方式明显下降; 在这些学生中调查了不同的体育生活方式并进行比较分析,结果表明, 具有良好体育生活方式特征的大学生体质状况明显好于另一部分大学生; 因此, 建立良好的体育生活方式, 可以提高身体机能素质, 促进柔韧、速度和耐力素质的发展, 最终促进大学生体质的全面发展。 吴磊在19过体育课的体能练习提高大学生体质测试的健康水平,结合体测的容设置相关的体能项目的训练,并有针对性的进行练习。本文运用访谈法、问卷调查法、统计法试验法等相关研究方法对目前高校存在的问题进行分析和总结提出相关具体方案,为大学生身体素质的提升打好基础。 本文以2010年中国农业大学

13、的在校生体测数据为依据,主要运用统计分析的描述性统计、方差分析、回归分析、判别分析,旨在发现一些规律和问题。首先从描述性统计量中算出各个年级的体测成绩的几个统计量。接着用方差分析对不同学院学生的身高分别进行了显著性分析,用多重比较得出哪两种学院学生的身高差异性大。在回归分析中,先对数据做了相关性分析,查找相关性比较强的,所以拟合了身高和体重的一元回归和身高、体重。肺活量的二元回归,最后求出回归方程,画出了拟合图。在判别分析中,对身高体重等级做了分类。第一类是超重,第二类是肥胖,第三类是较低体重,第四类是营养不良,第五类是正常体重,用5999名学生对291名学生进行分类。2 常用统计分析方法2.

14、1 描述性统计分析2.1.1 常用统计量通常在得到数据并对数据进行预处理后,需要对数据进行描述性的统计分析。常用统计量有以下几种:(1)样本均值(mean),描述了样本数据相对中的中心位置,计算公式:(2)样本标准差(std),描述了样本数据变异程度的大小,计算公式:(3)样本极差(range)作为样本数据变异程度大小的一个简单度量,计算公式:(4)最大值和最小值(Max和min)求样本数据中的最大值和最小值。公式是。(5)中位数(Median):顾名思义就是将样本数据从小到大依次排列,位于中间的那个观测值,样本P分位数定义如下 (6)众数(Mode):描述了样本观测值数据中出现最多的数。(7

15、)变异系数是衡量数据变异程度的一个统计量,和标准差不同,当单位和平均值不同时,比较其变异程度就要用变异系数,即标准差和平均数的比值。(8)样本偏度(skewness)用来计算样本数据的偏度,偏度反映了总体分布密度曲线的对称性信息,偏度越接近0,说明分布越对称。如偏度大于0说明概率密度的右尾巴长,顶点偏向左边,偏度小于0说明概率密度的左尾巴长,顶点偏向右边,计算公式:,其中为样本k阶中心矩。(9)样本k阶中心矩(moment):(10)样本的峰度(Kurtosis)反映了总体分布密度曲线在其峰值附近的陡峭程度,计算公式:2.1.2 常用统计图1直方图(hist/hist3)在观察数据所服从的分布

16、时,直方图是非常简洁实用的。做直方图的步骤如下:(1)将样本观测值从小到大排序得.(2)适当选取略小于的数与略大于的数,将区间随意分为个不相交的小区间,记第个小区间为,其长度为. (3)把样本观测值逐个分到各区间,并计算样本观测值落在各区间的频数与频率. (4)在轴上截取各区间,并以各区间为底,以为高作小矩形,就得到频数直方图,若以为高作小矩形,就得到频率直方图。MATLAB中绘制频数直方图的函数是hist和hist3(二元变量的三维直方图)。2箱线图(boxplot) 箱线图的做法如下: (1)画一个箱子,其左侧线为样本0.25分位数位置,其右侧线为样本0.75分位数位置,在样本中位数(即0

17、.5分位数)位置上画一条竖线,画在箱子。这个箱子包含了样本中50%的数据。 (2)在箱子左右两侧各引出一条水平线,左侧线画至样本最小值,右侧线画至样本最大值,这样每条线段包含了样本25%的数据。以上两步得到的图形就是样本数据的水平箱线图,当然箱线图也可以作成竖直的形式。从箱线图上能大概看出样本数据的分布情况。2.2 方差分析方差分析产生于英国,它是由统计学家R.A.Fisher在20世纪20年代提出的一种统计方法。方差分析是分析试验(或观测)数据的一种统计方法。在工农业生产和科学研究中,经常要分析各种因素之间的交互作用对研究对象某些指标值的影响。在方差分析中,把试验数据的总波动(总变差或总方差

18、)分解为由所考虑因素引起的波动(各因素的变差)和随机因素引起的波动(误差的变差),然后通过分析比较这些变差来推断哪些因素对所考察指标的影响是显著的,哪些是不显著的。也就是分析在诸多因素中哪些因素是主要的,哪些是次要的,以与主要因素处于何种状态时,才能使所考察的指标达到一个较高的水平,这就是方差分析所要解决的问题。本文主要对数据中的13个学院学生的身高进行了单因素一元方差分析和非参数方差分析,其中单因素一元方差分析,样本数据应满足方差分析的几个基本假定,即(1)所有样本均来自正态总体(2)这些正态总体具有一样的方差(3)所有观测值相互独立,即独立抽样。在前两个假定基本满足的情况下,一般认为方差分

19、析检验(ANOVA test)是稳健的。(1)单因素方差分析的数学模型。设因素有个水平,对应试验指标的个总体,记为,它们的分布为 (2-1) 今从这个总体中各自独立地抽取一个样本,取自的样本记为列表如表2-1所示。表 2-1单因素方差分析的样本数据组别样本样本均值样本方差其中 (2-2)单因素方差分析的数学模型为. (2-3)其中表示独立同分布。欲检验因素对试验指标有无显著影响,相当于检验不全相等. (2-4)原假设成立表示因素对试验指标无显著影响。令则(2-3)式可改写为 (2-5)(2-4)式等价于这里的称为因素的第个水平所引起的效应,可以看成对总平均的“贡献”大小。若,称的效应为正,若,

20、称的效应为负。(2)单因素方差分析的原理,作(2-4)式的假设检验,应从分析样本数据的差异入手,数据的差异可分为系统偏差和随机误差,来自不同总体样本数据之间的差异称为系统偏差,来自同一总体样本数据之间的差异称为随机误差。样本数据之间的差异通常用离差平方和(样本观测数据与总均值的差的平方和)来表示,方差分析就是将样本数据的总的离差平方和分解为两部分,一部分为因素所造成的离差平方和,即系统偏差,又称为组间离差平方和;另一部分为随机因素所造成的离差平方和,即随机误差,又称为组离差平方和。然后根据两部分平方和构造检验统计量,推导统计量所服从的分布,最后写出拒绝域。直观上可以这样理解:若总离差平方和中主

21、要是组间离差平方和,组离差平方和所占比重非常小,则可认为各组数据之间的差异是显著的,即因素对试验指标的影响是显著的;若总离差平方和中主要是组离差平方和,组间离差平方和所占比重非常小,则可认为因素对试验指标的影响是不显著的。(3)离差平方和与自由度的分解,从模型(2-5)式可以看出 (2-6)上式左边表示每一个样本观测数据与总均值的偏差,这个偏差被分成两部分,其中表示由因素的不同水平所引起的系统偏差,表示随机误差。令用作为的估计,作为的估计,作为的估计,则(2-6)式为记表示总离差平方和,则令可以看出,为因素所造成的离差平方和,称为组间离差平方和,为随机因素所造成的离差平方和,称为组离差平方和。

22、这样就有如下平方和分解式为了构造检验统计量并推导其分布,引入如下定理。在以上记号下,对于模型(2-5)式,有以下结论成立。·;·原假设成立时,与相互独立。对于(2-4)式的假设检验,构造检验统计量其中称为组间均方离差平方和,称为组均方离差平方和。由定理可知,当原假设成立时,直观上可以看出,当统计量的观测值大于某个临界值时,应拒绝原假设,所以对于给定的显著性水平,拒绝域为其中为分布的上侧分位数。(4)单因素方差分析表根据以上过程列出单因素方差分析表,如表2-2所示。表 2-2单因素方差分析表来源平方和自由度均方离差值临界值组间组总计方差分析表很直观地展现了方差分析的过程,通过

23、对比值与临界值的大小,作出最后的结论。也可以将表格最后一列的临界值换成检验的值,其中。对于给定的显著性水平,当时,应拒绝原假设,即认为因素对试验指标有显著影响,并且值越小,显著性越强;当时,应接受原假设,即认为因素对试验指标无显著影响。 非参数方差分析不要求样本来自于正态总体,也不要求正态总体具有一样的方差,即不要求正态性和方差性假定。当样本不满足这正态性和方差性的假定时,就要采取基于秩的非参数检验,本文中主要用Kruskal-Walls检验。MATLAB工具箱中提供了kruskalwalls函数,用来做单因素非参数方差分析。检验的原假设是:k个独立样本来自于一样的总体。当原假设成立时,并且样

24、本容量足够大时,检验统计量H近似服从自由度为k-1的分布,即 (2-7)其中,k为样本数,为第j个样本的样本容量,为第j个样本的秩和。对于给定的显著性水平,当H的观测值大于或等于,拒绝原假设,表示k个独立样本来自于不同的总体,或者说k个样本有显著性差异。162.3 回归分析在客观世界中变量之间的关系普遍存在。变量之间的关系一般说可以分为非确定性和确定性这两种。非确定性关系即所谓相关关系。例如人的身高和体重之间存在着关系,一般来说越高体重越重,有时同样身高的人,体重也是不一样的,之所以有这种关系,是因为我们涉与的变量是随机变量。确定性关系是指变量之间的关系可以用函数表达。回归分析研究的是相关关系

25、的一种数学工具,这种工具能从一个变量取得值去估计另一个变量所取的值。用来认识事物的在规律和本质属性。16(1)一元回归模型设有两个变量和,其中是可以精确测量或控制的非随机变量,是随机变量,假定随机变量与可控变量之间存在线性相关关系,建立与的数学模型如下:(2-8)其中未知参数和都不依赖于。称(2.8)式为关于的一元线性回归模型,其中称为回归系数。由一元线性回归模型可知,当固定时,令,它是固定时随机变量的数学期望。直线近似表示了与的线性相关关系,称为关于的回归函数,称为关于的理论回归方程。 (2) 参数的最小二乘估计对作次独立的观测,得到观测数据.根据(2-8)式可得其中表示独立同分布。令二元函

26、数的最小值点称为的最小二乘估计,通过解下面方程组求得 (2-9)其中当方程组(2-9)的系数矩阵的行列式可以解得 (2-10)其中将代入理论回归方程可得,称之为关于的经验回归方程。由于可知关于的经验回归直线一定过点. 可以证明估计量服从以下分布: (2-11) 从而可知分别是的无偏估计。(3) 回归方程的显著性检验对于变量和的任意对观测值,只要不全相等,则无论变量和之间是否存在线性相关关系,都可根据上面介绍的方法求得一个线性回归方程. 显然,只有当变量和之间存在线性相关关系时,这样的线性回归方程才是有意义的。为了使求得的线性回归方程真正有意义,就需要检验变量和之间是否存在显著的线性相关关系。若

27、和之间存在显著的线性相关关系,则回归模型(2-8)式中的不应为0,因为若,则就不依赖于了。因此需要检验假设 (2-12)检验图 2-1离差分解示意图如图2-1所示,每个观测点处的与均值的离差被分解为两部分,即于是总离差平方和可作如下分解可以证明. 令则有 (2-13)这里的为总离差平方和,它被分解为两部分。其中是估计值的离差平方和,反映了的总变差中由于与之间的线性关系所引起的的变差,称为回归平方和。就是前文中的,称为残差平方和(或剩余平方和),它反映了的总变差中不能由回归直线来解释的变差。由图2-6可以看出,若总离差平方和中主要是回归平方和,残差平方和所占比重非常小,则说明观测数据的散点基本集

28、中在回归直线附近,进一步说明和之间存在显著的线性相关关系,因此可以根据和构造检验统计量,检验和之间的线性相关关系是否显著。(4)多重线性回归分析原理设随机变量与个可控变量之间存在线性相关关系,建立与的数学模型如下: (2-14)其中未知参数和都不依赖于. 称(2-14)式为关于的重线性回归模型,其中称为回归系数。类似于一元线性回归,称为关于的理论回归方程。2.4 判别分析 判别分析是对样本进行分类,但是和聚类分析不一样,判别分析的研究对象是已经有了分类,根据抽取的样本建立判别公式和判别标准,然后用这些公式和标准判别未知的类别的样本的类别。本文主要用距离判别,其中距离判别的基本思想是首先根据已知

29、分类的数据,分别计算各类的重心,即分组均值,判别标准:对于任给一次观测值,若她与i类的重心距离最近,就认为她来自第i类。马氏距离原理设G是维总体,它的分布的均值向量和协方差矩阵分别为 (2-15)设为取自总体G的两个样品,假定(为正定矩阵),定义x,y间的平方马氏距离为定义x到总体G的平方马氏距离为 (2-16)两个总体的判别,设有两个p维总体,分布的均值分别为,协方差矩阵分别为。从两总体中分别抽取容量为的样本,记为。现有一未知类别的样品,记为x,试试判别x的归属,现有以下判别规则当时,判定;否则判定。若相等则待判。这是通常为马氏距离。在采用马氏距离的情况下,下面分情况进行讨论。(1)已知时将

30、两个距离相减可得 (2-17)令 (2-18)则判别规则还可表示为 (2-19)称W(x)为两组距离判别的线性判别函数,a为判别系数。(2)已知时令 (2-20)则为二次判别函数,判别规则为 (2-21) (3)未知时在实际问题中,这种情况最为常见,此时有样本对进行估计于是可得平方马氏距离的估计和二次判别函数的估计 (2-22)将格式(2-21)中的换位,即可得此种情况的判别规则。3 MATLAB主要统计函数简介MATLAB意为矩阵工厂(Matrix&Laboratory两个词的组合,)。MATLAB是由美国The Mathworks公司发布的。MATLAB的基本数据单位是矩阵,它的指

31、令表达式与数学、工程中常用的形式十分相似,故用MATLAB来解算问题要比用C,FORTRAN等语言完成一样的事情简捷得多,并且MATLAB也吸收了像Maple等软件的优点,使MATLAB成为一个强大的数学软件。在新的版本中也加入了对C,FORTRAN,C+,JAVA的支持。可以直接调用,用户也可以将自己编写的实用程序导入到MATLAB函数库中方便自己以后调用。数据分析的目的是利用数据来研究一个领域的具体问题。数据分析的过程包括确定数据分析的目标、研究设计、收集数据、分析数据、解释结果。从数据分析的整个过程来看,软件的使用主要是在数据整理与分析阶段。软件所起的主要作用是整理、计算、绘制图表等。M

32、ATLAB 在统计分析方面的知识,有很多软件都可以用作统计分析与计算,比如SAS、Spss、Splus等软件。在这些软件中,MATLAB的功能无疑是最强大的。MATLAB有简便的编程语言,还有包罗万象的工具箱,易学易用,学者不仅可以调用现成的函数进行计算,还可以自己编程自己所需要的函数。本文主要用了描述性统计、方差分析、回顾分析、判别分析对2010中国农大的体测成绩进行分析。主要涉与的函数有:(1)num = xlsread(filename, range)从指定文件名夹读取,输入参数filename是由单引号括起来的字符串。输入参数range是所在的单元格围,比如说range='A1

33、:A8'。比如说num=xlsread('2010.xls'),即从当前程序所在文件夹里,从A1单元格开始读取,读取2010.xls文件,把数据返回给num。(2)p,table,stats = anova1(X,group),anova1函数是单因素一元方差分析。原假设是输入参数X的各列所对应的总体具有一样的均值。矩阵X的列数表示因素的水平数,矩阵X的行数表示样本容量。输入的参数group可以是字符串元胞数组或是字符数组,用来指明每组的组名,在本文是学院名称。输出参数p是检验的p值,对于给定的显著性水平,如果,则拒绝原假设。认为X的各列所对应的总体具有不完全一样的均值

34、。反之,则接受原假设。输出参数table是元胞数组形式的方差分析表。方差分析表有六列,第一列为方差来源,方差来源有组间(Columns)、组(Error)和总计(Totel)第二列为各方差来源所对应的的平方和(SS)。第三列为个方差所对应的自由度(df)。第四列为各方差来源所对应的均方(MS),MS=SS/df。第五列为F检验统计量的观测值,它是组间均方和组均方的比值。第六列为检验p值,是根据F检验统计量的分布得出的。输出的stats是结构体变量,用于进行后续的多重比较。还会返回箱线图。 p,table,stats =kruskalwallis(X,group),kruskalwallis函数

35、是非参数方差分析。输出参数和上面的anova1函数返回的一样,输入参数也一样。 (3)R=corrcoef(data),进行相关性分析,求相关系数。输入参数data是矩阵,得到的结果是一个n*n矩阵相关系数矩阵。(4)mdl=LinearModel.fit(x,y),LinearModel.fit函数是做一元线性回归。输入参数x是自变量观测矩阵,输入y是因变量观测矩阵,x和y具有一样的行。输出线性回归模型的参数。(5)class=classify(sample,training,group),其中输入参数sample是全部样本数据,即6290个学生的身高,体重,肺活量数据。输入参数traini

36、ng是已知组别的样本数据,即5999名学生的身高,体重,肺活量数据。输入参数group是样本的分组信息数据,其中第一类是超重,第二类是肥胖,第三类是较低体重,第四类是营养不良,第五类是正常体重,用前5999名学生判别291个同学的类别。4 某高校在校生体测成绩统计分析4.1数据来源本文数据取自2010年体测成绩(中国农大)共有学生6290个学生,三个年级,测试成绩有身高,体重,身高体重等级,肺活量,肺活量体重指数,肺活量体重分数,耐力类项目成绩,耐力类项目分数,耐力类项目等级,柔韧、力量项目成绩,柔韧、力量项目分数、柔韧、力量项目等级,速度、灵巧类项目成绩,速度、灵巧类项目分数,速度、灵巧类项

37、目等级,测试总分,总分等级。数据来源于中国农业大学体质健康测试中心:4.2描述性统计量样本数据是中国农业大学2010年的体测数据,在初步接触样本数据中国农业大学2010年的体测数据之前,有必要先从几个特征数认识一下它们,也就是先用MATLAB软件计算出样本的几个描述性统计量。包括均值(mean)标注差(std)最大值(max)最小值(min)极差(range)中位数(median)众数(mode)变异系数(cvar)偏度(skewness)峰度(krtosis)。通过以下表格形式给出,相关程序放在附件中。09级学生各个测试成绩数据的描述性统计量如表4-1。08级学生各个测试成绩数据的描述性统计

38、量如表4-2。07级学生各个测试成绩数据的描述性统计量如表4-3。平均值(mean)标准差(1)最大值(max)最小值(min)中位数(median)众数(mode)变异系数(cvar)偏度(skewness)身高167.69027.8421193.9143.3167.31670.04680.1618体重58.529410.4931119.937.456.950.30.17931.3235肺活量3.56e+03852.499673597263.45e+0328630.23960.3749耐力类51.38348.3003913050450.16151.4405柔韧、力量32.796415.121

39、486.4-19.729.519.90.46110.2823速度、灵巧2.02320.31562.951.011.971.850.1560.1341表 4-1 09级学生各个测试成绩数据的描述性统表4-2 08级各个测试成绩数据的描述性统计量平均值(mean)标准差(1)最大值(max)最小值(min)中位数(median)众数(mode)变异系数(cvar)偏度(skewness)身高167.93637.688196.1148.30.0458164.10.04580.0458体重58.685710.6593112.63557.253.70.18161.1005肺活量3.55e+03874.5

40、4476601659343128230.24660.3199耐力类50.1718.0083883049450.15961.4881柔韧、力量类31.815815.858486.1026.6519.90.49840.2826速度、灵巧类1.97690.31762.941.161.941.680.16060.1258表4-307级各个测试成绩的描述性统计量平均值(mean)标准差(std)最大值(max)最小值(min)中位数(median)众数(mode)变异系数(cvar)偏度(skewness)身高168.14497.6359 1192.2144.1167.7171.10.04540.167

41、2体重58.911311.0641123.735.156.6553.20.18781.1543肺活量3.64e+03868.61286218731349831980.23890.3002耐力类49.80577.7216883148450.1551.513柔韧、力量31.956415.935875.1027.119.90.49870.2934速度、灵巧2.01610.29122.851.1622.160.14440.03594.3 方差分析本节主要研究13个学院学生的身高有无显著性差异,在进行了单因素一元方差分析,先进行正态性检验和方差齐性检验,样本数据不符合这两个检验,那就进行非参数方差分析。

42、4.3.1 正态性检验调用lillietest函数分别对13个学院学生身高进行正态性检验,相应程序如下:>> x,y=xlsread('2010.xls');%读取文件>> sg=x(:,3);% 提取矩阵x的第3列数据,即全部学生的身高>> college=y(2:end,1);% 提取元胞数组y的第1列的第2行至最后一行数据,即全部学生所在学院的名称数据>> college_id = x(:,1);% 提取矩阵x的第1列数据,即全部同学所在学院的编号数据>>%*正态性检验*% 调用lillietest函数分别对13

43、个学院学生的身高进行正态性检验>> for i=1:13 sgi=sg(college_id=i);% 提取第i个学院的身高数据 h,p=lillietest(sgi);% 正态性检验 result(i,:)=p% 把检验的p值赋给result变量 endresult = 0.1538 0.0010 0.1627 0.0010 0.0201 0.0206 0.0010 0.0382 0.0010 0.0335 0.0037 0.32480.0792运行以上程序得出检验的p值,可知动科学院、工学院的p值大于0.05,在显著性水平0.05下可认为这两个学院的学生身高服从正态分布。4.3

44、.2 方差齐性检验调用vartestn函数分别对13个学院学生身高进行方差齐性性检验,相应程序如下:>>%*方差齐性检验*% 调用vartestn函数进行方差齐性检验>> p,stats=vartestn(sg,college)p = 9.4377e-013从上面结果可以看出,检验的p值p= 9.4377e-013<0.05,说明在显著性水平0.05下拒绝原假设,即不满足方差分析的基本假设。Vartestn函数还生成了两个图形:分组汇总表(Group Summary Table)和箱线图。箱线图如图4-1所示。stats = chisqstat: 83.3505

45、df: 12Group Summary TableGroup Count Mean Std Dev动科学院331 167.926 8.8484动医学院304 166.7526 8.2034工学院805 169.4667 7.3946经济管理学院723 166.8833 7.0331理学院451 168.571 8.5757农学与生物技术学院1025 166.854 7.9307人文与发展学院347 165.5951 7.1121生物学院368 168.5467 8.3122食品科学与营养工程学院462 166.2325 6.8377水利与土木工程学院582 169.1703 6.8839信息与

46、电气工程学院753 169.6278 7.2492资源与环境学院121 167.405 8.394教务处18 169.9556 8.2329Pooled 6290 167.9161 7.62Bartlett's statistic 83.3505Degrees of freedom 12p-value 9.4377e-013分组汇总表包含了分组的一些信息,有组名(即学院名称)Group,各组所包含的样本容量Count,各学院的身高平均值Mean, 各学院的身高标准差Std Dev。Pooled所在的行表示样本的联合信息,包括总人数,总平均值和样本联合标准差。分组汇总表的最后一部分是方差

47、齐性检验的相关信息,包括Bartlett检验统计量的观测值、自由度和检验的p值。4.3.3 非参数方差分析单因素一元方差分析要求各组样本均来自于正态总体,并且各正态总体需要具有一样的方差,在样本数据不满足这些条件的情况下,还可对身高进行非参数方差分析。下面调用kruskalwallis函数对身高进行非参数方差分析,代码如下,相应的方差分析表如表4-4所列 data,str = xlsread('2010.xls');sg = data(:,1);group = str(2:end,1);p,table,stats=kr

48、uskalwallis(sg,group) 表 4-4 非参数方差分析表方差来源离差平方和自由度均方离差卡方值临界值卡方组间6.7809e+08125.6508e+07205.63912.2318e-37组2.0060e+1062773.1958e+06总计2.0738e+106289dkdygxyjjgllxynxswrwfzswspyysltmxxdqzyhjjwc145150155160165170175180185190195图 4-1 13个学院的学生身高的箱线图从结果看出,kruskalwallis函数返回的p值小于0.05,说明在显著性水平0.05下,拒绝原假设,认为不同学院的学

49、生身高有显著性差异。4.3.4 多重比较由于kruskalwallis非参数检验13个学院学生的身高有显著性差异,下面通过多重比较来检验在哪两种学院学生的身高的差异是显著的,调用multcompare函数对不同学院的学生身高进行多重比较,代码如下:>> % 调用multcompare对不同不同学院的学生身高进行多重比较>> c,m,h,gnames = multcompare(stats);>> c; % 查看多重比较的结果矩阵c>> gnames,num2cell(m) % 把m矩阵转为元胞数组,与gnames放在一起显示ans = '

50、动科学院' 3.1246e+03 99.8107 '动医学院' 2.8153e+03 104.1488 '工学院' 3.5271e+03 64.0019 '经济管理学院' 2.8797e+03 67.5339 '理学院' 3.2788e+03 85.5072 '农学与生物技术学院' 2.9029e+03 56.7191 '人文与发展学院' 2.5881e+03 97.4824 '生物学院' 3.2824e+03 94.6601 '食品科学与营养工程学院' 2.

51、7311e+03 84.4831 '水利与土木工程学院' 3.4725e+03 75.2713 '信息与电气工程学院' 3.5882e+03 66.1749 '资源与环境学院' 3.0212e+03 165.0814 '教务处' 3.5164e+03 428.0107运行以上程序,得出动科学院和人文与发展学院、工学院、信息与电气工程学院学生的身高差异显著。动医学院和工学院、信息与电气工程学院学生的身高差异显著。工学院和动科学院、动医学院、经济管理学院、农学与生物技术学院、人文与发展学院、食品科学与营养工程学院学生的身高差异显著。经

52、济管理学院和工学院、水利和土木工程学院、信息与电气工程学院学生的身高差异显著。理学院和人文与发展学院、食品科学与营养工程学院学生的身高差异显著。农学与生物技术学院和工学院、水利和土木工程学院、息与电气工程学院学生的身高差异显著。人文与发展学院和动科学院、工学院、理学院、生物学院、土木工程学院、息与电气工程学院学生的身高差异显著。生物学院和人文与发展学院、食品科学与营养工程学院学生的身高差异显著。食品科学与营养工程学院和工学院、水利和土木工程学院、信息与电气工程学院学生的身高差异显著。水利和土木工程学院和动医学院、人文与发展学院、食品科学与营养工程学院学生的身高差异显著。信息与电气工程学院和动科学院、动医学院、经济管理学院、农学与生物技术学院、人文与发展学院、食品科学与营养工程学院学生的身高差异显著。4.4 回归分析 本节先对各个数据进行相关性分析,观察各数据的相关性,在进行回归分析时,主要对身高和体重的一元回归,身高、体重和肺活量的二元回归。其中sg代表身高,tz代表体重,sgtzfs代表身高体重分数,fhl代表肺活量,fhltzfs代表肺活量体重分数,nl代表耐力,nlfs代表耐力分数,rrll代表柔韧力量,rrllfs代表柔韧力量分数,sdlq代表速度灵巧,sdlqfs代表速度灵巧分数,zf代表总分。4.4.1 相关性分析调用corrcoef函数对样本数据进行相关分析,得到

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论