体育统计方法与实例第三章-统计描述_第1页
体育统计方法与实例第三章-统计描述_第2页
体育统计方法与实例第三章-统计描述_第3页
体育统计方法与实例第三章-统计描述_第4页
体育统计方法与实例第三章-统计描述_第5页
已阅读5页,还剩120页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《体育统计方法与实例》第三章统计描述统计描述描述统计频数分析统计图表第一节

描述统计学习目标:目标1掌握集中量数的统计意义及计算方法目标2掌握差异量数的统计意义及计算方法目标3掌握变异系数的统计意义及计算方法在分析或研究体育现象时,常常以样本特征数(描述样本信息特征的数值)去估计总体参数,样本特征数的指标主要有集中量数指标和离散量数指标两种。第一节描述统计描述统计量包括:1集中量数指标2离散量数指标3分布参数4描述统计的SPSS例解第一节描述统计1集中量数指标

反映一群性质相同的观察值的平均水平或集中趋势的统计指标即为集中量数。常用的有:算术平均数、中位数、众数、百分位数等,下面针对这几种集中量数的涵义及小样本的计算方法进行举例说明,大样本的计算方法见后面的SPSS软件的介绍。第一节描述统计一、集中量数指标包括:1算术平均数(Average)2中位数(Median)3众数(Mode)4百分位数(Percentile)一、集中量数指标

1.算术平均数(Average)(1)定义:所有同质数据的总和除以数据的个数所得的商,即为该组数据的算术平均数,简称平均数、均数或均值。就是说,如果有一组数据(I=1,2,3…n),把

(3-1-1)称为本组数据的算术平均数。其中为数据的总和;(读作Xbar)为算术平均数;为某个体变量。(2)平均数的直接计算方法[例3-1-1]若有5人的跳高成绩(单位:米)为:1.601.621.681.651.64,求其跳高成绩的算术平均数。解:5人跳高成绩的算术平均数为:

一般情况下,计算的最后结果要比原始数据多保留1位小数,下同。(3)平均数的加权计算方法数据分组后,可以利用加权法计算算术平均数。加权法可以根据频数分布表中数据的频数计算均数,也可以根据事先设置的权重计算均数。权重就是各个数据的重要程度的系数(所有数据的权重之和等于1)。加权法计算均数多用于学生体质或者体育综合成绩的计算、教学评估的合成分数以及多组数据平均数的合成。加权法计算算术平均数的公式为:(3-1-2)[例3-1-2]

某年级有四个班学生的体育成绩,1班有35人,平均分为75分;2班有32人,平均分为78分;3班有36人,平均分为81分;4班有30人,平均分为79分,求4个班体育成绩的总平均分。[例3-1-3]

某教师在学期末的100名学生学评教中,教学基本功、教学内容、教学方法以及教学创新的得分分别为95分、89分、92分、85分,学校规定教学基本功、教学内容、教学方法以及教学创新的得分权重分别是30%、40%、20%、10%,试计算该教师学期末的学评教(总)平均得分。[例3-1-4]

某班20名男生的引体向上成绩如表3-1-1所示,求平均数。表3-1-120名男生的引体向上成绩

[例3-1-5]

有一组跳远数据的频数分布资料,如表3-1-2所示,计算平均数。表3-1-2100名学生跳远成绩的频数分布平均数的优缺点:优点:均数计算简便,适合代数运算,是一个用途最广效果也很好的统计量。既考虑到频次的多少又考虑到变量值的大小,它可靠、灵敏,也是对资料所提供信息运用最充分。缺点:均数易受少数极端数据的影响而大大改变其数值,故严重偏态的分布,用均数往往不能较好地反映资料的集中趋势。平均数的意义:(1)平均数是反映同质对象观察值的平均水平或集中趋势的统计量。适用于定距以上测度的变量。(2)对于多组数据,在同质、同单位的情况下,利用平均数可以比较多组数据的平均水平。2.中位数(Median)

将样本的观察值按其数值大小顺序排列起来处于中间位置的那个数即为中位数。它处于频数分配的中点,不受极端数值的影响。中位数用“”表示。中位数的计算公式:⑴当为n奇数时,则位于中间位置[第(n+1)/2位置]的那个数即中位数:(3-1-3)⑵当为n偶数时,则位于中间两项,第与第位置的两数]的平均数即中位数:(3-1-4)计算步骤:⑴将数据按照从小到大的顺序排列起来⑵求项数:Om=(n+1)/2

⑶求中位数[例3-1-6]若由8名运动员的纵跳成绩(单位:米)为:10.2010.3510.8410.6810.9211.0511.2111.38,试求中位数。⑴将数据按照从小到大的顺序排列起来10.2010.3510.6810.8410.9211.0511.2111.38⑵求项数:Om=(n+1)/2=(8+1)/2=4.5即中位数位于第四和第五项之间⑶求中位数:Me=(10.84+10.92)/2=10.88中位数的优点:

当数据严重偏态,有个别极端值特别大或特别小时,不会影响中位数的大小.因而在当数据严重偏态,平均数失去应有的代表性时,用中位数来反映数据的集中趋势更合适.适合于定序以上的变量.3.众数(Mode)定义:数据中出现次数最多的数据为本组数据的众数,它能明确反映数据分布的集中趋势。众数是一种位置平均数,不受极端数据的影响。但并非所有的数据组都有众数,一组数可能存在一个众数,也可能存在多个众数,众数用“”表示。众数的计算方法:对于小样本数据,直接数出数据的个数,个数最多的数据为本组数据的众数。如果样本量较大,在频数分布表中频数分布最多的那一组的组中值即为本组数据的众数。

[例3-1-7]已知100名某年龄组跳远成绩的频数分布表如下,试求本组数据的众数。表3-1-3100名某年龄组跳远成绩(单位:厘米)的频数分布表

在表3-1-3中,频数最多的是第5组,频数为25,该组的组中值为(330+346)/2=338,故本组数据的众数为338.注意:中位数、众数受极端数据(数值非常大或非常小)的影响较小。算术平均数、中位数、众数间的关系:

当频数分布呈完全对称分布时,算术平均数、中位数、众数三者相同,如图3-1-1所示。图3-1-1对称分布

当频数分布呈正偏态时,算术平均数大于中位数、众数小于中位数,如图3-1-2所示。图3-1-2正偏态分布

当频数分布呈负偏态时,算术平均数小于中位数、众数大于中位数,如图3-1-3所示。图3-1-3负偏态分布

平均数、中位数和众数都是描述数据集中趋势的统计量,它们分别适用于不同分布的数据资料。平均数适用于无异常值的正态或近似正态分布的数据资料;中位数适用于存在异常值且严重偏态的数据资料;众数适用于分布不匀,而个别数据重复次数较多的数据资料。4.百分位数(Percentile)定义:

百分位数是将数据按由小到大的顺序排列起来后,用99个点将数据100等分,处于各分点位置上的数,称为百分位数,用Pk(或xi)表示。其中,k=1,2,…,99表示百分位数的位置或分点或分点所对应的分数。Pk表示有k%的数据小于等于Pk,有(100-k)%的数据大于等于Pk。P50就是中位数Me。分点的位置记为i。百分位数的计算过程与中位数类似,具体步骤如下:(1)将数据从小到大排列后为(2)确定所求百分位数的位置i。设求第k百分位数,则位置为:(3-1-5)(3)确定百分位数Pk。若计算i为整数,则直接在排好的数据中找到第i个数据即所求。若计算i为小数,则取i两侧的数据中求算术平均数即所求。[例3-1-8]测得30名男生的助跑摸高的数据(单位:cm)如下:

求第25、50、75百分位数。解:1)将30个数据从小到大排列后如下:2)确定所求百分位数的位置i。设求第25百分位数,则位置为:

结果不为整数,说明第25百分位数的位置在第7位与第8位观测值的中间。3)确定百分位数。取第7位和第8位观测值的算术平均数作为第25百分位数,即288是第25百分位数,说明有25%的摸高数据比它小。也可理解为该群体有100个摸高数据,则会有25个数据比288小。同理可得,第50百分位数是301.5,第75百分位数是311。这三个等分点把原始数据四等分,称为第一四分位数、第二四分位数、第三四分位数,分别记为Q1、Q2、Q3,它们统称为四分位数,记为Q。百分位数适用于定序以上的数据。任何一组数据,尽管它们属同质的数据,但在量上又是由具有差异的个体组成的,这些数据既是同质的又是有差异的,有时用集中位置量数难以反映一组数据的全貌,这是由于一组数据除了集中水平的一面,还有离散程度的一面。例如:两组运动员引体向上的成绩如下:甲组:3,5,5,5,5,6,6。=5乙组:1,2,4,5,6,9,8。=5二、

离散量数指标

以上两组成绩的平均数皆为5次,但其组内观察值的分布情况却不相同,乙组离散程度要大于甲组,因此,要全面反映变量的特征,除了考察变量的平均水平外,还必须要反映离散程度。离散量数是反映一群性质相同的观察值的离散程度的统计指标。常见的有:极差、四分差、方差、标准差、变异系数。1.极差(全距)(Range)

极差是一组数据的最大值和最小值的差,用字母R表示。

即:

(3-1-6)R越大表示数据的离散程度越大,反之则越小。使用极差描述数据的离散程度公式简介,但是公式中只是涉及到了最大值和最小值两个数据,而中间的大部分数据信息未在极差中体现,信息不全,故容易受到极值的影响。如果存在极端数据,不宜采用R来描述数据的离散程度。极差适用于定量数据。二、

离散量数指标[例3-1-9]

采用[例3-1-6]的数据,8名运动员的纵跳成绩(单位:米)为:10.2010.3510.8410.6810.9211.0511.2111.38,试求极差。解:

2.四分差(QuartileDeviation)

四分差(四分位差)是一组数据中第三四分位数与第一四分位数之差的一半。记为计算公式为:

(3-1-7)

四分差的意义是除去两端各四分之一的部分,用剩余中间的一半来测定四分之一的距离大小。它去掉了极端数据,不受极端值的影响,在反映数据的离散程度方面较之极差略准确一些。它适用于定量数据。[例3-1-10]

采用[例3-1-8]的数据,测得30名男生助跑摸高的数据(单位:cm)如下:318293313307320308319310301302289301294299322276315267301287261263306305312304278276306291求四分差。解:由[例3-1-8]的计算结果可知Q3=P75=311Q1=P25=288,因此3.

标准差(StandardDeviation)与方差(Variance)

标准差是所有变量值与其均数的离差平方的算术平均数的平方根。方差是所有变量值与其均数的离差平方的算术平均数。方差常用在统计推断中,方差的单位时原始变量值单位的平方,不太符合习惯。两者都适用于定量数据。

对于原始数据来讲,若一个总体中有N个观察值,

则总体标准差的计算公式为:(3-1-8)

总体方差的计算公式为:(3-1-9)其中,σ2为方差,μ为总体均数,N为总体中的个体数目。

如果一个样本包涵了n个观察值则样本标准差S的计算公式为:

(3-1-10)

根据数理统计的研究,用样本资料获得的标准差差,往往比总体标准差偏小,为了得到总体标准差较好的估计值,可将分母中的n减去1,即(3-1-11)其中,S样本标准差,n-1为自由度(能够进行独立变化的变量个数),记为。方差的计算公式为

(3-1-12)[例3-1-11]

求2,4,6的标准差和方差。解:==

=2

也可利用下面的公式,省去计算平均数,如果平均数不是整数的话,根据四舍五入的均值计算的标准差不是很准确。

(3-1-13)小样本标准差的直接求法(不计算均值)步骤如下:⑴列标准差的计算表,求出变量的和∑X和变量的平方和∑X2⑵根据标准差的计算公式求S,其计算式为[例3-1-12]10名学生的引体向上的数据(单位:次)为:7、3、9、6、10、12、5、11、4、13,试求其标准差。解:⑴列标准差的计算表,求出变量的和∑X和变量的平方和∑X2表3-1-4标准差的计算表⑵根据标准差的计算公式求S,其计算式为标准差的意义:标准差是描述数据离散程度的统计量;对于多组数据,在同质、同单位、均数相等或近似相等的情况下,可以比较多组数据的离散程度(三个条件缺一不可);标准差越小,说明观察值的离散程度越小,标准差越大,说明观察值的离散程度越大。经计算:=40.23m,=40.23m;=0.945m,=2.07m

两个队员的标枪成绩的平均数都是40.23m,但是观察甲队员的最好成绩为42.10m,最差成绩为38.70m,而乙队员的最好成绩为43.32m,最差成绩为29.50m,甲队员的成绩相对乙队员的成绩较整齐,并且计算得知S甲=0.945m<S乙=2.07m,说明甲队员的成绩比乙队员稳定。4.变异系数(CoefficientofVariation)

变异系数是反映变量离散程度的统计指标,是以样本标准差除以平均数的商的百分比来表示的,表达式为:CV=(3-1-14)

变异系数CV是相对数,无单位。CV的值越小,运动员成绩越稳定;反之,越不稳定。引入变异系数的原因:在比较多组数据的离散程度时,对于性质不同或单位不同或平均数不相等的数据,就不能利用标准差比较了;变异系数是描述数据离散程度的统计量,在比较多组数据的离散程度时,利用变异系数比较不受上述三个条件的限制。[例3-1-13]有一位男运动员,其主项是100米,兼项是跳远。在竞赛期内,其主、兼项的20次测试结果是:100米:=12秒,S1=0.15秒;跳远成绩:=5.9米,S2=0.18米,试比较该运动员的主、兼项成绩的稳定性。解:CV100=CV跳远=因为CV100<CV跳远,所以,该运动员的主项100米成绩稳定。变异系数的应用:

比较性质不同、单位不同或者均数不等的数据的稳定性(选择参赛运动员);应用于训练:对于同组训练的运动员,若他们成绩的变异系数的值相差较大,则说明他们不适合同组训练,应分别制定不同的训练计划。

前面两个样本特征数集中量数和离散量数分别反映了数据分布的集中和离散趋势特征,但是数据分布的形状是否对称、偏斜程度和扁平程度等还没有被描述,数据分布的形状通常用峰度和偏度来描述。测定数据分布的偏度和峰度最常用的方法是计算偏度系数和峰度系数。三、

分布参数1.偏度系数(Skewness)

偏度系数是反映数据分布的偏斜方向和程度的指标,用SK来表示。有原始数据计算SK的公式为:(3-1-15)若SK=0,则分布对称,SK越接近于0,偏斜程度越低。若SK>0,则分布右侧有长尾,称正偏态,如图3-1-4;若SK<0,则分布左侧有长尾,称负偏态,如图3-1-5。高度偏态:SK>1或SK<-1;中度偏态:0.5<SK<1或-1<SK<-0.5三、

分布参数

图3-1-4正偏态分布SK>0

图3-1-5负偏态分布SK<0[例3-1-14]24名男生1500米跑的分数如下,626357737057777776588581445448505359774568738060

试求偏度系数SK.解:求原始数据的平均数和标准差得:平均值为:64.5分,标准差为12.3分,则

2.峰度系数(Kurtosis)

峰度系数是反映数据分布尖峰或平峰程度的指标,用Ku来表示。有原始数据计算Ku的公式为:

(3-1-16)若Ku=0,则为正态分布;若Ku>0,则为尖峰分布;若Ku<0,则为平峰分布。三、

分布参数图3-1-6峰度系数与分布形态[例3-1-15]采用[例3-1-14]24名男生1500米跑的分数的数据,试求偏度系数SK.解:求原始数据的平均数和标准差得:平均值为:64.5分,标准差为12.3分,则

在体育实践中,往往是大样本数据,利用公式计算非常繁琐,容易出错,SPSS软件解决了这个问题,下面结合实例介绍统计描述量的计算过程。[例3-1-16]某年龄段104名男生助跑摸高的成绩如下(单位:cm),请运用SPSS软件计算其平均数、中位数、众数、标准差、方差、极差、最大值、最小值、四分位数、偏度系数和峰度系数、第10、30、90百分位数。四、

描述统计的SPSS例解用SPSS软件进行描述统计的步骤如下:⑴选择“分析(A)”菜单→“描述统计”→“频率(F)”命令,弹出如图3-1-7所示的对话框。⑵双击“助跑摸高”,将其选入变量(V)复选框,然后单击“统计量(S)”按钮。弹出如图3-1-8所示的对话框。⑶单击均值、中位数、众数、标准差、方差、范围、最大值、最小值、偏度、峰度、四分位数、然后单击“百分位数”,在其后的空格里分别输入10、30、90后,依次单击下面的“添加”按钮,然后单击“继续”按钮,返回上一级菜单。⑷单击“确定”按钮,完成计算。其结果如表3-1-4所示。图3-1-7“频率(F)”对话框图3-1-8“频率:统计量”对话框表3-1-4统计量

本例的输出结果:表3-1-4是描述统计结果,显示样本量N=104;缺失值=0;104名男生助跑摸高的均值=296.53,中位数=301.00,众数=306,标准差=17.005,方差=289.164,偏度系数=-0.855,峰度系数=0.051,极差(全距)=69,最小值=253,最大值=322,第一四分位(25%)=287.25,第二四分位(50%)=301.00(即中位数),第三四分位(75%)=307.75,第10百分位数=266.00,第30百分位数=292.00,第90百分位数=315.00。练习题3.1

一、单项选择题

1.当数据分布基本对称时,用()能较好的反映数据的集中趋势和平均水平。A.平均数B.中位数C.变异系数D.众数

2.甲、乙两名同一项目运动员的标准差,S甲<S乙,则说明()A.甲运动员成绩好于乙运动员 B.甲运动员成绩不如乙运动员C.甲运动员成绩稳定性好于乙运动员 D.甲运动员成绩稳定性不如乙运动员

3.需要比较100米和跳远项目成绩的稳定性,但项目不同质、单位和均数也不同,可以用下面()比较其离散程度?A.QB.SC.CVD.R4.当数据呈严重偏态分布时,用()指标能更好地反映资料的集中趋势?A.中位数B.平均数 C.变异系数 D.标准差

5.如果计算得SK=0,Ku=0,则数据的分布为()A.尖峰分布 B.平峰分布 C.负偏态 D.正态分布二、填空题(1)在统计学中,表示___________,S表示___________。(2)在统计学中,μ表示___________,σ表示___________。(3)对于性质相同、单位相同的一组数据,若均数相等或者近似相等,一般来说,S越大,说明数据的___________越大;反之,说明数据的___________越小。(4)变异系数越大,说明数据的___________越大,说明运动员成绩越___________。(5)来自样本的统计指标,称为___________;来自总体的统计指标,称为___________。三、计算题1.已知一组数据:,试计算平均数、中位数、方差、标准差、变异系数、众数。2.某人50支射箭成绩如下表,求平均射箭成绩。3、已知某年龄组50名男孩的体重如下,试计算其中位数、第25、75百分位数、众数、四分差和极差。4.某班36名学生,体育测验成绩的标准差为9.6,求其离(均)差平方和四、SPSS操作题

随机抽取61名学生的立定跳远成绩(单位:厘米)如下,利用SPSS描述统计的功能求其平均数、标准差、中位数、众数、方差、第30、90百分位数、偏态系数和峰态系数。表3-1-561名学生的立定跳远成绩统计表第二节频数分析

学习目标:目标1了解变量的类型目标2掌握类别变量的频数分析目标3掌握连续变量的频数分析目标4能够用SPSS进行频数分析在体育科学研究中,通常会收集到多个变量的样本数据。统计分析一般是先对每个变量进行统计描述,以了解变量的大致分布情况和基本特征。统计描述主要有描述统计量(计算样本的数字特征)、频数分析和统计图表的使用。本节在描述统计量的基础上,介绍频数分析。一、

变量的分类认识变量的分类,对于选取合适的统计方法非常重要,根据变量的测量和取值情况,通常可以将变量分为四类。第二节频数分析

1.定类变量

定类变量也称为类别变量。只表示某一事物与其他事物在属性上的不同。不能排序。如运动员号码、学生的学号、性别、衣服的颜色、不同的专业等。根据其变量值,只能区分研究对象是否属于同一类别。如用1表示男生,用2表示女生,此时的1、2只表示学生的性别类型。定类变量没有绝对的0点,没有测量单位。变量值之间有“相等”和“不等”的关系,但是没有大小之分,不能进行大小比较,更不能进行加、减、乘、除四则运算。[例3-2-1]对某体育院校大学生的问卷调查中,问卷题目为:你的专业是:1.运动人体2.应用心理

3.运动康复4.体育教育

5.其他这个题目测量的是专业类别,对应的变量为定类变量,所以这个变量的5个取值没有大小之分。2.定序变量

定序变量也称为等级变量或顺序变量。可以就事物的某一属性的多少或大小依次排序。如:比赛中的名次(第一、二、三名)、等级制的学科成绩(优、良、中、合格、不合格)。又如,运动员等级、学历等。定序变量没有绝对的0点,没有测量单位。变量值之间有“等于”、“不等于”、序关系(优于、劣于等),但加、减、乘、除四则运算没有意义。[例3-2-2]

问卷题目为:你喜欢体育教师这个职业吗? (1)非常不喜欢(2)不喜欢 (3)无所谓(4)喜欢 (5)非常喜欢 对应的变量为定序变量,通常将选项的数字作为该变量的取值。本例中,变量值越高,表示越喜欢。3.定距变量

定距变量也称为间距变量,是指具有相同单位,但无绝对零点的数据。只能进行加减运算,不能进行乘除运算。如气温就是定距变量,30度低于31度,且29度、30度、31度之间均相差等距的1度。4.定比变量

定比变量也称为比率变量。是指具有相同单位和绝对零点的数据。可加减,也可乘除运算。如身高、体重、跳远成绩、学习成绩、反应时间等。数据的测量级别:定类和定序变量也称为离散变量或定性变量。定距变量和定比变量也称为连续变量或定量变量。定距和定比测量数据称为尺度测量数据,它和定序测量数据和定类测量数据一起构成了SPSS中规定的三种数据测量级别。尺度测量数据的测量级别最高,其次是定序测量数据,定类测量数据的测量级别最低。级别高的数据可以转换为级别低的数据进行分析,如可以将百分制成绩转换成等级制成绩进行分析。二、

类别变量的频数分析

定类数据在整理时除了列出数据的类别外,还要计算出每一类别的频数、频率(或比例、比率),同时选择适当的图表进行显示,以便对数据及其特征有一个初步的了解。频数──是落在某一特定类别(或组)中的数据个数。也称为次数。把某个类别(或组)及落在其中的相应频数全部列出,并用表格形式表示出来,称为频数分布。第二节频数分析

[例3-2-3]某射箭运动员30支箭的成绩分别为:整理后的频数分布表,见表3-2-1。表3-2-1某运动员射箭成绩频数分布表

定序数据,除了可使用上面的整理与显示技术外,还可以计算累积频数和累积频率(百分比)。[例3-2-4]某专业200新生的年龄及其分布可以整理成表3-2-2。

表3-2-2某专业新生年龄分布三、

连续变量的频数分析

连续变量包括定距变量和定比变量,通常取值都很多,直接按变量的取值分类意义不大。

[例3-2-5]某小学四年级52名男生的身高资料如图3-2-1所示,试绘制频数分布表。图3-2-1某小学四年级52名男生身高资料

第二节频数分析

解:数据分组的步骤:1.确定分组。本例分8组。2.确定各组的组距。3.根据分组,整理成频数分布表,见表3-2-4。表3-2-452名学生身高资料频数分布表四、频数分析的SPSS例解

频数分析是描述统计中最常用的方法之一,它不仅可以产生详细的频数表,还可以按要求给出某百分位点的数值,以及常用的条图、直方图等统计图。[例3-2-6]某小学四年级52名男生的身高资料如图3-2-1所示,试绘制频数分布直方图。解:假设数据己输入完毕,变量名为“身高”,具体操作如下:步骤1:选择“分析”菜单,单击“描述统计”→“频率”命令。弹出“频率(F)”对话框。如图3-2-2所示。其中:显示频率表格复选择框,确定是否在结果中输出频数表,本例不选此项。图3-2-2“频数分布”对话框步骤2:在对话框左侧的变量列表中选择“身高”,单击按钮使之添加到“变量”框中。步骤3:单击“统计量”按钮,出现“频率:统计量”子对话框,如图3-2-3所示。图3-2-3“频率:统计量”子对话框该对话框的功能为定义需要计算的其他描述统计量。1.“百分位值”复选框组:定义需要输出的百分位数:可以选择:四分位数:显示25%、50%、75%的百分位数。将数据平分为所设定的相等等份:数值范围为2~100之间的整数。由用户定义百分位数:键入值的范围为0~100之间。键入数值后,单击“添加”按钮。可以键入多个百分位数。如果要剔除某个己选入的数据,可使用“删除”按钮。2.“集中趋势”复选框组:用于定义描述集中趋势的一组指标。包括:算术平均数、中位数、众数和总和。3.“离散”复选框组:用于定义描述离散趋势的一组指标。包括:标准差、方差、全距、最小值、最大值和均数的标准误。4.“分布”复选框组:用于定义描述分布特征的两个指标,偏度系数和峰度系数。 本例中,选择了如图3-2-3所示的部分统计量,单击“继续”按钮,返回“频率(F)”对话框。步骤4:单击“图表”按钮,出现“频率:图表有”子对话框,如图3-2-4所示。图3-2-4“频率:图表”子对话框

该对话框用于设定所做的统计图。 “图表类型”单选按钮组:定义统计图类型。系统默认状态为不输出图形,也可选择条形图、饼图、直方图。“图表值”单选择按钮组:当选择条形图和饼形图时,定义是按照频数还是按百分比做图。步骤5:单击“频率:格式”按钮,弹出“频率:格式”子对话框,该对话框用于定义输入频数表的格式,一般不用更改,使用默认设置即可。结果与分析: 在“频率(F)”对话框中,单击“继续”按钮,本例的输出结果如图3-2-5所示。图3-2-5[例3-2-6]的统计结果

本例的输出结果:左图为描述统计结果,显示样本量N=52;缺失值=0;52名学生身高的均值=143.833,中位数=143.450,标准差=7.5238,最小值=128,最大值=162.5,第一四分位(25%)=138.1,第二四分位(50%)=143.45,第三四分位(75%)=148.75。图3-5的右图为绘制出的直方图,右侧的图例中给出了均数和标准差。本例选择了显示正态分布曲线。一般系统默认的直方图分组数较多,本例对系统产生的直方图进行了人工设置,具体方法是:用鼠标双击图例,进入“图表编辑器”窗口,双击横轴组限数字,在“属性”对话框的“刻度”标签中,设置组距为5,数据显示范围为125—165;在工具栏上单击(“显示数字标签”)工具,选择在直方图上显示各组的频数。由图可见资料的分布与正态曲线比较吻合。第三节

统计图表

学习目标:目标1能够设计并制作统计表目标2掌握统计图的分类与制作为了更好地展示数据的分布特征,在描述统计和频数分析的基础上,往往用统计表和统计图来表达统计结果和对比分析,尤其在科研论文或者研究报告中应用更为广泛。一、统计表

将统计分析的事物的特征指标数值用表格的形式列出,即为统计表。合理的统计表可将数据和分析结果简明地表达出来,使数据有条理,系统化,便于分析和比较。1.统计表的结构

直观上看,统计表包括表号、标题、标目(包括横标目、纵标目)、数字、线条(一般为三线)、表注6部分。其基本格式如表3-3-1所示。(1)表号表号是表格的序号,位于表的正上方居中的位置。在整篇论文、研究报告或者章节中如果有多张表格,从前到后依次排序,其作用是对不同的表格进行区分,便于指示、查找。(2)标题标题是表格的名称,位于表的正上方居中的位置,紧接在表号的后面,与表号间隔一个空格的位置。其作用在于简要说明表格中资料的内容、资料的时间和空间范围等。如果表内数据的单位相同和样本量相同等可以在标题后用括号统一标注。(3)标目标目是表格中对数据含义的说明以及分类,有单位要注明单位。根据位置和作用,标目有分为总标目、横标目、纵标目,是分别对横行和纵列数据的含义进行说明和分类。总标目是对横标目和纵标目内容的概括,横标目的总标目位于表格的左上角,如表3-3-2所示的“年龄段”,纵标目的总标目根据是否需要来设置,如表3-3-2所示的“性别”。横标目位于表的左侧,向右说明各横行数字的含义,如表3-3-2所示的“各年龄段”;纵标目位于表头的上侧,向下说明各纵列数字的含义,如表3-3-2所示的“男”、“女”。表3-3-22015年150名武陵山民族地区不同年龄段健身组织成员的性别结构(人)**资料来源:2014年国家社科基金项目《武陵山民族地区全民健身组织网络建设与路径选择研究》的小样本(n=150)调查数据(4)数字数字是统计表中最具实质性的内容,是对研究对象的性质、特点、分布等情况量的描述。表内数字务必准确,用阿拉伯数字表示,填写完整,位数对齐,小数位一致,一般所有表格中都应该有数字的,如果数字是“0”,要填写“0”,表内相邻的相同数字均应照写,不能用“同上”或者“″”。如果某个表格中没有数字,要用“-”表示,以区分忘记填或者带给读者其他异议。(5)线条线条是构成表格的框架。一般具有三条横线,此类统计表又称为“三线表”。顶端和底端的两条线略粗,中间区分标目与数字的横线条略细,需要添加的其他横短线略细,以示区分。其他的线条略去,特别是表的左上角斜线和两侧的边线绝对禁止使用。(6)表注表注是对统计表格内的内容进行的补充说明。表格一般不列表注或者其他的文字说明,特殊情况需要说明时用“*”或者“A”或者“1)”标出,将说明文字写在表格的下面,如表3-3-2所示的“资料来源:……”。从内容上看,每张表又有主语和谓语。主语是指被研究的事物,如表3-3-2中的“年龄段”,一般位于表的左侧;谓语是指主语的各项指标,如表3-3-2所示的“男”、“女”,一般位于表的右侧,主语和谓语结合起来就构成了一个完整的句子。如表3-3-2可理解为“2015年150名武陵山民族地区健身组织成员中20岁以下的男女人数分别为7和13”。2.统计表的种类

常见的统计表根据变量的个数分为简单表和复合表。(1)简单表由一组横标目和一组纵标目组成的统计表称为简单表。如表3-3-3和表3-3-4所示。表3-3-3

某校学生人数情况(人)表3-3-4某大学体质健康标准达标情况(人)(2)复合表

按两个或两个以上标志结合起来分组的统计表称为复合表。如表3-3-5所示,将年龄、性别和城乡结合起来分组,可以分析不同年龄段、不同性别的城乡老年人的预期寿命。表3-3-5某地区不同性别城乡老年人预期寿命(3)编制统计表的基本原则和要求统计表的制作原则应是简明、实用、美观。具体要求如下:第一,表的构思要简单明了,要能够直观表达表中数字的内容,一目了然。一般表的分组标志不以超过3个,否则就会使读者茫然,建议制作多张表格,来说明不同的分组意义。第二,一个好质量的统计表要求各个标目的安排和分组层次分明,符合主谓语的陈述顺序,以便于分析和比较。第三,对于频数分布表,最好列出合计栏,方便获取整体情况的信息。合计根据需要可放在最后一行或者最后一列,对于各种专门的统计量,比如卡方值、P值等放在表的最后一列或者最后一行。二、

统计图

统计图是以统计数据为制图依据,利用EXCEL或者SPSS等软件把数据绘制成条形、箱型、面积、线型等几何形状来展示研究对象的结构特征、对比关系

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论