第6章 参数检验_第1页
第6章 参数检验_第2页
第6章 参数检验_第3页
第6章 参数检验_第4页
第6章 参数检验_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第6章 参数检验【学习目标】² 了解参数估计的含义。² 理解点估计和区间估计的含义。² 理解一个总体参数区间估计的几种情形和两个总体参数区间估计的几种情形。² 理解假设检验的基本原理。² 掌握SPSS中平均数比较与T检验的操作方法:平均数分析过程,单样本T检验,独立样本T检验和配对样本T检验。【引导案例】静静的顿河作者之争 静静的顿河是前苏联文学史上首屈一指的战争名著,它全景式的描写了俄国内战时期顿河流域的社会景观,堪称不朽的史诗。但自从静静的顿河诞生之日起,围绕其作者所引起的争议就没有停止过。有人指控肖洛霍夫是个骗子,说静静的顿河不是肖洛霍夫

2、所写,真正的作者是费奥尔克鲁乌科夫。挪威奥斯陆大学的前苏联文学教授盖尔·克其萨用计算机对静静的顿河进行了分析研究,其别具一格的论文曾发表在世界知名的权威杂志计算机与人文科学上,轰动一时。那么,克其萨教授怎样把统计学引入这本名著的研究的呢?克其萨教授与同事一起,对静静的顿河的文章风格和其他一些特点分别与肖洛霍夫和克鲁乌科夫的作品进行了统计分析。他们通过抽取的样品,研究了三个重要参数,为了对比,把肖洛霍夫的无可争议的作品作为第一组,静静的顿河作为第二组,克鲁乌科夫的作品作为第三组,其结果如表6-1所示。 表6-1 文学风格统计表 (单位:%)组别不同词汇量与总词汇量的百分比俄文中常见词汇

3、与作品总词汇量的百分比作品中出现一次的词汇占总词汇量的百分比第一组65.522.880.9第二组64.623.381.9第三组58.926.276.9根据表中的数据,所有参数都存在一致的趋势,即克鲁乌科夫的作品与静静的顿河之间,存在着显著的统计差异,所以,这部著作的真正作者很难说是克鲁乌科夫,相比之下,肖洛霍夫更像是静静的顿河的作者。本章介绍的内容可以帮助我们解决类似的问题。6.1 参数估计6.1.1 什么是参数估计估计就是根据所掌握的信息对客观世界进行某种判断。例如,根据一个人的衣着、言谈和举止判断其身份;根据上市公司公布的各种信息,估计其股票价格的走势等。统计中的估计是完全根据数据做出的判

4、断,我们把用样本统计量去估计总体参数称为参数估计(parameter estimation)。例如,用样本平均数估计总体平均数,用样本标准差估计总体标准差,用样本比例估计总体比例。通常我们用表示总体参数,用表示估计参数的统计量,当用来估计时,也称为估计量。根据一个具体的样本计算出来的估计量的数值称为估计值。例如,想要了解北京城市大学全体学生的英语成绩,抽取工商管理专业的100名学生作为样本,100名学生的平均成绩是一个估计量,若计算出来平均成绩是80分,则80分就是一个估计值。参数估计和假设检验一起构成了推断性统计的内容,它们在统计学中的地位如图6-1所示。图6-1 统计学基本内容构成图6.1

5、.2 点估计与区间估计 参数估计的方法有点估计和区间估计两种。1什么是点估计点估计(point estimation)就是将估计量的某个取值作为总体参数的估计值,即直接用样本平均数作为总体平均数,直接用样本标准差作为总体标准差,直接用样本比例作为总体比例。例如上例中将工商管理专业100名学生的英语平均成绩80分作为北京城市大学全体学生的英语成绩。点估计值代表总体参数值是直接给出一个具体数字,使用简便、直观。但是每次抽出一个样本就会产生一个估计值,每个估计值与总体参数的误差无法确定,即点估计的可靠性无法度量,因此点估计的使用有一定的缺陷,应该围绕点估计值构造总体参数的一个区间,这就是下面要介绍的

6、区间估计。2什么是区间估计现实生活中,人们在描述一个人的体重时,一般不会说其体重是76.35公斤,而是说他的体重是大概是七八十公斤,或者是在7080公斤之间。在描述员工的工资水平时,一般不会说员工的工资是2500元,而是说员工的工资水平是20003000元,即给出一个上限或下限,这就是区间估计(interval estimation)。区间估计就是在点估计的基础上,给出总体参数的一个估计区间,该区间通常是由样本统计量加减估计误差(estimate error)得到。在区间估计中,根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量。区间估计需要确定两个统计量和分别来估计

7、总体参数的下限和上限,并使在区间的概率为,即我们有的把握断定的真值在区间内。是一个事先给定的一个小正数,就是估计区间包括真值的概率,称为置信水平(confidence level)、置信系数或置信度,常用的是0.01,0.05和0.1,所以常用的置信水平是99%,95%和90%。估计区间称作参数在置信水平1-的置信区间(confidence interval),为置信下限,为置信上限。置信水平、置信区间的关系如图6-2所示。置信下限点估计值置信上限置信水平置信区间图6-2 置信区间示意图需要注意的是:置信区间是根据样本构造的,所以是一个随机区间,会根据样本的变化而变化,并不是所有的置信区间都包

8、含真值。例如,用95%的置信水平得到北京城市大学全体学生英语成绩的置信区间为6585,意味着在100次抽样中,大概有95次得到的置信区间包含了真值,有5次得到的置信区间不包含真值。假定全体学生英语成绩的平均数真值为70,则6585这个区间一定包含真值。假定全体学生英语成绩的平均数真值为60,则6585这个区间一定不包含真值。3评价估计量优劣的标准既然统计量仅是总体参数的一个估计量,它就不可能完全准确,而且总体某一参数的估计量可能不止一个,如样本平均数、样本中位数都可以用来估计总体平均数,但并非所有的估计量都是优良,我们常用三条标准去衡量估计量的优劣。(1)无偏性无偏性(unbiasedness

9、)是指估计量抽样分布的期望值等于被估计的总体参数。设是总体参数的估计量,若,则称是的无偏估计量。无偏性就是没有系统偏差,从平均意义上看,如果估计方法重复多次,则估计量的平均数就是总体参数。由样本均值的抽样分布可知,因此,是,的无偏估计量。(2)有效性有效性(efficiency)是指估计量的方差要尽可能小。所以,有效性是衡量离散程度的指标,若两个估计量都是无偏的,其中方差小的离散程度就小,其值更接近总体参数,我们认为它更有效。(3)一致性一致性(consistency)指的是随着样本容量的增大,如果估计量越来越接近总体参数的真值,就称该估计量是一致估计量。一致性实际上是要求从一个大样本得到的估

10、计量要比一个小样本得到的估计量更接近总体参数。6.1.3 一个总体参数的区间估计一个总体参数的区间估计包括对总体平均数,总体方差,总体比例的估计。1总体平均数的区间估计总体平均数的置信区间是由样本平均数加减估计误差得到。估计误差由两部分组成:一是点估计量的标准误差,它取决于样本统计量的抽样分布。二是置信水平为时,统计量分布两侧面积各为时的分位数值,它取决于事先所要求的可靠程度。(1)大样本估计大样本情况下,根据中心极限定理可知,样本平均数经标准化后服从标准正态分布,即。若总体标准差已知,总体平均数在置信水平下的置信区间为: (6.1)式中,是置信下限,是置信上限,是标准正态分布两侧面积各为时的

11、值,是标准误差,是估计误差。若总体标准差未知,用代替,总体平均数在置信水平下的置信区间为: (6.2)(2)小样本估计小样本情况下,要求总体服从正态分布。若总体标准差已知,样本平均数经标准化后服从标准正态分布,总体平均数在置信水平下的置信区间仍是式(6.1)。若总体标准差未知,样本平均数经标准化后服从自由度为的分布,即,则总体平均数在置信水平下的置信区间是: (6.3)【例6-1】英语成绩.sav是北京城市大学26名学生的期中和期末的英语考试成绩。请估计期中平均成绩的95%的置信区间。(1)观察数据样本量是26所以采用小样本估计的方法。(2)单击【分析】【均值比较】【单样本T检验】,打开单样本

12、T检验对话框。(3)从左侧源变量窗口选择期中考试成绩(score1)进入【检验变量】窗口。(4)在【检验值】后面的窗口输入检验值0,如图6-3所示。图6-3 单样本T检验对话框(5)单击【选项】按钮,在【置信区间百分比】窗口后面输入95%。单击【继续】,返回单样本T检验对话框。单击【确定】,提交运行。(6)结果分析。在结果输出窗口得到表6-2。由表可知期中平均成绩95%的置信区间是59.700269.5306。表6-2 单个样本检验检验值 = 0 tdfSig.(双侧)均值差值差分的95%置信区间下限上限期中考试成绩27.07525.00064.6153859.700269.53062总体比例

13、的区间估计大样本条件下,样本比例服从期望值为,方差为 的正态分布,样本比例经标准化后服从标准正态分布,即:,总体比例的置信区间也是点估计量±估计误差得到的,则总体比例在置信水平下的置信区间是: (6.4)3总体方差的区间估计假定总体服从正态分布,样本方差的抽样分布服从自由度为的分布,即: (6.5)建立总体方差的置信区间,就是要满足,用式(6.5)来代替,有: (6.6)则总体方差在置信水平下的置信区间是: (6.7)图6-4总结了一个总体参数估计所使用的分布的各种情形。待估参数总体平均数总体比例总体方差大样本小样本 Z分布总体方差已知总体方差未知 大样本Z分布分布 Z分布 t分布正

14、态分布图6-4 一个总体参数估计所使用的分布6.1.4 两个总体参数的区间估计两个总体参数的区间估计包括对两个总体平均数之差,两个总体的比例之差,两个总体的方差比的估计。1两个总体平均数之差的区间估计从两个总体平均数分别是和的总体中分别抽取样本量是和的两个随机样本,样本平均数分别是和,则两个总体平均数之差的点估计量是两个样本均值之差,两个总体平均数之差的置信区间是点估计量加减估计误差。(1)独立大样本估计若两个样本是从两个总体中独立抽取的,则一个样本与另一个样本相互独立,称为独立样本(independent sample)。若两个样本都是大样本,两个样本平均数之差服从期望值为、方差为的正态分布

15、,经标准化后两个样本平均数之差服从标准正态分布,即: (6.8)若两个总体方差和都已知,则两个总体平均数之差在置信水平下的置信区间为: (6.9)若两个总体方差和都未知,则用两个样本方差和来代替,两个总体平均数之差在置信水平下的置信区间为: (6.10)(2)独立小样本估计若两个样本都是小样本,则要求两个总体服从正态分布。若两个总体方差和都已知,两个总体平均数之差在置信水平下的置信区间为与大样本情形相同,见式(6.9)。两个总体方差未知时,又分成两种情况:两个总体方差未知但相等时,即,需要将两个样本的数据合并起来估计的估计量,计算公式是: (6.11)所以,两个样本平均数之差经标准化后服从自由

16、度为的分布,即: (6.12)则两个总体平均数之差在置信水平下的置信区间为: (6.13)两个总体方差未知且不等,即,两个样本平均数之差经标准化后近似服从自由度为的分布,自由度的计算公式是: (6.14)所以,两个总体平均数之差在置信水平下的置信区间为: (6.15)【例6-2】英语成绩.sav是北京城市大学26名学生的期中和期末的英语考试成绩,其中男生和女生各13人,请建立男生和女生平均成绩之差的95%的置信区间?(1)男生样本和女生样本形成两个独立样本,其样本量分别是13,所以采用小样本估计的方法。(2)从左侧源变量窗口选择变量期中考试成绩(score1)进入【检验变量】窗口。(3)从左侧

17、源变量窗口选择变量性别(sex)进入【检验变量】窗口。单击【定义组】按钮,打开确定分组对话框,选择【使用指定组】方式,在【组1】和【组2】窗口后分别输入1和2,单击【继续】返回独立样本T检验分析对话框,如图6-5所示。图6-5 独立样本T检验对话框(4)单击【选项】按钮,在【置信区间百分比】窗口后面输入95%。单击【继续】,返回单样本T检验对话框。单击【确定】,提交运行。(5)结果分析。在结果输出窗口得到表6-3。由表可知男生和女生平均成绩之差的95%的置信区间是-16.945522.17629。表6-3 独立样本检验方差方程的 Levene 检验均值方程的 t 检验FSig.tdfSig.(

18、双侧)均值差值标准误差值差分的95% 置信区间下限上限期中考试成绩假设方差相等2.841.105-1.59424.124-7.384624.63245-16.945522.17629假设方差不相等-1.59419.978.127-7.384624.63245-17.048422.27919(3)配对样本的估计配对样本是对同一个研究对象在不同时间点上进行前后两次测量得到的样本。例如,企业薪酬方案改革前后,对员工满意度的测量就形成一组配对样本;一个班学生的期中和期末两次考试就是一组配对样本。在大样本情况下,两个总体平均数之差在置信水平下的置信区间为: (6.16)其中,表示两个配对数据的差值;表示

19、各差值的均值;表示各差值的标准差。当总体差值的标准差未知时,可用样本差值的标准差来代替。小样本情况下,假定两个总体各观察值的配对服从个正态分布。两个总体平均数之差在置信水平下的置信区间为: (6.17)【例6-3】英语成绩.sav是北京城市大学某班期中和期末的英语考试成绩。在期中考试后,教师根据学生的考试成绩发现了教学中存在的一些问题,及时调整了教学方法,请建立平均成绩之差的95%的置信区间?(1)观察两个配对样本的样本量都是26,所以采用小样本估计的方法。(2)单击【分析】【均值比较】【配对样本T检验】,打开配对样本T检验对话框。(3)从左侧源变量窗口选择变期末考试成绩(score2)和期中

20、考试成绩(score1)进入【成对变量】窗口,如图6-6所示。(4)单击【选项】按钮,在【置信区间百分比】窗口后面输入95%。单击【继续】,返回配对样本T检验对话框。单击【确定】,提交运行。图6-6 配对样本T检验对话框(5)结果分析。在结果输出窗口得到表6-4,由表可知期末与期中平均成绩之差的95%的置信区间是7.53116.1613。表6-4 成对样本检验成对差分tdfSig.(双侧)均值标准差均值的标准误差分的95%置信区间下限上限对 1期末考试成绩 - 期中考试成绩11.846210.6832.09527.5310316.161285.65425.0002两个总体比例之差的区间估计两个

21、总体比例之差的置信区间是由点估计量加减估计误差得到的。根据样本比例的抽样分布可知,从两个从两个二项分布总体中抽取两个独立大样本,则比两个样本比例之差近似服从正态分布,两个样本比例之差经标准化后服从标准正态分布,即: (6.18)由于两个总体比例和通常是未知的,所以用样本比例和来代替。因此,根据正态分布建立的两个总体比例之差在置信水平下的置信区间为: (6.19)3两个总体方差比的区间估计两个样本方差比服从分布,因此可用分布来构造两个总体方差之比的置信区间。建立两个总体方差之比的置信区间,也就是要找到一个值使其满足。由于,用它代替后有: (6.20) 所以两个总体方差之比在置信水平下的置信区间为

22、: (6.21)图6-7总结了两个总体参数估计所使用的分布的各种情形。待估参数总体均值差总体比例差总体方差比独立大样本独立小样本Z分布方差已知配对样本t分布独立大样本F分布Z分布方差未知正态总体Z分布方差相等方差不等Z分布t分布图6-7 两个总体参数估计所使用的分布6.2 假设检验6.2.1 假设检验的基本原理1什么是假设检验假设检验是推断统计的另一项重要内容。在研究问题时,人们常常要提出一个自己认为正确的看法,即假设(hypothesis)。统计学里的假设就是对总体参数具体数值所作的陈述。例如,假设北京城市大学全校学生的平均英语成绩是80分。而假设检验(hypothesis test)就是在

23、对总体参数提出假设的基础上,利用样本信息来判断假设是否成立的统计方法。例如,在假设北京城市大学全体学生英语平均成绩是80分的基础上,抽取一个班作为样本,根据样本信息检验全体学生的英语平均成绩是不是80分。假设检验包括参数检验和非参数检验两种方法,本章主要介绍参数检验,非参数检验的内容将在第10章介绍。2两种假设在假设检验中,首先需要提出两种假设:原假设和备择假设。(1)原假设也称零假设(null hypothesis),是研究者想收集证据予以推翻的假设,用表示。原假设的含义是指参数没有变化或变量之间没有关系,因此等号总是放在原假设上。例如,假设总体平均数为,则原假设是,或。(2)备择假设也称研

24、究假设(alternative hypothesis),是研究者想收集证据予以支持的假设,用表示。备择假设的含义是指参数发生了变化或变量之间有某种关系,因此不等号总是放在备择假设上。例如,假设总体平均数为,则备择假设是,或。(3)原假设和备择假设的关系原假设和备择假设是一个完备事件组,且相互对立,所以在一项假设检验中,原假设和备择假设必有且只有一个成立。通常我们先确定备择假设,再确定原假设,因为备择假设是我们想支持、证实的,而等号总是放在原假设上。但是由于研究目的不同,对同一问题可能提出不同的假设,因而也会得出不同的结论。【例6-4】消费者协会估计北京市场上偏好苹果手机的消费者不足20%,为了

25、验证这一估计是否正确,消费者协会随机抽取了一个样本进行检验,则原假设和备择假设应该是:(偏好苹果手机的消费者超过20%)(偏好苹果手机的消费者不超过20%)【例6-5】韩国一则报道称,中国是全球工作时间最长的国家之一,每年有60万人过劳死。我国法定工作时间是每周40个小时,为了估计我国员工的实际每周工作时间是否超过40小时,随机抽取一个样本,则原假设和备择假设应该是:(工作时间不超过40个小时)(工作时间超过40个小时)【例6-6】在一项关于农民工的研究中发现,相比于男性农民工,女性农民工的就业环境差,工资水平低,为了对这项研究进行验证,随机抽取一个样本,则原假设和备择假设应该是:(男性农民工

26、工资的平均数和女性农民工工资的平均数相等)(男性农民工工资的平均数和女性农民工工资的平均数不等)3双侧检验与单侧检验在假设检验中,若备择假设具有特定的方向性,并含有符号“>”或“<”的假设检验,称为单侧检验或单尾检验(one-tailed test),备择假设的方向为“<”,称为左侧检验,如例6-4,备择假设的方向为“>”,称为右侧检验,如例6-5。如果备择假设没有特定的方向性,并含有符号“¹”的假设检验,称为双侧检验或双尾检验(two-tailed test),如例6-6。4两类错误和显著性水平第类错误(type error)是原假设为正确时拒绝原假设,也称

27、为弃真错误。我们把犯第类错误的概率记为,称为显著性水平(level of significant)。第类错误(type error)是原假设为错误时未拒绝原假设,也称为取伪错误。我们把犯第类错误的概率记为。实际上,只要拒绝原假设,就有可能犯第类错误;只要不拒绝原假设,就有可能犯第类错误。换句话说,要减小就会增加,要减小就会增加。要想同时减小两类错误只能增加样本容量,但是我们也知道想要增加样本容量有时是不可能的。所以,对于两类错误的控制,主要是依据哪一类错误的后果更为严重,就首先控制哪类错误发生的概率。由于犯第类错误的概率是由研究者自己控制的,因此在假设检验中,人们往往先控制第类错误的发生概率。

28、通常,我们使用的值有0.01,0.05,0.1。5决策依据(1)用检验统计量决策检验统计量是根据样本变量值计算得到的对原假设和备择假设做出决策的统计量。通常使用经过标准化的检验统计量,即标准化的检验统计量,它可以度量点估计量与原假设的总体参数之间的差异。我们把能够拒绝原假设的检验统计量的所有可能取值的集合称为拒绝域(rejection region);将给定的显著性水平确定的拒绝域的边界值称为临界值(critical value),如图6-8所示。临界值临界值置信水平置信水平临界值拒绝域0临界值0拒绝域拒绝域拒绝域0 (a)双侧检验 (b)左侧检验 (b)右侧检验图6-8 显著性水平、拒绝域与

29、临界值用检验统计量做决策的步骤是:第一步:给定显著性水平,计算相应的临界值;第二步:将检验统计量的值与水平的临界值进行比较:双侧检验:,拒绝;左侧检验:,拒绝;右侧检验:,拒绝。(2)用值决策给定显著性水平是犯第类错误的上限控制值,但实际上检验统计量落在拒绝域的不同位置时,犯第类错误的实际概率是不一样的。如果能把犯第类错误实际概率计算出来,就可以根据这个概率做出决策。值(probability value method)就是犯第类错误的真实概率,也称为观察到的(或实测的)显著性水平,它指的是如果原假设正确,所得到样本结果的可能性。如果这个概率很小,意味着得到这样的样本是一个小概率事件,小概率事

30、件就是一个几乎不可能发生的事件,当一个不可能发生的小概率事件发生了,说明原假设有误,应该拒绝原假设。在现代统计学中,经常使用值做决策,它更方便,效果更好。图6-9描述了值与显著性水平、拒绝域与临界值的关系。【例6-7】检验北京城市大学全体学生英语平均分是否为80分,可提出, 。根据抽样计算出的学生英语成绩的平均分为70,p值为0.02,意味着北京城市大学全体学生英语平均分真是80分的话,抽中一个平均数是70的样本的概率是0.02。可见,一个小概率事件发生了,说明原假设是有误,应拒绝原假设。用值做决策的步骤是:第一步:给定显著性水平;第二步:将检验统计量的P值与进行比较,若,拒绝。01/2P值1

31、/2P值P值临界值(b)左侧检验(c)右侧检验(a)双侧检验临界值临界值00临界值P值 图6-9 P值与显著性水平、拒绝域与临界值常用的显著性水平,如0.01,0.05,0.10,已经被人们普遍接受为“拒绝原假设足够证据”的标准,我们大概可以说:0.1代表有“一些证据”不利于原假设;0.05代表有“适度证据”不利于原假设;0.01代表有“很强证据”不利于原假设。6假设检验结论的表述如果样本提供的证据可以拒绝原假设,就说检验的结果在统计上是显著的,即拒绝原假设时结论是清楚的;如果样本提供的证据不能拒绝原假设,就说检验的结果在统计上不是显著的。一项检验在统计上是“显著的”的含义是:根据样本得到的结

32、果不是偶然获得的;“不显著的”的含义是:根据样本得到的结果是偶然获得的。需要注意的是,不拒绝原假设时,并未给出明确的结论,没有足够证据拒绝原假设时,不采用“接受原假设”的表述,而采用“不拒绝原假设”的表述。7假设检验的步骤由上述内容可知假设检验的步骤是:第一步,提出原假设和备择假设;第二步,从所研究的总体中抽出一个随机样本;第三步,确定一个适当的检验统计量,并利用样本数据算其具体数值及其对应的值;第四步,确定一个适当的显著性水平,并计算出其临界值,确定拒绝域。第五步,将检验统计量的值与临界值进行比较,做出决策。若统计量的值落在拒绝域,拒绝,否则不拒绝。也可以直接将值与比较做出决策,若,拒绝,否

33、则不拒绝。6.2.2 假设检验的类型假设检验的类型可以分为一个总体参数的检验和两个总体参数的检验。其中,一个总体参数的检验包括总体平均数的检验,总体比例的检验和总体方差的检验,如图6-10所示。两个总体参数的检验包括两个总体平均数之差的检验,两个总体比例之差的检验和两个总体方差比的检验,如图6-11所示。一个总体参数总体平均数总体比例总体方差大样本小样本 Z检验总体方差已知总体方差未知 大样本Z检验检验 Z检验T检验正态分布图6-10 一个总体参数检验的方法两个总体参数总体均值差总体比例差总体方差比独立样本配对样本大样本小样本大样本Z检验F检验T检验正态分布小样本Z检验方差已知方差未知Z检验T

34、检验正态分布图6-11 两个总体参数检验的方法6.3 平均数比较与T检验在各种假设检验的类型中,关于平均数的比较和检验是使用频率最高的统计分析方法。虽然T检验主要用于小样本情况,但是在SPSS中也可以使用T检验对大样本进行处理。SPSS中的平均数比较和T检验主要包括平均数分析过程(means),单样本T检验(single sample T test),独立样本T检验(independent samples T test)和配对样本T检验(paired samples T test)四种方法。6.3.1 平均数分析过程平均数分析过程就是按定类或定序变量进行分组,计算每一组的平均数、标准差、总和、

35、方差等统计量,目的在于比较组与组之间的差异。1平均数分析过程的方法(1)打开卡方检验对话框单击【分析】【均值比较】【均值】,打开平均数分析对话框,如图6-12所示。图6-12 平均数分析对话框(2)选择分析变量从左侧源变量窗口选择要分析的数值型变量进入【因变量列表】窗口。(3)确定分组变量从左侧源变量窗口选择定类或定序变量进入【自变量列表】窗口,同时【下一张】按钮被激活,可通过【下一张】和【上一张】进行分层分析。(4)选择输出的统计量单击【选项】按钮,打开平均数分析选项对话框,如图6-13。该对话框包括三项内容:【统计量】窗口列出了可供输出的各种统计量。【单元格统计量】窗口列出了被选中的要输出

36、的统计量,其中平均数、个案数和标准差是默认输出选项。图6-13 平均数分析选项对话框【第一层的统计量】列出了第一层分组的另外两个统计量。【Anova表和eta】表示对分组变量进行单因素方差分析;【线性相关检验】表示对分组变量进行线性相关检验。上述操作完成后,单击【继续】返回频数分析对话框。再单击【确定】,提交运行。2平均数分析过程的实例【例6-8】上市公司高管薪酬.sav是关于我国上市公司CEO报酬的数据,请计算:(1)不同教育水平的上市公司CEO年度报酬均值;(2)不同最终控制人类型的上市公司CEO年度报酬均值;(3)最终控制人相同,教育水平不同的上市公司CEO年度报酬均值。(1)单击【分析

37、】【比较均值】【均值】,打开平均数分析对话框,如图6-所示。(2)从左侧源变量框选择变量CEO年度报酬(comp)进入【因变量列表】框。(3)从左侧源变量窗口选择变量CEO教育水平(edu)和最终控制人类型(control)进入【自变量列表】窗口。(4)单击【选项】按钮,打开平均数分析选项对话框,选择【均值】和【个案数】,如图4-4所示。单击【继续】返回频数分析对话框。单击【确定】,提交运行。(5)再重复(1)(2)和(3)步,将变量最终控制人类型(control)选入【自变量列表】后单击【下一张】,再将变量CEO教育水平(edu)选入【自变量列表】。单击【确定】,提交运行。(6)结果分析。在

38、结果输出窗口得到如下图表:观察表6-5可知不同教育水平的CEO年度报酬均值;观察表6-6可知不同最终控制人类型的CEO年度报酬均值。表6-5 不同教育水平CEO年度报酬均值CEO年度报酬CEO教育水平均值Ndimension1中专及以下637685.7114大专425678.35106本科534140.11316硕士599334.67485博士667137.0171总计565405.06992表6-6 不同最终控制人类型CEO年度报酬均值CEO年度报酬最终控制人类型均值Ndimension1国有549411.14633非国有593606.05359总计565405.06992表6-7报告了最终

39、控制人相同,教育水平不同的CEO年度报酬均值,由表可知国有和非国有的不同教育水平的CEO年度报酬均值有较大差异。表6-7 最终控制人相同,教育水平不同的CEO年度报酬均值CEO年度报酬最终控制人类型CEO教育水平均值Ndimension1国有dimension2中专及以下931928.577大专408496.0259本科506591.57196硕士574677.32329博士685516.6442总计549411.14633非国有dimension2中专及以下343442.867大专447247.6747本科579136.07120硕士651336.38156博士640518.2429总计59

40、3606.05359总计dimension2中专及以下637685.7114大专425678.35106本科534140.11316硕士599334.67485博士667137.0171总计565405.069926.3.2 单样本T检验 1单样本T检验的基本原理单样本T检验是通过计算出的样本平均数来估计总体平均数是否为某个确定的值,即检验样本平均数能否推断总体平均数。或者用来检验某个变量的平均数是否与给定的平均数是否有显著差异。单样本T检验的步骤是:第一步:提出原假设和备择假设。; 。第二步:选择显著性水平,可以是90%,95%或99%。第三步:根据计算出的值(即SPSS中的Sig)与进行比

41、较,做出判断:若,拒绝原假设;若,不拒绝原假设。2单样本T检验的方法(1)打开卡方检验对话框单击【分析】【均值比较】【单样本T检验】,打开单样本T检验对话框,如图6-14所示。图6-14 单样本T检验对话框(2)选择分析变量从左侧源变量窗口选择要分析的数值型变量进入【检验变量】窗口。(3)确定待检参数在【检验值】后面的窗口输入检验值。(4)确定置信水平和缺失值的处理方法单击【选项】对话框,打开选项对话框,如图6-15所示。【置信区间百分比】窗口后面可输入置信水平。图6-15 单样本T检验选项对话框【缺失值】中【按分析顺序排除个案】是只剔除分析变量为缺失值的个案;【按列表排除个案】是剔除任何含有

42、缺失值的个案。上述操作完成后,单击【继续】返回单样本T检验分析对话框。再单击【确定】,提交运行。3单样本T检验的实例【例6-9】根据人力资源社会保障部会同财政部、国资委发布的关于进一步规范中央企业负责人薪酬管理的指导意见规定上市公司高管报酬不得超过在岗职工平均工资的20倍,国家统计局2011年5月5日公布的2010年全国城镇非私营单位在岗职工年平均工资为37147元,请检验目前我国国有上市公司的高管报酬是否符合这一规定。(1)使用个案的筛选,将国有控股上市公司的样本挑选出来。(2)单击【分析】【均值比较】【单样本T检验】,打开单样本T检验对话框,如图6-14所示。(3)从左侧源变量窗口选择CE

43、O年度报酬(comp)进入【检验变量】窗口。(4)在【检验值】后面的窗口输入检验值742940。单击【确定】,提交运行。(5)结果分析。在结果输出窗口得到如下图表:表6-8报告了CEO年度报酬的均值、标准差和均值的标准误。表6-8 单个样本统计量N均值标准差均值的标准误CEO年度报酬633549411.14455164.42618091.162表6-9报告了单个样本T检验的结果,由T值是-10.697,显著性水平为0,可知CEO年度报酬的均值与742940有显著差异,有样本均值是549411.14可知上市公司高管报酬没有超过在职职工工资的20倍,所以目前我国国有上市公司的高管报酬符合国家相关规

44、定。表6-9 单个样本检验检验值 = 742940 tdfSig.(双侧)均值差值差分的 95% 置信区间下限上限CEO年度报酬-10.697632.000-193528.861-229054.92-158002.806.3.3 独立样本T检验1独立样本T检验的基本原理独立样本T检验是检验两个独立样本的平均数是否有显著差异的一种方法。独立样本T检验的步骤是:第一步:提出原假设和备择假设。;。第二步:选择显著性水平,可以是90%,95%或99%。第三步:根据计算出的值(即SPSS中的Sig)与进行比较,做出判断:若,拒绝原假设;若,不拒绝原假设。2独立样本T检验的方法(1)打开卡方检验对话框单击

45、【分析】【均值比较】【独立样本T检验】,打开独立样本T检验对话框,如图6-16所示。图6-16 独立样本T检验对话框(2)选择分析变量从左侧源变量窗口选择要分析的数值型变量进入【检验变量】窗口。(3)确定分组变量从左侧源变量窗口选择要分析的定类或定序变量进入【检验变量】窗口。【定义组】按钮被激活。(4)确定分组变量的取值单击【定义组】按钮,打开确定分组对话框,如图6-17所示。对话框提供了两种分组方式:选择【使用指定组】方式,在【组1】和【组2】窗口后分别输入定类或定序变量的两个值,即根据两个值确定的两个个样本进行T检验。图6-17 确定分组对话框选择【割点】方式,在其后的窗口输入一个值作为分

46、界点,根据分界点将样本分成两个组,大于等于该数值的为一组,小于该数值的两组,然后对这两组进行T检验。(5)确定置信水平和缺失值的处理方法与单样本T检验一致,不再赘述。上述操作完成后,单击【继续】返回独立样本T检验分析对话框。再单击【确定】,提交运行。3独立样本T检验的实例【例6-10】使用上市公司高管薪酬.sav数据,检验教育水平是大专和博士的上市公司CEO年度报酬均值是否有显著差异?(1)单击【分析】【均值比较】【独立样本T检验】,打开独立样本T检验对话框,如图6-16所示。(2)从左侧源变量窗口选择变量CEO年度报酬(comp)进入【检验变量】窗口。(3)从左侧源变量窗口选择变量CEO教育

47、水平(edu)进入【检验变量】窗口。(4)单击【定义组】按钮,打开确定分组对话框,选择【使用指定组】方式,在【组1】和【组2】窗口后分别输入2和5,单击【继续】返回独立样本T检验分析对话框。再单击【确定】,提交运行。(5)结果分析。在结果输出窗口得到如下图表:表6-10报告了教育水平是大专和博士的CEO年度报酬的样本数、平均数、标准差、均值的标准误。表6-10 组统计量CEO教育水平N均值标准差均值的标准误CEO年度报酬dimension1大专59408496.02375714.42848913.852博士42685516.64372758.29057517.853表6-11报告了独立样本T检

48、验的结果。首先根据Levene检验得到F值0.101和显著性水平0.751判断出方差相等。再根据第一行数据中的T值-3.65和显著性水平0可知教育水平是大专和博士的CEO年度报酬的均值有显著差异。表6-11 独立样本T检验方差方程的 Levene检验均值方程的t检验FSig.tdfSig.(双侧)均值差值标准误差值差分的95%置信区间下限上限CEO年度报酬假设方差相等.101.751-3.6599.000-277020.6375605.56-427038.46-127002.79假设方差不相等-3.6788.89.000-277020.6375504.10-427048.35-126992.9

49、06.3.4 配对样本T检验1配对样本T检验的基本原理配对样本T检验是检验两个配对样本前后两次平均数是否有显著差异。配对样本T检验的步骤是:第一步:提出原假设和备择假设。; 。第二步:选择显著性水平,可以是90%,95%或99%。第三步:根据计算出的值(即SPSS中的Sig)与进行比较,做出判断:若,拒绝原假设;若,不拒绝原假设。2配对样本T检验的方法(1)打开卡方检验对话框单击【分析】【均值比较】【配对样本T检验】,打开配对样本T检验对话框,如图6-18所示。图6-18 配对样本T检验对话框(2)选择分析变量从左侧源变量窗口选择两个配对变量进入【成对变量】窗口。(5)确定置信水平和缺失值的处

50、理方法与单样本T检验一致,不再赘述。上述操作完成后,单击【继续】返回独立样本T检验分析对话框。再单击【确定】,提交运行。3配对样本T检验的实例【例6-11】数据英语成绩.sav是北京城市大学某班期中和期末的英语考试成绩。在期中考试后,教师根据学生的考试成绩发现了教学中存在的一些问题,及时调整了教学方法,请检验学生的期中和期末成绩是否有显著差异?(1)单击【分析】【均值比较】【配对样本T检验】,打开配对样本T检验对话框,如图6-18所示。(2)从左侧源变量窗口选择变期末考试成绩(score2)和期中考试成绩(score1)进入【成对变量】窗口。单击【确定】,提交运行。(3)结果分析。在结果输出窗口得到如下图表:表6-12报告了期末考试成绩和期中考试成绩的均值、样本数、标准差和均值的标准误。表6-12 成对样本统计量均

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论