均值比较与T检验chap5_第1页
均值比较与T检验chap5_第2页
均值比较与T检验chap5_第3页
均值比较与T检验chap5_第4页
均值比较与T检验chap5_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第五章第五章 均值比较与均值比较与T检验检验 统计分析常常采取抽样研究的方法。即从总体中随机抽取一定数量的样本进行研究来推论总体的特性。由于总体中的每个个体间均存在差异,即使严格遵守随机抽样原则也会由于多抽到一些数值较大或较小的个体致使样本统计量与总体参数之间有所不同。由此可以得出这样的认识:均值不相等的两个样本不一定来自均值不同的总体。 能否用样本均数估计总体均数,两个变量均数接近的样本是否来自均值相同的总体?换句话说,两个样本某变量均值不同,其差异是否具有统计意义,能否说明总体差异?这是各种研究工作中经常提出的问题。这就要进行均值比较。对来自正态总体的两个样本进行均值比较常使用T检验的方法

2、。T检验要求两个被比较的样本来自正态总体。两个样本方差相等与不等时使用的计算t值的公式不同。 进行方差齐次性检验使用F检验。对应的零假设是:两组样本方差相等。p值小于0.05说明在该水平上否定原假设,方差不齐;否则两组方差无显著性差异。F值的计算公式是:FS12(较大)/S22(较小)进行均值比较及检验的过程进行均值比较及检验的过程 lMEANS 过程过程lT test 过程过程 单一样本单一样本T检验检验 独立样本的独立样本的T检验检验 配对样本的配对样本的T检验检验l单因素方差分析单因素方差分析SPSSSPSS的均值过程是的均值过程是描述和分析尺度变量描述和分析尺度变量(ScaleScal

3、e)的一种有用的方法,可以获得需)的一种有用的方法,可以获得需要要分析变量分析变量的许多中心趋势和离散趋势的的许多中心趋势和离散趋势的统计指标,同时它可以对统计指标,同时它可以对不同的组别不同的组别或者或者交叉组别交叉组别进行比较。进行比较。当观测量按一个分类变量分组时,均值过程可以进行分组计算。例如:要计算学生的平均身高,SEX变量把学生按性别分为男、女生两组,均值过程可以分别计算男、女生平均身高。注意用于形成分组的变量应该是其值数量少且能明确表明其特征的变量。 一、一、MEANS过程过程 使用均值过程求若干组的描述统计量,目的在于比较比较。因此必须分组求均值。这是与Descriptives

4、过程不同之处。 MEANS过程的基本功能是分组计算指定变量的描述统计量。包括均值、标准差、总和、观测量数、方差等一系列单变量描述统计量。也可以从该过程获得也可以从该过程获得单因素方差分析、单因素方差分析、eta eta 和线性相关检验。和线性相关检验。Mean过程的数据文件要求:至少有一个连续变量、一个分类变量(离散变量)。对连续变量求其基本描述统计量。分类变量用来分组。以30个学生的身高为例说明操作步骤(学生身高体重数据.sav)变量number编号,sex性别,age年龄,height身高,weight体重。相同年龄的男孩和女孩是否身高有所不同相同年龄的男孩和女孩是否身高有所不同?是否身高

5、随年龄?是否身高随年龄的增长呈线性关系?如果解决这样的问题,只建立一个控制的增长呈线性关系?如果解决这样的问题,只建立一个控制层就不够了。应该考虑,选择身高作为因变量,分类变量年层就不够了。应该考虑,选择身高作为因变量,分类变量年龄作为第一层控制变量,性别为第二层控制变量。两个分类龄作为第一层控制变量,性别为第二层控制变量。两个分类变量分别放在两层中,且使用选择项。变量分别放在两层中,且使用选择项。ANOVA table and eta:输出第一层控制变量给出的方差分析表输出第一层控制变量给出的方差分析表和和eta统计值统计值和和2 。 统计量表明因变量和自变量之间联系的强度。统计量表明因变量

6、和自变量之间联系的强度。 2 是组间平方和与总平方和之比。是组间平方和与总平方和之比。Test for linearity:线性检验,输出线性检验,输出R和和R2,只有在控制变量有基,只有在控制变量有基本的控制级,且本的控制级,且自变量有三个水平以上自变量有三个水平以上时才能选用。时才能选用。对第一层变量的方差分析结果对第一层变量的方差分析结果身高身高*年龄(方差分析的变量信息)年龄(方差分析的变量信息) :分析不同年龄的身高均值间是:分析不同年龄的身高均值间是否存在显著性差异;否存在显著性差异;Sum of Squares(偏差平方和偏差平方和);df(自由度自由度);Mean square

7、(均方均方);F(方差值方差值);sig(P值值);Between Groups(组间偏差平方和组间偏差平方和):由两部分组成:由两部分组成:Linearity是由是由因变量与控制变量之间的线性关系引起的;因变量与控制变量之间的线性关系引起的;Deviation from linearity不是由因变量与控制变量之间的线性关系引起的;不是由因变量与控制变量之间的线性关系引起的;Within Groups(组内偏差平方和组内偏差平方和):各组内的变异相对于组均值的变异;各组内的变异相对于组均值的变异;Total(偏差平方和的总和偏差平方和的总和):为组间偏差平方和与组内偏差平方和之和。为组间偏差

8、平方和与组内偏差平方和之和。线性检验结果线性检验结果lR R是因变量身高的观测值与预测值之间的的相是因变量身高的观测值与预测值之间的的相 关系数,关系数,R R值越接近值越接近1 1 表明回归方程的预测性表明回归方程的预测性 越好;越好;lEtaEta:即:即值(值(0 01 1)说明因变量与自变量之)说明因变量与自变量之 间的联系程度间的联系程度; ;lEta SquaredEta Squared:22为组间偏差平方和与偏差为组间偏差平方和与偏差 平方和总和之比。平方和总和之比。练习题练习题试按性别、年龄对体重做平均数分析。单样本单样本T检验检验 单样本单样本T T检验即检验某个变量的样本均

9、值和某指检验即检验某个变量的样本均值和某指定值(总体均值)之间是否存在着显著性差异。定值(总体均值)之间是否存在着显著性差异。如果是如果是大样本大样本的单样本检验,统计教科书上称为的单样本检验,统计教科书上称为U U检验,它采用检验,它采用服从正态分布服从正态分布的的U U统计量作为检验统计量作为检验统计量;如果是统计量;如果是小样本小样本并且样本服从正态分布,并且样本服从正态分布,则采用则采用服从服从t t分布分布的的t t统计量进行单样本统计量进行单样本T T检验;检验;否则,采取非参数检验。否则,采取非参数检验。T T检验稳健性(检验稳健性(RobustRobust)较好,如果样本分布偏

10、离正态分布不太严重,也较好,如果样本分布偏离正态分布不太严重,也可采用可采用T T检验。检验。二、二、T test过程过程 1、单一样本、单一样本T检验检验(One-sample T Test) 检验单个变量的均值是否与给定的常数(一般为理论值、标准值或经过大量观察所得的稳定值等)之间存在差异。样本均数样本均数与与总体均数总体均数之间的差异显著性检之间的差异显著性检验属于单一样本验属于单一样本T检验。检验。如某厂的灯泡寿命的平均值为1500小时,后采用新工艺组织生产,要想了解灯泡寿命是否提高?方法:从新工艺下生产的灯泡中随机抽查若干只灯泡,测得寿命,并计算平均寿命,再与1500小时进行比较,判

11、断是否有显著差异?如果是大样本的单样本检验,统计教科书上称如果是大样本的单样本检验,统计教科书上称为为U U检验,它采用服从正态分布的检验,它采用服从正态分布的U U统计量作为统计量作为检验统计量;检验统计量;如果是小样本并且样本服从正态分布,则采用如果是小样本并且样本服从正态分布,则采用服从服从t t分布的分布的t t统计量进行单样本统计量进行单样本T T检验;检验;否则,采取非参数检验。否则,采取非参数检验。T T检验稳健性(检验稳健性(RobustRobust)较好,如果样本分布偏离正态分布不太严重,较好,如果样本分布偏离正态分布不太严重,也可采用也可采用T T检验。检验。例:收集例:收

12、集26家保险公司人员构成数据,希家保险公司人员构成数据,希望对目前保险公司从业人员受高等教育程望对目前保险公司从业人员受高等教育程度和年轻化程度进行推断。度和年轻化程度进行推断。具体而言,就是推断具有高等教育水平的具体而言,就是推断具有高等教育水平的员工平均比例是否不低于员工平均比例是否不低于0.8,年轻人的,年轻人的平均比例是否为平均比例是否为0.5,具体数据文件名为,具体数据文件名为保险公司人员构成情况保险公司人员构成情况.sav提出原假设:保险公司具有高等教育水平的员工比例的平均值不低于0.8,即 H0:u=(u0=0.8)年轻人比例的平均值与0.5无显著差异,即: H0:u=u0=0.

13、5分析过程:计算具有高等教育水平的员工数,35岁以下员工数占总员工数的比例。(利用转换菜单计算)进行单样本t检验分析:由于调查的26家公司,有7家在文化程度变量上有缺失值,因此在选项窗口中选择【按分析顺序排除个案】进行缺失值处理。Confidence interval:95%:置信区间项,可以自定义。:置信区间项,可以自定义。Missing Values:选择对缺失值的处理方法:选择对缺失值的处理方法 Exclude cases analysis by analysis:带有缺失值的观测带有缺失值的观测值当它与分析有关时才被剔除;值当它与分析有关时才被剔除; Exclude cases lis

14、twise:剔除所有列在:剔除所有列在Test、Grouping矩形框中的变量带缺失值的项矩形框中的变量带缺失值的项受高等教育比例的基本描述统计量被调查的被调查的2626家保险公司有效的家保险公司有效的1919家,其中家,其中具有高等教育水平员工比例的平均数是具有高等教育水平员工比例的平均数是0.7450.745,标准差为,标准差为0.1670.167,标准误为,标准误为0.0380.038单样本单样本T检验分析结果检验分析结果9595 Confidence Interval of the DifferenceConfidence Interval of the Difference(差值的(

15、差值的95%95%置信区间)置信区间):9595的置信区间均值的置信区间均值1.961.96标准误。根据上标准误。根据上表比例总体均值的表比例总体均值的9595置信区间是置信区间是0.745 0.745 1.96 1.960.0380.038即即(0.6640.664,0.82550.8255)。由此推出,该范围与总体均数之差为)。由此推出,该范围与总体均数之差为0.664-0.80.664-0.80.8255-0.80.8255-0.8,即表中,即表中-0.1358-0.1358和和0.02550.0255的含义。的含义。单样本单样本t t检验中检验中t t统计量的双尾概率统计量的双尾概率p

16、-p-为为0.1680.168,若显著性水平,若显著性水平a a为为0.050.05,则,则pa,pa,由此接受原假设,也就是保险公司员工受高由此接受原假设,也就是保险公司员工受高等教育比例显著高于等教育比例显著高于0.80.8。(。(0.80.8大于大于9595的置信区间下限)的置信区间下限)练习:年轻人比例t检验操作年轻人比例的基本描述统计量年轻人比例的基本描述统计量调查的调查的2626家保险公司,年轻人比例的平均家保险公司,年轻人比例的平均数是数是0.71390.7139,标准差为,标准差为0.1510.151,标准误为,标准误为0.030.03单样本单样本T检验分析结果检验分析结果95

17、95 Confidence Interval of the DifferenceConfidence Interval of the Difference(差值的(差值的95%95%置信区间)置信区间):9595的置信区间均值的置信区间均值1.961.96标准误。根据上标准误。根据上表比例总体均值的表比例总体均值的9595置信区间是置信区间是0.7139 0.7139 1.96 1.960.030.03即即(0.6550.655,0.7730.773)。由此推出,该范围与总体均数之差为)。由此推出,该范围与总体均数之差为0.655-0.50.655-0.50.773-0.50.773-0.5,

18、即表中,即表中0.15300.1530和和0.27470.2747的含义。单的含义。单样本样本t t检验中检验中t t统计量的双尾概率统计量的双尾概率p-p-为为0 0,若显著性水平,若显著性水平a a为为0.050.05,则,则pa,p0.05,接受原假设即方差相等。t-test for Equality of Means为为T检验结果栏检验结果栏t: t值;值;df:自由度;:自由度;Sig:显著性概率即:显著性概率即P值值=00.05,拒绝拒绝原假设原假设u1-u2=0;Mean Difference:两组均值之差。表现培训方法两组均值之差。表现培训方法A学生平学生平均测试成绩低于培训方

19、法均测试成绩低于培训方法B学生成绩学生成绩8.767;Std. Error Difference:差值的标准误为:差值的标准误为1.686;95 Confidence Interval of the Difference:差值的:差值的95%置信区间。在置信区间。在-12.24-5.294之间,不包括之间,不包括0即两组均即两组均值之差与值之差与0有显著性差异。有显著性差异。例题二例题二有29名13岁男生的身高、体重、肺活量数据(学生肺活量数据.sav),试分析大于等于155cm的与身高小于155cm的两组男生的肺活量均值是否有显著差异。分析:155以下和155以上身高的男生平均肺活量显著性检

20、验例题二例题二身高大于等于155cm与身高小于155cm的两组男生的肺活量平均值在95%水平上显著存在差异。练习题练习题某克山病区测得11例急性克山病患者与13名健康人的血磷值如下:患者:2.60, 3.24, 3.73, 3.73, 4.32, 5.18, 4.73, 5.58, 5.78, 6.40, 6.53健康人:1.67, 1.98, 1.98, 2.33, 2.34, 2.50, 3.60,3.73, 4.14, 4.17, 4.57, 4.82,5.78问该地区急性克山病患者与健康人的血鳞值是否不同?三、配对样本三、配对样本T检验检验 配对样本T检验(Paired Sample

21、T test)用于检验两个相关的样本是否来自具有相同均值的总体。这种相关的或配对的样本常常来自这样的实验结果,在实验中被观测对象在实验前后均被观测。两个变量可以是before after,配对分析的测度也不是必须来自同一个观测对象。一对可以两者组合而成。 进行配对样本的T检验要求被比较的两个样本有配对关系。要求两个样本均来自正态总体。而且均值是对于检验有意义的描述统计量。均值的配对比较是比较常见(见以下几个例子)。同一窝实验用白鼠按性别、体重相同的配对,再随机分到实验组和对照组,分别喂加入海藻的饲料和普通饲料,三个月后,分别将每对白鼠置于水中,测量其到溺死前的游泳时间。比较两组白鼠游泳时间均值

22、,从而比较两种饲料对抗疲劳的作用。在研究人体各部位体温是否有差别,一个人的两个部位的温度构成一对数据。测量若干人的同样两个部位的温度数据,可以比较这两个部位平均温度是否有显著性差异。使用配对t检验。 同一组高血压病人在进行体育疗法前后,测量其血压。每个病人在体育疗法前后的血压测量值构成观测量对。可以求这组病人体育疗法前后血压平均值。进行配对T检验,分析体育疗法对降血压的疗效。 配对样本配对样本T T检验检验实际上实际上是先求出是先求出每对测量值之差值每对测量值之差值,对对差值求均值,差值求均值,检验配对变量均值之间差异是否检验配对变量均值之间差异是否显著。显著。其其实质实质检验的假设实际上是差

23、值的均值与检验的假设实际上是差值的均值与零均值之间差异的显著性零均值之间差异的显著性。如果差值均值与零均。如果差值均值与零均值无显著性差异说明配对变量均值之间无显著性值无显著性差异说明配对变量均值之间无显著性差异。差异。 配对样本配对样本T T检验与独立样本检验与独立样本T T检验均使用检验均使用T-TESTT-TEST过过程,但调用该过程的菜单不同,对数据文件结构程,但调用该过程的菜单不同,对数据文件结构的要求不同和所使用的命令语句也有区别。进行的要求不同和所使用的命令语句也有区别。进行配对样本配对样本T T检验的数据文件中检验的数据文件中一对数据必须作为同一对数据必须作为同一个观测量中两个

24、变量值一个观测量中两个变量值。 例题一例题一以体育疗法治疗高血压的数据以体育疗法治疗高血压的数据 ( (体育疗法体育疗法检验检验.SAV).SAV),pretreatpretreat:治疗前舒张压:治疗前舒张压(mmHgmmHg),posttreat,posttreat:治疗后舒张压:治疗后舒张压(mmHgmmHg)。要求判断体育疗法对降低血压)。要求判断体育疗法对降低血压是否有疗效?是否有疗效?Spss操作步骤操作步骤治疗前后舒张压的单变量描述统计量治疗前后舒张压的单变量描述统计量变量名标签:列出配对变量的变量标签,对数为1;均值:分别给出治疗前后的舒张压均值;119.50,102.50观察量数目标准差:10.069,11.1118标准误:3.184,3.516Paired Samples Statistics119.501010.0693.184102.501011.1183.516治疗前舒张压治疗后舒张压Pair 1MeanNStd.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论