第五章 T检验_第1页
第五章 T检验_第2页
第五章 T检验_第3页
第五章 T检验_第4页
第五章 T检验_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1 1 推断统计的一般概念推断统计的一般概念1.1 推断统计的含义及类型:推断统计的含义及类型:(1)含义:推断统计是指用概率分布的方法,)含义:推断统计是指用概率分布的方法,由由样本的统计量样本的统计量推断推断总体参数总体参数的统计方式。的统计方式。样本统计量样本统计量:样本中某个变量的统计值。如此次调:样本中某个变量的统计值。如此次调查中高中文化程度的人占查中高中文化程度的人占32%。样本样本 32%总体参数总体参数:与样本中某个变量的统计值相对应的:与样本中某个变量的统计值相对应的总体中的统计值。如全市人口中高中比例为总体中的统计值。如全市人口中高中比例为38%。总体总体38 样本统计量

2、有可能等于总体参数,也有可能样本统计量有可能等于总体参数,也有可能不等于总体参数,但二者之间有着某种概率关不等于总体参数,但二者之间有着某种概率关系。系。推断统计就是教会我们如何利用这种概率推断统计就是教会我们如何利用这种概率关系来由样本统计量推估总体参数。关系来由样本统计量推估总体参数。为了区别样本和总体的不同,样本的平均数用为了区别样本和总体的不同,样本的平均数用x来表示,标准差用来表示,标准差用S表示;总体的平均数用表示;总体的平均数用表表示,标准差用示,标准差用表示。因此,推断统计往往表示。因此,推断统计往往可以看作是由可以看作是由x推断推断。样本样本 32%总体总体= ?(2)类型:

3、推断统计分为)类型:推断统计分为参数估计参数估计和和假设检验假设检验两大类。两大类。参数估计参数估计:根据一个随机样本的统计值来估计总:根据一个随机样本的统计值来估计总体参数。即已知样本,估计总体。体参数。即已知样本,估计总体。x假设检验假设检验:先假定总体参数为:先假定总体参数为 ,用一个随机样,用一个随机样本的统计量本的统计量 来检验总体参数为来检验总体参数为的假设是否成的假设是否成立。立。总体总体=38%样本样本 32%xx? ?1.2推断统计的原理:推断统计的原理:参数估计和假设检验都是利用参数估计和假设检验都是利用正态分布正态分布的概率特的概率特征来进行的。征来进行的。(1)正态分布

4、正态分布(,):正态分布是一种统计分布,它有如下几个特征:正态分布是一种统计分布,它有如下几个特征:A 单峰对称;单峰对称;B 平均数、中位数、众数合一,都在峰点;平均数、中位数、众数合一,都在峰点;C 1.96包含了包含了95的面积;的面积; 1.65包含了包含了90的面积;的面积;即面积和标即面积和标准差之间有一个固定换算。准差之间有一个固定换算。正态分布正态分布 N(,) 1.96 平均数170 1.96*10(170,10)例:某校同学的身高为正态分布,平均值为例:某校同学的身高为正态分布,平均值为170cm,标准,标准差为差为10cm。问:。问:1)高于平均数)高于平均数1.5个标准

5、差的同学身高是多少?个标准差的同学身高是多少?2)162cm身高的同学距平均数有几个标准差身高的同学距平均数有几个标准差?3)95%的同学身高会在什么范围内?的同学身高会在什么范围内?解1:Xi=+Z*=170+1.5*10=185cm;解2: Z=(Xi - )/ =(162-170)/10=-0.8;解3: Xi = -Z * =170-1.96*10=150.4 Xi = +Z * =170+1.96*10=189.6 (150.4189.6)由上可得出:由上可得出:ixZ 其中其中Xi为分布中任何一个值,为分布中任何一个值, 是平均数;是平均数; 是标是标准差。准差。Z是是Xi距离平均

6、数距离平均数的标准差单位,又称的标准差单位,又称Z分分数,同时也表示数,同时也表示Xi与平均数与平均数之间的面积。之间的面积。(2)标准正态分布标准正态分布(Z分布):分布):N(0,1)标准化了的正态分布。即平均数标准化了的正态分布。即平均数=0,标准差,标准差=1的正态分布。的正态分布。( 0,1) =1(3)总体分布总体分布:D( , )总体中某变量的几何)总体中某变量的几何分布。有可能是正态分布,也可能不是正态分布。分布。有可能是正态分布,也可能不是正态分布。AGE9383736353433323AGEFrequency5004003002001000Std. Dev = 15.00M

7、ean = 45N = 1254.00(4)样本分布样本分布: D(x ,S)样本中某变量的统计分布,和总体分布一样,样本中某变量的统计分布,和总体分布一样,它有可能是正态分布,也可能不是正态分布。它有可能是正态分布,也可能不是正态分布。AGE9383736353433323AGEFrequency5004003002001000nx(5)样本平均数的抽样分布:)样本平均数的抽样分布:N( ,)从总体中多次重复抽取容量为从总体中多次重复抽取容量为n的样本,每个样本平的样本,每个样本平均数的所形成的统计分布。是由多个均数的所形成的统计分布。是由多个组成的。组成的。总体分布样本平均数的抽样分布D(

8、, )N(,n)样本平均数的抽样分布的特点样本平均数的抽样分布的特点:xixnA 是由多个是由多个 组成,组成,B 正态分布。正态分布。C 它的平均数就等于总体的平均数它的平均数就等于总体的平均数,标准差,标准差则是总体标准差则是总体标准差的的 倍。即倍。即 ,又被称作,又被称作标准误(标准误(Standard Error,S . E)因此,我们所作的任何一次抽样的平均数因此,我们所作的任何一次抽样的平均数 都都可看作是样本平均数的抽样分布中的一个点。它可看作是样本平均数的抽样分布中的一个点。它会有会有95的概率落在的概率落在 1.96 的范围内。的范围内。n1n总体分布总体分布( , )样本

9、分布( , s)x样本平均数的抽样分布(, )n三种分布的关系三种分布的关系推断统计的原理就是推断统计的原理就是:利用样本平均数的抽样分布的正态特征,以及利用样本平均数的抽样分布的正态特征,以及 与与的包含关系,来从样本统计量推估总体参数的包含关系,来从样本统计量推估总体参数(即参数估计),或用样本统计量检验有关总体(即参数估计),或用样本统计量检验有关总体参数的假设(假设检验)。参数的假设(假设检验)。由此可见,参数估计和假设检验实际是相同的。由此可见,参数估计和假设检验实际是相同的。在实际调查中,我们便是利用这一原理,用一次在实际调查中,我们便是利用这一原理,用一次调查的结果来推断总体的参

10、数。我们把某一次调调查的结果来推断总体的参数。我们把某一次调查的结果看作是同样样本规模的无数次调查中的查的结果看作是同样样本规模的无数次调查中的一次,它是样本平均数的抽样分布中的一个点,一次,它是样本平均数的抽样分布中的一个点,可用来估计总体参数可用来估计总体参数 。ixix2 参数估计的步骤参数估计的步骤1)求出样本的平均数、标准差;)求出样本的平均数、标准差;2)求出总体的标准差(如未知,可用样本的)求出总体的标准差(如未知,可用样本的标准差代替)标准差代替)3)设定参数估计的)设定参数估计的置信区间置信区间即参数估计的把即参数估计的把握性握性(90%?95%?)的?)的Z值(值(1.65

11、? 1.96?)4)根据根据ESZxi.计算出计算出的所在范围。的所在范围。例:已知某学校的学生每天课外活动时间的标准差为例:已知某学校的学生每天课外活动时间的标准差为15分钟。现从学生中随机抽取分钟。现从学生中随机抽取25人,得知他们的课外人,得知他们的课外活动时间平均为活动时间平均为60分钟,问该校学生总体平均每天的分钟,问该校学生总体平均每天的课外活动时间会是多少?(选择课外活动时间会是多少?(选择95%的置信区间)的置信区间)解:x=60S.E=15 / 25 1/2Z=1.96ESZxi.=605.886065466例:在此次调查中,男性共例:在此次调查中,男性共630人,平均年龄为

12、人,平均年龄为45岁,标准差为岁,标准差为15;女性共;女性共620人,平均年龄为人,平均年龄为44岁,岁,标准差为标准差为14。问:。问:1)男性与女性各自平均年龄的总体参数是多少?)男性与女性各自平均年龄的总体参数是多少?(95%的置信区间)的置信区间)解:解:男性男性63015*96. 145.ESZxi=45 1.17643.82446.176女性女性:62014*96. 144.ESZxi=44 1.142.945.12) 从总体上看,男女年龄是否有差异?从总体上看,男女年龄是否有差异?解:比较男女平均年龄的总体参数的区间,解:比较男女平均年龄的总体参数的区间,男男(43.8,46.

13、1)女女(42.9,45.1)二者有交集,故总体年龄在二者有交集,故总体年龄在95%的置信度上的置信度上没有差异没有差异。3 比例数的参数估计:比例数的参数估计:当样本的统计量不是平均数,而是以比例的形式出当样本的统计量不是平均数,而是以比例的形式出现时,比如,共青团员在调查中占现时,比如,共青团员在调查中占9.4%,也可以用,也可以用=XiZ*S.E公式的变形:公式的变形:P总总=Pi Z*S.E来推断总体参数。来推断总体参数。其中,其中, Pi为比例数形式的样本统计量,为比例数形式的样本统计量, nppESii)1 (.示例:在此次抽样调查的在此次抽样调查的1254人中,共青团员的比例为人

14、中,共青团员的比例为9.4%,求总,求总体中共青团员的比例参数(置信度为体中共青团员的比例参数(置信度为95%)。)。解:解: P总总=Pi Z*S.E016. 0094. 01254)094. 01 (094. 096. 1094. 0(0.078, 0.11)总体中共青团员的比例有总体中共青团员的比例有95%的可能性在的可能性在7.8% 11%的区间内。的区间内。4 假设检验的步骤:假设检验的步骤:示例示例:纳税起征线的规定是根据当地居民的平均月收入纳税起征线的规定是根据当地居民的平均月收入制定的。有关部门认为某地的起征线应为制定的。有关部门认为某地的起征线应为800元,元,因为根据经验当

15、地居民平均月收入应不低于此数。因为根据经验当地居民平均月收入应不低于此数。在当地进行的一次在当地进行的一次400人的随机抽样表明,居民月人的随机抽样表明,居民月收入为收入为790元,标准差为元,标准差为100元,请用此调查结果元,请用此调查结果在在95的置信水平上检验居民月收入为的置信水平上检验居民月收入为800元的说元的说法是否成立。法是否成立。 假设假设 m m =8008001.96*5m m =800,样本容量为,样本容量为400时的样本平均数的抽样分时的样本平均数的抽样分布:布: N(800,5)样本:样本:X=7904.1 假设检验的分布算法假设检验的分布算法1)确定有关总体参数)

16、确定有关总体参数m m的假设;如假设总体平均收入为的假设;如假设总体平均收入为800元;元;2)确定检验此假设的概率标准,即置信区间为)确定检验此假设的概率标准,即置信区间为P=90?P=95?(?(Z1.65? Z=1.96?)3) 抽取一个随机样本,计算出抽取一个随机样本,计算出(平均数、标准差、标准误,即样本平均数抽样分布的标准差)。(平均数、标准差、标准误,即样本平均数抽样分布的标准差)。4) 以以为中心,作出样本平均数抽样分布的给定概率区为中心,作出样本平均数抽样分布的给定概率区间。间。 5)看在这一区间内是否包括了)看在这一区间内是否包括了 x、S、S.Ex,如果包括,如果包括,就

17、可以说,在给定的置信区间中(或在给定的概率条件下),就可以说,在给定的置信区间中(或在给定的概率条件下),验证(接受)了原假设;如未包含,则说明原假设在给定的验证(接受)了原假设;如未包含,则说明原假设在给定的概率水平上不成立(被否定),或说原假设在给定的显著度概率水平上不成立(被否定),或说原假设在给定的显著度水平(水平(1给定概率)上被否定。给定概率)上被否定。解:1) 确定有关总体参数的假设确定有关总体参数的假设H0 : m m 800; H1 : m m 800;2) 确定检验此假设的概率标准:确定检验此假设的概率标准:置信度为95,显著度为5,即Z1.963) 计算样本的有关统计量计

18、算样本的有关统计量 790;S100;S.E= =100/20=54) 以以m m为中心,作出样本平均数抽样分布的给定概率区间。为中心,作出样本平均数抽样分布的给定概率区间。( 8001.965),即(),即(790.2 809.8)5) 结论:此区间未包含样本统计量结论:此区间未包含样本统计量790,因此在,因此在5的显著的显著水平上推翻原假设。当地居民的平均月收入小于水平上推翻原假设。当地居民的平均月收入小于800元。元。xns4.2 假设检验的公式算法:假设检验的公式算法: 从上一算法中可以看出,从上一算法中可以看出,Xi距距m m的距离是检验假设的距离是检验假设的关键指标:的关键指标:

19、 Xi如果落在如果落在m m的的95%的置信区间之外,的置信区间之外,这时这时|Zxi|Z95%,即,即|Zxi|1.96。则原假设被否定的概。则原假设被否定的概率率95%,或者说,原假设成立的概率,或者说,原假设成立的概率5%,我们我们称为在称为在5%的显著水平上否定了原假设。的显著水平上否定了原假设。 Xi如果落在如果落在m m的的95%的置信区间之内,这时的置信区间之内,这时|Zxi|Z95%,即,即|Zxi|1.96。我们称为在我们称为在5%的显著水平上不的显著水平上不能否定原假设。能否定原假设。因此,可以利用因此,可以利用nsxZim来直接计算出来直接计算出|Zxi|是否大于是否大于

20、Z95%。解:解:1) 确定有关总体参数的假设确定有关总体参数的假设 H0 : m m 800; H1 : m m 800; 2) 确定检验此假设的概率标准:确定检验此假设的概率标准: 置信度为置信度为95,显著度为,显著度为5,即,即Z1.96 3)计算)计算Zxi25800790.ESxzixi 4)判定:)判定:Zxi=-2,绝对值大于,绝对值大于Z95%,因此在,因此在5%的显著水平上否定原假设的显著水平上否定原假设m m 800。 假设假设 m m =800样本样本1:X1795;S10m m!1.96S.E样本样本2:X2790;S10接受区95拒绝区52022-5-125.5.均

21、值比较与均值比较与T T检验检验 5.1 5.1 均值比较与均值比较的检验过程均值比较与均值比较的检验过程 5.2 MEANS 5.2 MEANS 过程过程 5.3 5.3 单一样本的单一样本的T T检验检验 5.4 5.4 独立样本的独立样本的T T检验检验 5.5 5.5 配对样本配对样本T T检验检验注意数据结构的不同注意数据结构的不同5.1.1 均值比较的概念 在研究中常常采取抽样研究的方法,即从总体中随机抽取一在研究中常常采取抽样研究的方法,即从总体中随机抽取一定数量的样本进行研究来推断总体的特性。由于总体中的每定数量的样本进行研究来推断总体的特性。由于总体中的每个个体间均存在差异,

22、即使严格遵守随机抽样原则也会由于个个体间均存在差异,即使严格遵守随机抽样原则也会由于多抽到一些数值较大或较小的个体致使样本统计量与总体参多抽到一些数值较大或较小的个体致使样本统计量与总体参数之间有所不同。又由于实验者测量技术的差别或测量仪器数之间有所不同。又由于实验者测量技术的差别或测量仪器精确程度的差别等也会造成一定的偏差,使样本统计量与总精确程度的差别等也会造成一定的偏差,使样本统计量与总体参数之间存在差异。由此可以得到这样的认识:体参数之间存在差异。由此可以得到这样的认识:均值不相均值不相等的两组样本不一定来自均值不同的总体。等的两组样本不一定来自均值不同的总体。 能否用样本均值估计总体

23、均值?两个变量均值接近的样本是能否用样本均值估计总体均值?两个变量均值接近的样本是否来自均值相同的总体?否来自均值相同的总体?换句话说,两组样本某变量均值不换句话说,两组样本某变量均值不同,其差异是否具有统计意义?能否说明总体差异?这是各同,其差异是否具有统计意义?能否说明总体差异?这是各种研究工作中经常提出的问题。这就要进行均值比较。种研究工作中经常提出的问题。这就要进行均值比较。5.1.2 进行均值比较及检验的过程进行均值比较及检验的过程 MEANS过程:过程:不同水平下(不同组)的描述统计量不同水平下(不同组)的描述统计量 T test 过程:对样本进行过程:对样本进行T检验的过程检验的

24、过程n单一样本的单一样本的T检验:检验单个变量的均值是否与给定的检验:检验单个变量的均值是否与给定的常数之间存在差异。常数之间存在差异。n独立样本的独立样本的T检验:检验两组不相关的样本是否来自具检验:检验两组不相关的样本是否来自具有相同均值的总体(均值是否相同,如男女的平均收入有相同均值的总体(均值是否相同,如男女的平均收入是否相同,是否有显著性差异)是否相同,是否有显著性差异)n配对配对T检验:检验两组相关的样本是否来自具有相同均检验:检验两组相关的样本是否来自具有相同均值的总体值的总体(前后比较,如训练效果前后比较,如训练效果) One-Way ANOVA:一元一元(单因素单因素)方差分

25、析,用于检方差分析,用于检验几个(三个或三个以上)独立的组,是否来自均值相同验几个(三个或三个以上)独立的组,是否来自均值相同的总体。的总体。 如果分析变量明显是非正态分布的,应该选择非参数检验如果分析变量明显是非正态分布的,应该选择非参数检验过程。过程。5.2 MEANS 过程过程 功能:功能:分组计算、比较指定变量的描述统计量。包括均值、标准差、分组计算、比较指定变量的描述统计量。包括均值、标准差、总和、观测数、方差等等,还可以给出方差分析表和线性检验结果。总和、观测数、方差等等,还可以给出方差分析表和线性检验结果。 Analyze- Compare Means-MeansnDepende

26、nt List:因变量(分析变量,一般为定距或定序变量):因变量(分析变量,一般为定距或定序变量)nIndependent List:自变量(分组变量,为分类变量,注意可分层:自变量(分组变量,为分类变量,注意可分层)n选项:统计量选择项,对第一层每个控制变量的分析(选项:统计量选择项,对第一层每个控制变量的分析(方差分析和线方差分析和线性度检验)性度检验) 例子:例子:P128的学生身高的学生身高data08-01(不同性别、不同年龄不同性别、不同年龄); 发育阶段发育阶段相同年龄的男孩和女孩是否身高有所不同?是否身高随年龄的增长呈线相同年龄的男孩和女孩是否身高有所不同?是否身高随年龄的增长

27、呈线性关系。性关系。5.3 单一样本的单一样本的T检验检验 概念:概念:检验单个变量的均值是否与给定的常数检验单个变量的均值是否与给定的常数(指定的检验值指定的检验值)之间存之间存在显著差异。如:研究人员想知道一组学生的在显著差异。如:研究人员想知道一组学生的IQ平均分与平均分与100分的差异。分的差异。要求样本来自正态分布总体。要求样本来自正态分布总体。 菜单:菜单:Analyze - Compare Means- One-Samples T test Test Variable(s):要求平均值的变量(一般是定距变量):要求平均值的变量(一般是定距变量) Test Value:常数:常数

28、零假设零假设H0:样本均值:样本均值Mean=常数(检验值);常数(检验值); 结果中比较有用的值:结果中比较有用的值:Mean和和Sig显著性概率值显著性概率值 例子例子 :某地区某地区12岁男孩的平均身高为岁男孩的平均身高为142.5cm,现有某市现有某市测量测量120名名12岁男孩身高资料,检验该市岁男孩身高资料,检验该市12岁男孩平均身岁男孩平均身高与该地区高与该地区12岁男孩平均身高是否有显著性差异。岁男孩平均身高是否有显著性差异。5.4 独立样本的独立样本的T检验检验 要求:要求:a. 被比较的两组样本彼此独立被比较的两组样本彼此独立, 没有配对没有配对关系关系 b. 两组样本均来

29、自两组样本均来自正态总体正态总体 两组样本方差相等和不等时使用的计算两组样本方差相等和不等时使用的计算t t值的公式不同值的公式不同。因。因此应该先对方差进行齐次性检验。此应该先对方差进行齐次性检验。SPSSSPSS的输出,在给出方的输出,在给出方差齐和不齐两种计算结果的差齐和不齐两种计算结果的t t值,和值,和t t检验的显著性概率的检验的显著性概率的同时,还给出对方差齐次性检验的同时,还给出对方差齐次性检验的F F值和值和F F检验的显著性概检验的显著性概率。用户需要根据率。用户需要根据F F检验的结果自己判断选择检验的结果自己判断选择t t检验输出中检验输出中的哪个结果,得出最后结论。的哪个结果,得出最后结论。 方差齐次检验方差齐次检验使用使用F F检验。零假设是检验。零假设是: :两组样本方差相等。两组样本方差相等。概

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论