第6章_假设检验_第1页
第6章_假设检验_第2页
第6章_假设检验_第3页
第6章_假设检验_第4页
第6章_假设检验_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第六章 假设检验 运用一定的统计方法进行数据分析时,常常要求数据满足一定的条件,比如正态性、方差齐性、独立性等。数据是否满足假设,需要检验。在总体分布函数完全未知或只知分布形式,但是不知其参数时,为了推断总体的某些性质,需要提出关于总体的假设。假设是否合理,需要检验。 假设检验几个概念需要掌握: 1.原假设(零假设)、备择假设假设现在显著性水平下,检验总体均值是否等于样本均值,即检验假设:,则称为原假设,称为备择假设。2.拒绝域、临界点当检验统计量取某个区域的值时候,拒绝原假设,则称该取值区域为拒绝域,称拒绝域的边界为临界点。3.第一类错误、第二类错误当零假设实际上为真,却拒绝零假设时所犯的错误称为“弃真”错误,或第一类错误;当零假设实际上不为真,却接受零假设时所犯的错误称为“取伪”错误,或第二类错误。4.双边检验、单边检验对于上面的假设问题,如果备择假设表示可能大于,也可能小于,则称这种假设检验为双边检验;如果备择假设表示可能大于,或可能小于,则称这种假设检验为单边检验。第一节 t检验t检验是用小样本检验总体参数,特点是在均方差不知道的情况下,可以检验样本平均数的显著性。一、单样本的均值检验(1)基本数学原理 对于单个正态总体并且方差未知的情况,用下面的统计量来检验其平均数(假设样本均值与总体均值相等,即)。 当原假设成立时,上面的统计量应该服从自由度为n-1的t分布。(2)SPSS实现用鼠标指向Analyze主菜单中的Compare Means选项,然后在打开的子菜单单击One-Sample T Test选项,打开One-Sample T Test对话框。如下图。根据实际需要对对话框及其次级对话框进行设置,可以进行单个正态样本的均值检验。Test列表框:用中间的向右箭头按钮从左边的原变量名列表框中将变量名转移到该列表框中,则对应变量名对应的变量数据将进行均值检验。Test文本框:在该文本框中输入总体均值,默认数为0;Options按钮:单击该按钮,打开One-Sample T Test:Options对话框,利用该对话框设置检验时采用的置信度和缺失值的处理。 Confidence文本框:在该文本框中输入50到99之间的数值,作为置信度,默认数值95;Missing Values方框:在该方框中选择缺失值的处理方式,有两个选项: Exclude cases analysis by analysis单选框 为默认选项,在需要分析的数据中删除含有缺失值的个数; Exclude cases listwise单选框 在需要分析的数据中删除所有缺失值的数据;二、独立样本的均值比较应用t检验,可以检验独立的正态总体下样本均值之间是否有显著差异。检验前,要求进行比较的样本相互独立,并且服从正态分布。因此需要首先对将要进行均值比较的样本作独立性检验和正态分布检验。独立性检验的方法和步骤参见后面介绍的“独立性检验”方面的内容,正态分布检验参见后面的“分布的检验”和“正态分布的检验”等部分。(1)基本数学原理进行两个独立正态分布总体下的样本均值的比较时,根据芳差齐性与不齐两种情况,应用不用的统计量进行检验。方差不齐性时,统计量为: 式中,表示样本1和2的均值,为样本1和2的方差,表示样本1和样本2的数据个数。方差齐时候,采用的统计量为: 式中,为两个样本的标准差,是样本1的方差和样本2的方差的加权平均值的方差,计算公式如下: 当两个总体的均值差异不显著时,该统计量应该服从自由度为m+n-2的t分布。(2)SPSS实现在数据编辑器中打开欲处理的数据文件以后,用鼠标指向Analyze菜单的子菜单Compare Means。 选项,然后单击打开Independent Samples T Test。选项,打开Independent Samples T Test对话框,如图所示: Independent Samples T Test对话框的含义有:Test列表框:在该列表框内输入变量名,将对该变量的数据进行t检验;Grouping文本框:在该文本框中输入变量,将在该变量名字后显示括号,并在括号内显示两个问号。 用Define Group按钮进行设置,把该变量的数据分成两类,对这两类数据进行t检验。Define Groups按钮:单击该按钮,将根据Grouping文本框中变量的变量类型的不同,打开不同的对话框: 当Grouping文本框中的变量为分类变量时,打开下图,在两个Group文本框中输入欲检验的数据对应的分类变量取值,单击Continue按钮,回到Independent Samples T Test对话框。 当Grouping文本框中的变量为度量变量时,打开下图,此时Define Groups对话框中有两种数类定义方式。Use specified values单选项:选择此项,该文本框下面两个文本框变为可用,在其中输入不同的变量值,则不同变量值对应的数据将成为检验的对象。Cut points单选项,在该文本框中输入数值,则把数据分为两组,一组为大于或等于的作为一组,另外一组则是小于的数据为一组,对两组进行检验。Options单选项:单击该按钮,打开Independent Samples T Test:Options对话框,进行参数设置。三、成对样本的均值比较 观测数据常有配成对子的情况,如用不同的公司治理研究企业经营效应,股票价格的效应分析等,应用t检验可以成对样本的均值进行比较。(1)基本数学原理成对样本的均值比较t检验假设这两个样本的均值差异为零,用于检验的统计量为:式中,n-1为自由度,n为数据对数目。(2)SPSS实现在数据编辑器中打开欲处理的数据文件以后,用鼠标指向Analyze菜单的子菜单Compare Means选项,然后单击打开Paired-Samples T Test选项,打开Paired Samples T Test对话框,如图所示: 在Paired-Samples T Test对话框中,在源变量列表框中连续选择并单击变量名,则所选择的变量名显示到Current Selection方框中。用向右箭头按钮可以将配对变量名转移到Paired Variables列表框中,其数据作为配对样本均值比较的对象。在该列表框中可以输入多对变量名。单击Options按钮,打开Paired-Samples T Test:Options对话框,可以参照说明设置参数。第二节 分布检验进行数据处理时,常常假定样本数据服从一定的分布,但是数据是否服从该分布,需要进行检验。分布检验的方法,用得最多的是非参数方法,如卡方优度检验、柯尔默哥洛夫-斯米若夫检验等。非参数检验方法的具体内容和操作步骤可以参考参数检验。一、用P-P图进行分布检验 用P-P图形以及无趋势P-P图形可以对样本数据分布的假设进行检验,下面通过一个例子说明其使用过程。 在数据编辑器中打开测试数据文件; 在Graphs主菜单中单击P-P选项,打开P-P Plot对话框; 在Variables列表框中输入变量名,在Test Distribution方框中选择测试分布函数,例如Uniform选项; 单击OK。 在P-P图形中,当数据服从所假设的分布时候,各个数据对应的点在图中右斜对角位置近于直线分布。在无趋势P-P图形中则呈现离散分布。利用P-P图形可以对多种分布类型进行检验,只需要在Test Distribution方框中选择测试分布函数。当原数据不服从假定的分布时,则各数据对应的点在图形中不近于斜对角直线分布。二、用Q-Q图进行分布检验 利用Q-Q图形和无趋势Q-Q图形,同样可以对样本数据的分布假设进行检验。方法和步骤与用P-P图形进行检验的方法和步骤基本相同。所不同的是在Graphs主菜单中单击Q-Q选项,打开Q-Q Plots对话框中Test Distribution方框中选择分布函数。第三节 正态分布假设检验由于许多数据的处理过程中都需要数据服从正态分布,因此现在专门对此进行研究,检验可以运用非参数检验的方法,也可以运用P-P图和Q-Q图方法。关于非参数检验方法可以在后面的章节中介绍。一、用Explore过程检验正态分布 在Explore:Plots中,运用对话框中的Normality plots with tests核选框,将生成正态检验表、Q-Q图和无趋势Q-Q图,对指定的数据进行检验。系统对选定的所有变量的数据进行柯尔莫哥洛夫-斯米若夫检验,对于样本大小小于等于50的还要进行Shapiro-Wilk检验,另外还有Lilliefors检验,这是柯尔莫哥洛夫-斯米若夫检验的修正版本,它允许均值和方差未知,进行检验时候参数是来自于样本的,而不是事先指定的。 依次选择Analyze-Descriptive Statistics-Descriptive菜单项,打开Explore对话框。 在Dependent List列表框中输入变量名; 单击Plots按钮,打开Explore:Plots对话框; 选择Normality plots with tests核选框; 单击Continue按钮,回到Explore对话框; 单击OK按钮,生成正态分布检验表和Q-Q图和无趋势Q-Q图。二、峰度-偏度检验(Jarque-Bera检验) 如果样本数据服从正态分布,则数据的峰度-偏度应该接近于零,可以从样本描述中得到样本的峰度和偏度。 在数据编辑器中打开数据文件; 依次选择Analyze-Descriptive Statistics-Descriptive菜单项,打开Descriptive对话框; 再依次选择Analyze-Descriptive Statistics-Descriptive菜单项,打开Explore对话框。 在Variables列表框输入变量名Distance; 单击Options 按钮,打开Descriptive:Options对话框; 选择Kurtosis和Skewness核选框; 单击Continue按钮,回到Descrptive对话框; 单击OK按钮。 因为Kurtosis和Skewness都不接近于0,可见不属于正态分布。三、数据不服从正态分布时的处理 当数据不服从正态分布或正态分布的拟合程度比较差的时候,一种可行的方法是进行数据转换。(1)常用的数据转换方法常用的数据转换方法主要是平方根变换、对数变换、Fisher的Z变换和幂变换等等。其中,计算数据利用平方根变换更加接近于正态分布,比例形式的数据采用对数变换更有效,Z变换适用于相关系数。幂变换有两个系列变换,小于1的幂使得大值减小,大于1的幂使得大值增大。选择幂变换时,应该选择考虑边缘分布的散点图和直方图,并决定是否要对较大的值进行减小处理,以改进均值的对称性。经过变换以后的数据最后还要用Q-Q图或者其他方法加以检验,直到变换后的数据满足正态假设的条件。(2)SPSS实现单击Transform主菜单中的Compute选项,打开Compute Variable对话框,然后利用该对话框中的选项对原数据进行转换并且生成新的变量。对话框中各个选项的意义不再赘述。用P-P图和Q-Q图检验时,在P-P图和Q-Q图对话框的Transform方框中进行选择,确定数据转换方式。第四节 方差齐性检验 在某些数理统计过程中,要求比较的两组或多组数据的方差相等,或者称方差齐,因此,需要在运行过程之前对样本数据作方差齐性检验。一、基本数学原理 方差齐性的检验方法有多种,包括Hartley检验、Cochran检验、Barlett检验和Levene检验等,其中前面两个检验方法适用于等重复试验的情况,后两个方法可用于非等重复试验的情况。Levene检验不要求样本数据服从正态分布,而前三种方法则对样本数据有正态分布的要求。 Hartley检验又称为最大F比检验,检验统计量为: 其中,n为样本大小,Si2(i=1,2,n)为各个正态总体的样本方差。 Cochran检验又称为最大方差检验,检验统计量为: Barlett检验可用于非等重复试验的情况,其统计量为: 当方差齐时,该统计量服从自由度n-1的分布。由于Levene检验不要求样本数据服从正态分布,其应用的面比较上面三种方法要宽的多,因子在新版本的SPSS中基本上采用这一方法,而摈弃前面三种方法。二、SPSS实现 SPSS中提供了多个过程和多种方法进行方差齐性检验。(1)有的过程在运行过程中自动进行方法齐性检验,并且给出检验结果,例如前面介绍的t检验。用户可以根据实际情况选择方差齐性或者不齐的那一组统计量作为最终计算结果。(2)利用数据探察过程进行检验。在Explore:Plots对话框中的Spread vs Level with Levene Test方框内选择选项,可以对样本方差进行检验和数据转换,其意义为: None单选项 选择此项,将不生成幅度-水平图,不进行方差齐性检验; Power estimation单选项 选择此项,将要对幂变换的幂次作出估计,并且生成一组散点图,该散点图的横坐标和纵坐标分别为每一次级分组对应数据的四分位的自然对数和中位数的自然对数。 Transformed单选项 选择此项,后面的Power下拉式列表中变为可用,在其中进行选择,确定为方差齐性需要作出的变换类型。 Cube 立方 Square平方 Square root平方根 Logarithm 对数 Reciprocal of square root 负的平方根 Reciprocal倒数 Untransformed单选项 选择此项,将不对原数据进行转换。(3)方差不齐时的处理 方差不齐性时候,有两种方法可以对数据进行处理,即非参数方法和数据变换的方法。其实在上面已经说明,即进行转换。第五节 线性检验 利用Means过程可以进行变量数据之间的线性检验,即检验之间是否存在线性相关关系。一、对话框介绍 用鼠标指向Analyze菜单条中的Compare Means选项,然后在打开的子菜单中单击Means选项,打开Means对话框,如下图所示。 Dependent列表框:在该列表框中输入变量名,对应变量为因变量; Independent列表框:在该列表框中输入变量名,对应变量为自变量; Next按钮:单击该按钮,随后输入的变量名对应的变量将被添加到后一级层中。重复该按钮的操作,可以创建多个层。 Previous按钮:单击该按钮,显示前一级层中的变量; Options按钮:单击该按钮:打开Means:Options对话框,意义如下: Statistics列表框:在该列表框中列出了多个统计量进行选择,可以选择的有:Median中值Grouped Median组中值Std.Error of Mean均值的标准误差Sum和Minimum最小值Maximum最大值Range极差First第一个值Last最后一个值Variance方差Kurtosis峰度Std.Error of Kurtosis峰度误差Skewness偏度Std.Er

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论