非参数统计教学ppt课件(完整版)_第1页
非参数统计教学ppt课件(完整版)_第2页
非参数统计教学ppt课件(完整版)_第3页
非参数统计教学ppt课件(完整版)_第4页
非参数统计教学ppt课件(完整版)_第5页
已阅读5页,还剩261页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第1章 导 言本章内容:一、测量的层次二、统计检验基本思想回顾三、非参数统计方法四、经验分布函数五、大样本近似时的连续性修正六、功效函数和检验的渐近相对效率一、测量的层次所谓测量,就是根据一定的法则,给事物或事件分配一定的数字或符号。数据属于何种测量层次,决定该数据能够使用何种类型的方法进行分析。广泛采用的测量层次为四种类型的尺度:定类尺度、定序尺度、定距尺度、定比尺度。测量时,无论哪一种测量层次,都必须具有完备性和互斥性。(不重不漏)(一)定类尺度定类尺度是按照事物的某些特征辨别和划分的一种测量层次,也被称作类别尺度、名义尺度。如性别、职业、民族等。定类尺度只能将事物分类,不能用以反映事物的

2、数量状况。如性别这一变量,用“1”表示男性,“0”表示女性;职工对所从事的职业是否满意,用“0”表示不满意、用“1”表示满意等,这里的“0”和“1”仅仅是人们赋予的识别标志,并不说明事物的数量,有时也称这样的变量为虚拟变量。定类尺度是最低一个层次的测量,它只能进行“=”或“”的逻辑运算。定类测量数据常用的描述统计量有:众数、频数、异众比率等。(二)定序尺度定序尺度是按照事物的某种特征依大小、高低顺序或级别进行排列的一种测量层次,也称作顺序尺度、等级尺度。例如,测量职工的文化程度可以分为:硕士研究生及以上、本科、大专、中学及以下。定序尺度是比定类尺度高一层次的测量,它不仅能进行“=”或“”的运算

3、,还能进行“”、“”的运算。描述定序测量数据集中趋势的统计量除了众数还有中位数,反映离散程度的除了异众比率还有分位数。(三)定距尺度定距尺度是不仅能将事物区分类别和等级,还可以确定不同类别或等级之间的数量差别、间隔距离的一种测量层次,也称作间隔尺度、区间尺度。例如,职工对自己职业的满意程度测量,1分表示很不满意,10分表示很满意;对学生学习考试成绩的测量,0表示试卷中没有一个对的,100表示试卷中全部答对。定距尺度是一种定量的测量层次,它不仅能反映事物的类别和顺序,而且能反映事物数量之间的距离。它是比定序尺度又高一层次的测量,不仅能进行“=”和“”,“”和“”的运算,还能进行“+”、 “-”的

4、运算。但是定距尺度没有绝对“0”。例如,某门课程成绩的百分制测量,0分不表示某考生没有这门课方面的知识。甲考试成绩为90分,乙为85分,90-85=5分,只表明甲比乙在这门课考试成绩中多5分,不能说明甲掌握的这方面知识是乙的大约1.06倍(90/85)。(四)定比尺度定比尺度是在定距尺度的基础上增加绝对零点的一种测量层次,也称作等比尺度、比率尺度。是否具有实际意义的零点存在,是定比尺度与定距尺度的唯一区别。例如对职工年龄的测量,“0”岁是绝对的,对所有人都一样,若甲为40岁,乙为20岁,可知甲的年龄是乙的2倍。定比尺度由于有一绝对零点存在,因而比定距尺度更利于反映事物之间的比例或比率关系,是所

5、有测量层次中最高一层次的测量,不仅能进行“”、“”,“”、“”,“+”、“-”的运算,而且能进行“”、“”的运算。在定比测量中,除了使用定距测量数据所有描述性统计量,还有几何平均数、变异系数等。(五)四种测量尺度的关系首先,这些测量尺度之间有着包含关系,即高一层次的测量总是包含低层次的测量。定序尺度包含了定类尺度所有运算性质,定距尺度包含了定序、定类尺度所有运算性质,而定比尺度则包含了所有测量层次的运算性质。其次,四种测量尺度之间,低级的测量尺度往往能用较高级的测量尺度形式表示。例如,对学生考试成绩的测量,进行定类测量可分为及格、不及格:若将及格的成绩高低排序,可分为优、良、中、及格,这是定序

6、尺度;若再将各顺序等级给出等级分,即按百分制测量,优:90分以上,良:80-90分,中:70-80分,及格:60-70分。数据的测量层次和数据中蕴含的信息相关,对于相同的样本容量,越高层次的测量,意味着数据中有越丰富的信息,往往可使用更加复杂的统计方法进行分析。二、统计检验基本思想回顾 三、非参数统计方法非参数问题是指总体分布形式未知或虽已知却不能用有限个参数刻画的统计问题。当总体分布不能由有限个实参数所刻划或并不知晓总体分布或不关心总体分布时的统计方法,称为非参数统计方法。非参数统计方法不依赖总体的具体分布形式,构造的统计量以及估计常与具体分布无关,故又称非参数方法为自由分布方法。非参数统计

7、包含两大方面的问题:一是较为经典的以检验为主的统计推断,如基于秩统计量的方法、列联分析等 。另一方面是从无穷维的函数空间寻找恰当的总体分布或条件分布,如核密度估计、局部多项式回归、样条、可加模型等,这类方法与基于秩的方法有很大的不同,但同样都不依赖于对总体分布所做的确定的假定、不依赖有限个参数,被称为现代非参数统计 。非参数检验在以下情形常为使用:待分析数据不满足参数检验所要求的假定例如,非正态总体小样本,t-检验不适用时,作为替代方法,可以采用非参数检验。仅由一些等级构成的数据例如,消费者可能被问及对几种不同商标的饮料的喜欢程度,他们不能对每种商标都指定一个数字来表示对该商标的喜欢程度,却能

8、将几种商标按喜欢的顺序分成等级,如十分喜欢、比较喜欢、喜欢、不大喜欢、不喜欢等,无法采用参数检验,宜采用非参数检验。讨论的问题中不包含参数例如,要判断一个样本是否为随机样本,采用非参数检验法是适当的。测量层次数学性质描述统计量适合的统计方法定类尺度众数频率列联系数非参数方法定序尺度中位数分位数肯德尔秩相关系数斯皮尔曼秩相关系数定距尺度平均值方差皮尔逊相关系数参数和非参数方法定比尺度几何均值标准差系数多重相关系数四、经验分布函数【例1.2】分别产生10、20、50、100个标准正态分布的随机数,比较不同样本量经验分布函数与总体分布函数的差异。五、大样本近似时的连续性修正问题的提出:在非参数统计中

9、,统计量的抽样分布一般很难求,也有一些统计量没有精确的分布;当样本量较大时,即使统计量有精确分布,计算量会很大,导致计算时间过长,此时需要利用统计量的渐近分布进行大样本近似,例如正态近似、卡方近似等。精确分布是离散分布,但是渐近分布是连续分布,两者存在差异。六、功效函数和检验的渐近相对效率为了达到犯两类错误的概率尽可能小,理论上可以寻找到合适的样本量,尽可能满足事先规定的犯第一类和第二类错误的概率。非参数检验的功效函数在大多数情况下都很难求出精确表达式,研究功效时,常将不同的检验做相对比较,比较的途径基本两条,一是对各种备择假设做统计模拟,另一是求渐近相对效率。关于不同分布下各种检验的渐近相对

10、效率可参考孙山泽,非参数统计讲义,北京大学出版社。第2章 单样本非参数检验2.1 符号检验符号检验(Sign Test)是利用正,负号的数目对某种假设作出判定的非参数统计方法。本质上而言,符号检验是基于二项分布构造的检验方法,应视为参数方法。但它与秩方法关系密切,所以作为最简单的非参数检验也是合适的。2.1.1 普通的符号检验备择假设备择假设普通的符号检验p值计算方法:【例2.1】女性在对事物的看法上是否倾向于比男性保守?一些社会科学家对这样的事实很感兴趣,当夫妇俩人有一个类似的观点时,妻子可能比丈夫要保守。为了验证这一事实是否成立,随机选取了50对夫妇进行调查。按预先制定的问题每人分别被询问

11、,结果只有10对夫妇的看法倾向性差异较大,而其中9对夫妇的妻子确实比丈夫保守。【例2.2】为了解顾客对咖啡、茶的喜好情况,在某商店随机抽取15名顾客进行调查,结果有12名顾客更喜欢茶,2名顾客更喜欢咖啡,1名对两者同样爱好。请问顾客对咖啡、茶的喜好是否有显著差异?若有差异,是否更喜欢茶。注意:(1)本例的数据中,有一个样本是对茶和咖啡同样爱好,在非参数统计中经常遇到。本例的处理方法是不考虑这个样本。(2)p值什么时候可以被认为充分小?一般来说,0.05作为一个标准,如果p值小于0.05被认为是一个小概率事件,本例和前一例都以显著性水平0.05作为“小”的标准,实际问题处理中可能会将p定得更小,

12、如0.01或者0.001,当然有时也会将标准定为0.10,这时必须有充分理由认为0.10是一个发生事件很小的概率。2.1.2 位置的符号检验【例2.3】生产过程是否需要调整?某企业生产一种钢管,规定长度的中位数是10米。现随机地从正在生产的生产线上选取10根进行测量,结果为:9.8, 10.1, 9.7, 9.9, 9.8, 10.0, 9.7, 10.0, 9.9, 9.8。请问生产过程是否需要调整?配对样本位置的符号检验【例2.4】领导者的领导水平是否是可以训练的?为验证领导水平是可以训练的,根据人的聪明程度、人品、受教育状况等,随机抽选出12个人配成6对,每对中有一人随机选择受训,记作T

13、,另一人则不受训记作C。经过一段时间后,按被设计好的问题评价他们的领导水平,结果如表2-2。编号T的评价(x)C的评价(y)x-y的符号11310+2197+33420+42438-54022+63915+表2-2 配对样本评价表2.1.3 二项式检验和分位数检验检验统计量及其抽样分布:备择假设p值(精确方法)二项检验p值确定方法【例2.5】高中生晚自习是否应延长时间?某高中每晚8:30结束晚自习,有人建议应延长至10:00。为作出决定,现对该高中学生做一调查,若学生中有25%以上说应该延长晚自习时间,则延长时间。随机选取18个学生进行调查,有7个学生表示应该延长晚自习时间。2. 分位数检验备

14、择假设p值(精确方法)【例2.6】今天成年人的睡眠量是否少于5年前?5年前某地区的调查表明,成年人在每日24小时中的睡眠量中位数是7.5小时,每日睡眠量为6小时或少于6小时的占调查总数的5%,9小时和9小时以上的也占5%, 现对随机抽取的8个普通成年人的调查结果为,每日24小时中睡眠量分为7.2, 8.3, 5.6, 7.4, 7.8, 5.2, 9.1, 5.8小时。2.2 Wilcoxon 符号秩检验Wilcoxon符号秩检验(Wilcoxon Signed Rank Test) 亦称威尔科克森带符号的等级检验。它是对符号检验的一种改进。符号检验只利用关于样本的差异方向上的信息,并未考虑差

15、别的大小。Wilcoxon符号秩检验弥补了符号检验的这点不足。下面的例子很能说明问题。【例2.7】设想请13个人品尝了甲、乙两种酒,评分结果见表2-5。品酒人12345678910111213甲55324150.560483945484652.24544乙353743.1553450.34346.15147.35546.544符号+-+-0此处得分差为甲得分减去乙得分。问甲乙哪种酒好?分析:如果仅看得分差的符号,12个非0符号中,只有2个+,利用符号检验不难得出乙种酒好的结论。但是进一步思考会发现,认为“乙种酒好”的10人中,给出的得分其实相差无几,而认为“甲种酒”好的2人中,给出的得分是甲远

16、高于乙。这说明认为“乙种酒好”的人心目中其实甲乙差不多,有可能是随机因素造成了乙得分高。Wilcoxon符号秩检验在符号的基础上进一步考虑了差异的大小,以消除随机性带来的影响。2.2.1 位置的Wilcoxon符号秩检验1. 基本方法Wilcoxon符号秩检验p值的计算方法:备择假设p值(精确方法)p值(正态近似方法)【例2.8】铸件的机加工是否应转包出去? 某钢铁公司订购了一批铸件,在使用前需进行机加工。这一任务可由公司承担,也可以转包给他人。公司为减少加工费用,所确定原则是:若铸件重量的中位数超过25公斤,就包出去;等于或小于25公斤则不转包。从这批100件铸件中随机抽取8件进行测量,每件

17、重量分别为:24.3,25.8,25.4,24.8,25.2,25.1,25.0,25.5。使用这些数据,能否作出这批铸件是否转包的决定。编号重量差值D|D|D|的秩D的符号124.3-0.70.76-225.80.80.87+325.40.40.44+424.8-0.20.22.5-525.20.20.22.5+625.10.10.11+725.000825.50.50.55+例2.8秩计算的全部结果(平均秩法):在配对样本中的应用【例2.9】 新配方是否有助于防晒黑?某防晒霜制造者,欲了解一种新配方是否有助于防晒黑,对7个志愿者进行了试验。在每人脊椎一侧涂原配方的防晒霜,另一侧涂新配方的防

18、晒霜。背部在太阳下暴晒后,按预先给定的标准测定晒黑程度如下表。表中数值越大,表明晒黑程度越高。编号1234567原配方42513161445548新配方38533652334936得到p值为0.055。这个概率对于显著性水平0.05来说刚刚不能拒绝原假设。2.3 游程检验1.游程的含义一个可以两分的总体,如按性别区分的人群,按产品是否有缺陷区分的总体等等,随机从中抽取一个样本,样本也可以分为两类;类型和类型。若凡属类型的给以符号A, 类型的给以符号B, 则当样本按某种顺序排列(如按抽取时间先后排列)时,一个或者一个以上相同符号连续出现的段,就被称作游程,也就是说,游程是在一个两种类型符号的有序

19、排列中,相同符号连续出现的段。例如,将某售票处排队等候购票的人按性别区分,男以A表示,女以B表示。按到来的时间先后观测序列为:AABABB。在这个序列中,AA为一个游程,连续出现两个A;跟随它的符号B是一个游程;BB也是一个游程,领先于它的A也是一个游程。在这个序列中,A的游程有2个,B的游程也有2个,序列共有4个游程。每一个游程所包含符号的个数,称为游程的长度。如上面的序列中,有一个长度为2的A游程、一个长度为2的B游程,长度为1的A游程、B游程各有1个。2.基本方法随机抽取一个样本,观测值按某种顺序排列,如果研究所关心的问题是:被有序排列的两种类型符号是否随机排列,则可以建立双侧备择,假设

20、组为:为了对假设作出判定,被收集的样本数据仅需定类尺度测量,但要求进行有意义的排序,按一定次序排列的样本观测值能够被变换为两种类型的符号。备择假设p值(精确方法)U的右尾概率U的左尾概率U较小尾部概率的2倍备择假设p值(正态近似)Z较小尾部概率的2倍【例2.10】 某旅游点该年气温偏差是否随机?某旅游点该年二月份的气温,连续10天被记录,每天的最高气温与历史上同期最高气温平均值比较,高于均值记作A,低于均值记录作B,结果10天的气温依次记录为AABABBAAAB, 使用=0.05的显著性水平,检验高温的偏差是否随机。得到p值为0.888。结果表明在0.05的水平上,不能拒绝气温偏差是随机的原假

21、设。011101011101011101011111111111【例2.11】 从生产线上抽取产品检验,是否应采用频繁抽取小样本的方法?在一个刚建成的制造厂内,质量控制员需要设计一个抽样方法,以保证质量检查的可靠。生产线上抽取的产品检查结果可简单地分为两类:有毛病、无毛病,检验费用与受检产品总数有关,而与每次抽检产品数量关系不大。一般来说,有毛病的产品似乎是成群的,则每天应频繁抽取小样本,以保证估计可靠;若有毛病的产品随机产生,则每天以间隔较长地抽取大样本,就可以得到一个比较好的估计。现随机抽取30个产品,有毛病的编码为0, 好的编码为1,按从生产线抽取顺序排列(下面是按列的顺序排),结果为1

22、. 基本方法2. 应用(1)理论频数完全已知【例2.12】某金融机构的贷款偿还类型有A、B、C、D四种,各种的预期偿还率为80%、12%、7%和1%,在一段时间的观察记录中,A型按时偿还的有380第,B型有69笔,C型有43笔,D型有8笔。问在5%显著性水平上,这些结果与预期的是否一致?类型A380400-204001.00B69609811.35C43358641.83D85391.80合计5005005.98计算细节:(2)理论频数不完全已知【例2.13】从1500到1931年的432年间,每年爆发战争的次数可以看作一个随机变量,椐统计这432年间共爆发了299次战争,具体数据如下表。战争

23、次数年数0223114224831544问战争爆发的次数是否近似服从泊松分布?如果原假设成立,则理论期望频率为223216.220142149.6524851.7891511.94842.390第3章 两样本非参数检验本章内容:3.1 两个相关样本的非参数检验3.2 两个独立样本的非参数检验3.3 尺度检验3.1 两个相关样本的非参数检验两个相关样本的定义:若一次抽样的测量结果影响另一次抽样测量结果,则这种抽样是相关的。例如,对照实验得到的样本就是相关样本。在接受两种不同训练方法的人员中,由于智力、接受能力、耐力等方面的不同,会导致不同处理的结果产生差异,这不是所要研究的问题,而是其它因素影响

24、产生的附加差异,这些其它影响因素也称为混杂因素。这些因素在实施不同处理前必须排除。为获取相关样本,常应用两种方式。一是让每一研究对象作为自身的对照者,另一是将研究对象两两配对,分别给每一对两个成员以不同处理。3.1.1 两个相关样本的符号检验1. 基本方法配对是处理相关样本的基本手段。如果关心的是某一总体中位数是否大于另一总体中位数,则可建立单侧备择,假设组为2. 应用【例3.1】教学参考资料对于指导学生自学是否有效?为帮助学生通过自学提高对知识的掌握,编辑了符合教学大纲的教学参考资料。针对某一概念的掌握进行实验,随机选取15名学生,他们在使用参考资料之前的得分(5分制)如下表。学习参考资料后

25、,重新对这一概念进行测试,得分也列在表中。检验这部参考资料是否促进学生掌握知识。学生编号123456789101112131415第一次成绩222233333323323第二次成绩342323442443444编号编号编号124735135423483314253359211555435103516355331125171563212253.1.2 两个相关样本的Wilcoxon符号秩检验1. 基本方法两个相关样本的Wilcoxon符号秩检验也是用来检验配对样本是否有显著差异的方法。它不仅借助于两个样本差值的符号,而且利用差值的大小,因此它比符号检验有更精确的判断。建立假设组,当研究的问题仅关

26、心两个总体的分布是否相同,或说两个总体中位数是否相同时,采用双侧检验为2应用【例3.3】幼儿园的生活对孩子的社会知识是否有影响?有人认为儿童上幼儿园有助于其认识社会,有人则认为儿童在家一样可以获得社会知识。为了解它们是否存在显著差异,对8个同性孪生儿童进行实验,随机指定8对中一个上幼儿园,另一个则在家。经过一段时间后,通过对他们的询问,分别作出相应的评价,评分越高,表明社会知识越多,结果见下表。配对编号12345678上幼儿园儿童7870678176728583在家儿童6258637780738278分析:虽然可以相信得分多的孩子比得分少的孩子社会知识要多,但由于是定距尺度测量,无绝对零值,因

27、此不能认为得80分的孩子社会知识是得40分的孩子的2倍,也不能认为80分与60分的社会知识之差一定是60分与50分之差的2倍。但是,可以肯定,80分与60分所代表的社会知识之差一定大于60分和50分之间的差。所以将分数差值的绝对值排序是有意义的,这样就有能够运用Wilcoxon符号秩检验判定在家和上幼儿园对孩子的社会知识是否有显著影响。3.2 两个独立样本的非参数检验若第一次抽样的所有样本某一属性的测量结果,不影响第二次抽样的所有样本同一属性的测量结果,则这种抽样是独立的,得到的两个样本为独立样本。适用于独立样本的情况:样本配对不当、无法配对等,即不适宜视为相关样本的情形。3.2.1 Mann

28、-Whitney-Wilcoxon检验Mann-Whitney-Wilcoxon检验,常译为曼-惠特尼-维尔科克森检验,简写为M-W-W检验,亦称Wilcoxon秩和检验。1. 基本方法若大部分的Y大于X 或大部分的X大于Y将不能证实这个有序的序列是一个随机的混合,将拒绝X和Y来自一个相同总体的原假设。【例3.4】一种药物有效性的试验,一组为试验组,一组为对照组。试验结果评分如下表:试验组(X)81218对照组(Y)691113将表中评分按从小到大的顺序排列,并注意哪一个评分为X组的,哪一个为Y组的,同时给出秩,结果如下:排序68911121318秩1234567组别YXYYXYX备择假设p值

29、备择假设p值 2. 应用【例3.5】某种药物对治疗肿瘤是否有效?选择9只白鼠,作为抗癌药物筛选的对象,9只白鼠的基本条件相同,同时注射致癌物。然后随机选取其中3只进行抗癌药物处理。肿瘤的重量是检验药物有效性的一个指标。经过一个固定的时间周期后,将9只白鼠的肿瘤割除称重,结果如下(重量单位是克)。 处理组(X):0.94, 1.56, 1.15 控制组(Y):1.20, 1.63, 2.26, 1.87, 2.20, 1.30 分析:若该种抗癌药物有效,处理组白鼠肿瘤的重量应该小于控制组的平均重量。由于这个试验采用的是小样本,且为两个独立样本,数据测量为定比尺度,可运用Mann-Whitney-

30、Wilcoxon检验,建立的假设组为将肿瘤重量从小到大排序并计算秩和组别得到下表结果:肿瘤重量0.941.151.201.301.561.631.872.202.26秩123456789组别XXYYXYYYY3. 同分的处理【例3.6】问题按难易次序提问是否影响学生正确回答的能力?从心理学的角度看,按问题的难易程度顺序提问会影响学生正确回答的能力,从而影响他们的总分数。为检验这种观点,随机地将一班学生20人分成两组,每组10人。设计一组问题,分成A和B卷,A卷是问题按从易到难的次序安排。B卷相反,从最难到最易。两组学生分别回答A和B卷,考试被控制在完相同的条件下进行,评分结果如下:A: 83,

31、 82, 84, 96, 90, 64, 91, 71, 75, 72B: 42, 61, 52, 78, 69, 81, 75, 78, 78, 65分析:这一问题可以考虑按考试分数的中位数来研究。若两组成绩的中位数相等,提问的次序对学生的成绩无显著影响,若中位数不相等则不能认为没有显著影响。由于是小样本,并且为两个独立样本,因而可以运用M-W-W检验,这是一个单侧检验,单侧备择应是A组的成绩平均高于B组。因为两个样本的观测值数目相同,无论哪组都可以记作X。若以X代表A组。则假设组为4. 移位参数的Mann-Whitney-Wilcoxon检验3.2.2 Wald-Wolfowitz游程检验

32、Wald-Wolfowitz Runs Test常译为沃尔德-沃尔福威茨连串检验或游程检验,简写为W-W串检验。1. 基本方法思想方法:分析合并样本的游程。例如,观察两组学生的考试成绩,将7个分数排列成一个从小到大的序列如下:第一组(X)727863第二组(Y)65798285观察X和Y出现的次序以确定游程数。序列中有4个游程,一个由来自X的63分构成的游程,随后是一个由来自Y的65分构成的游程,再后是由来自X的两个分数72和78构成的游程,最后是三个来自Y的分数构成的1个游程。排序63657278798285组别XYXXYYY可以用序列的游程数作为检验统计量,定义U为Wald-Wolfowi

33、tz检验的统计量U = 游程的总数目2. 应用【例3.7】问题的提问顺序是否对学生正确回答的能力有影响?沿用例3.6的资料,考察问题的提问顺序是否对学生成绩产生影响。分析:由于只考察问题从易到排序和从难到易排序是否会影响学生的成绩,且相互独立,因此可以用Wald-Wolfowitez游程检验。假设组为将试验数据即学生考试成绩从小到大排序得到下表:42526164656971727575YYYXYYXXXY78787881828384909196YYYYXXXXXX3.3 尺度检验尺度检验用于考察两个总体的分散程度是否一致。在总体分布为正态分布时,尺度检验可以通过F检验完成。但是在实际中,总体的

34、正态性假设往往不能满足,需要用适用范围更广的尺度检验。下面介绍两种基于秩方法的尺度检验:安萨里-布拉德利(Ansari-Bradley)检验和平方秩检验。3.3.1 安萨里-布拉德利(Ansari-Bradley)检验1. 基本方法备择假设p值计算方法(R语言命令)ansari.test(x,y,alternative=greater)ansari.test(x,y,alternative=less)ansari.test(x,y,alternative= two.sided)当每个总体的样本量都小于50个时,可以用精确检验,此时,数据有同分(打结)对结果影响很小。当每个总体的样本量都大于50

35、时,可以用正态近似,只要在R命令中添加exact = F即可。此时,数据同分(打结)需要调整,R语言在计算时会自动完成调整。2. 应用【例3.8】两个经销商的铅锭重量是否有相同的可靠度?两个经销商的铅锭重量有相同的中位数,但是怀疑第一个经销商的重量变化幅度比第二个的大。随机抽取了两个经销商的22个铅锭如下表(单位:千克)。经销商115.41615.615.716.616.316.416.815.216.915.1经销商215.716.115.916.215.91615.816.116.316.515.53.3.2 平方秩检验Ansari-Bradley检验要求待检验的两总体尺度参数(中位数)相

36、等或已知。但是实际问题中,有时候这样的要求不能满足。此时要检验总体的分散程度可以选择平方秩检验。1. 基本方法备择假设p值计算(正态近似)Z的右尾概率Z的左尾概率Z的小尾概率的2倍2. 应用【例3.9】已知有两群人的心率数据如下,请问两群人的心率波动大小是否相同?群体1:58, 76, 82, 74, 79, 65, 74, 86群体2:66, 74, 69, 76, 72, 73, 75, 67, 68分析:可以算出,两个群体的平均心率分别是74.25和71.11,并且数据有同分,故采用正态近似的平方秩检验。第4章 多样本非参数检验本章内容:4.1 Cochran Q检验及多重比较4.2 F

37、riedman 检验及多重比较4.3 Kruskal-Wallis检验及多重比较4.1 Cochran Q检验及多重比较1. 基本方法为对假设作出判定,所分析的数据测量层次为定类尺度即可。获得的数据可排成一个n行k列的表。例如教材例4.1中表4-1呈现的样子。(1)检验的基本思想(2)多重比较具体可通过相关样本符号检验实现,或者McNemar检验实现,其中后者是Cochran Q检验在两样本情形的特例。1(成功)0(失败)1(成功)0(失败)McNemar检验的基本思想:检验统计量为在进行多次两两配对检验时,需要对p值进行调整,以防止犯第一类错误过大。调整p值的方法与方差分析中多重比较时采用的

38、调整方法相同。无论用符号检验还是用McNemar检验做多重比较,检验最终的p值都需要通过多重比较的调整方法算出。2. 应用【例4.1】消费者对饮料的爱好是否存在显著差异?某饮料经销商为决定经营饮料的品种、数量,对消费者的爱好进行了一次调查。随机抽取18个消费者,请他们对四种饮料:奶茶、果茶、可乐、矿泉水的喜好作出评价,凡喜欢的记作1,不喜欢记作0。调查结果如教材表4-1(囿于篇幅不在此展示表格)。分析:在这个例子中,被调查的消费者是同一批人,所以是相关样本。并且所有的数据都表示两种结果,1代表“成功”(喜欢),0代表“失败”(不喜欢)。对这种来自k个总体的二元响应数据进行差异性检验,可以选择C

39、ochran Q检验。在R语言中,程序包RVAideMemoire中的函数cochran.qtest可以做Cochran Q检验,并且输出基于配对符号检验的多重比较结果。输出结果表明,p=0.914,对于显著性水平0.05,p值足够大。不能拒绝原假设,即这个调查结果不足以推翻消费者对几种饮料同样喜欢的假设。从输出结果还可以看到总体的比例估计,喜欢奶茶和果茶的比例都是0.444,喜欢可乐的比例为0.389,喜欢矿泉水的比例是0.333。从比例上看确实差不多。注:利用R程序包RVAideMemoire的cochran.qtest函数进行检验,如果拒绝原假设,则可以自动输出基于符号检验的多重比较结果

40、,本例没有输出多重比较的原因是本例没有拒绝原假设。【例4.2】三种不同教学方法的效果是否有显著差异三种不同教学方法:网络教学、课堂讲授、课堂讨论,对学生掌握知识的效果是否有所不同。为检验这一问题,抽选部分学生分为18组,每组3名匹配的学生,他们的有关情况类似。各组中3名学生被随机地置于3种条件下,即随机地指定接受某种教学方法。实施不同教学方法后进行测验,成绩合格为有效,记作1; 成绩不合格为无效,记作0。结果如教材表4-3。本例采用R语言两种方法实现。方法1。采用R程序包RVAideMemoire的cochran.qtest函数进行检验,并输出基于符号检验的多重比较结果。输出结果表明,p=0.

41、0015,对于显著性水平0.01,这个p值足够小,拒绝原假设,即可以认为,该调查说明三种教学方法的效果有显著差异。方法2。采用程序包DescTools的CochranQTest函数完成检验,并用程序包rcompanion的pairwiseMcnemar完成基于McNemar检验的多重比较。输出结果表明,p=0.0015,对于显著性水平0.01,这个p值足够小,拒绝原假设,即可以认为,该调查说明三种教学方法的效果有显著差异。两种方法的多重比较结果:样本配对符号检验多重比较p值(BH调整)0.0340.0061.000样本配对McNemar检验多重比较p值(BH调整)0.0340.0061.000

42、两种方法的检验结果一致,在显著性水平0.05下,网络教学与课堂讨论、网络教学和课堂教学都有显著不同,课堂教学和课堂讨论效果差不多。这个结果与比例估计的结果也是吻合的。4.2 Friedman 检验及多重比较k个样本是匹配的(相关样本),实现匹配的方法与前面类似。可以是k个条件下同一组受试者构成,即受试对象作为自身的对照者,也可以将受试者分为n个组、每组均有k个匹配的受试者,随机地将k个受试者置于k个条件之下形成。在不同受试者匹配的样本中,应尽量使不同受试者的有关因素匹配即相似。1. 基本方法(1)检验的基本思想与Cochran Q检验相似,Friedman检验也是用来检验各个样本所得的结果在整

43、体上是否存在显著差异。因此建立的也是双侧备择,假设组为为对假设作出判定,所分析的数据应是定序尺度测量。获得的数据排成一个n行k列的表,如教材表4-5,行代表不同的受试者或匹配的受试小组,列代表各种条件。用方差分析的语言来讲,就是因子的k个水平有n个区组。检验统计量:由于是定序尺度测量的数据,因此,可以对每一行的观测结果分别评秩,即评等级,等级1是最小的,依次排序,秩从1到k。(2)多重比较可以通过多种检验方法实现(例如配对的wilcoxon符号秩检验),并结合多重比较的p值调整方法得到最终的p值。本章采用基于Nemenyi检验和基于Conover检验实现多重比较。2. 应用【例4.3】三种不同

44、教学方法的效果是否有显著差异 三种不同教学方法同例4.2, 抽选的学生也分为18组,每组3名匹配的学生,其有关情况类似。各组中3名学生被随机地安排接受某种教学方法。实施不同教学方法后,进行测验,按成绩高低对3名匹配学生的成绩排列等级即评秩,结果如教材表4-6。分析:这个问题与例4.2类似,也是检验三种教学方法的效果有无差异,因而应建立双侧备择,假设组为由于数据的测量已转化为定序尺度,且是两个以上相关样本,可以采用Friedman检验。可以看出第15个观测存在同分,R语言会自动对同分情况修正p值,利用R函数friedman.test即可。输出结果表明,p=0.006。对于显著性水平0.01,该值

45、足够小。拒绝原假设,说明三种教学方法的效果存在差异。三种教学方法的效果差异具体是谁和谁的差异?差异多大?需要进一步通过多重比较分析得到。R程序包PMCMRplus中提供多种多重比较的函数,这里介绍两种:基于Nemenyi检验和基于Conover检验的多重比较。结果如下:样本配对Nemenyi多重比较p值(BH调整)0.0270.0100.941样本配对Conover多重比较p值(BH调整)0.0000.0000.3803. Kendall协同系数Kendall协同系数在理论上与Friedman检验完全等价,在应用中,两者的分析角度不一样,可以互为补充。设对k个对象(总体)进行n次评价,这种评价

46、可以是打分,可以是排序等。比如在例4.3中,相当于n(=18)个学生(被动地)对k(=3)种教学方式进行了打分。这样就得到的数据形成n行k列的评价结果(n行k列的数据阵)。研究想知道,n次评价在多大程度上是一致的?如果n次评价是随机的,没有必要做进一步分析。Kendall协同系数可以回答这个问题。可见,Kendall协同系数与Friedman检验是对同一个对象的两种分析思路。沿用Friedman检验统计量中的记号,Kendall协同系数定义为W的取值在0到1之间,若W=0,则表明对k个对象的n次评价是完全随机的;若W=1,则表明对k个对象的n次评价是完全一致的。如果出现同分,则与Friedma

47、n检验统计量的修正方式完全类似,修正的W为【例4.4】以例4.3用Kendall协同系数进行分析。这个分析角度是从学生考试成绩的角度分析3种教学方法的效果是否有显著差异,如果学生考试成绩对不同教学方法而言都有好有坏,呈现随机性,则教学方法没有显著差异。否则,就是教学方法的效果有差异。R程序包DescTools中的KendallW函数可以输出Kendall协同系数。例4.3的Kendall协同系数为0.287。关于Kendall协同系数大小与评价一致性的关系,有经验法则见下表。一致性强度弱中等强K=3K=5K=7K=9根据经验法则,学生的成绩呈现较强的一致性,说明3种教学方法的教学效果是不一样的

48、。Kendall协同系数的显著性检验对例4.4进行W的显著性检验,得到p值为0.006,拒绝评价是随机的原假设,此结果与经验法则得到结论是一致的。4.3 Kruskal-Wallis检验及多重比较Kruskal-Wallis检验是适用于检验k个独立样本是否来自同一总体的非参数方法。Kruskal-Wallis检验亦有译为克拉夏尔-瓦里斯检验,或简称为克氏检验。它是两个独立样本Mann-Whitney-Wilcoxon检验的一种推广。1. 基本方法(1)检验的基本思想注意,k个相关样本情形是不能这么做的,因为合并后的样本点将不再独立,这是独立样本和相关样本处理数据的本质差异。对得到的单一样本按从

49、小到大排序,将每一个观测值给出一个等级即评秩,秩为整数,从1到N。对于N个观测值来说,平均秩是可以看出,H的分子是每个样本实际等级和与期望等级和的偏差平方和,如果原假设为真,该H的值应该倾向很小,如果H的值过大,就有理由怀疑原假设不真。p值的计算(2)多重比较检验统计量为2. 应用【例4.5】四种不同类型治疗的有效性是否有显著不同 对于精神错乱有4种不同的手段:电击、心理疗法,电击加心理疗法、无任何治疗。为检验这几种不同手段对精神错乱治疗的有效性是否有显著不同,选取40个患者。他们在智力、品德、心理等因素方面相差不多。随机地将40人分成4个组,每组10人。4个组分别接受不同方法的治疗。一个周期

50、后,对每个患者相对改善程度进行测量,依改善高低程度给40人分等级,等级1是改善的最高水平,依次排序,直至等级40是改善最小的水平。评秩结果如教材表4-10。分析:对任何一种方法判定其有效的标志是患者分数的中位数,若4种方法效果差异不大,则各总体的中位数应相等。为检验4种方法有效性是否有显著差异,建立假设组为由于数据是定序尺度测量,有两个以上独立样本,可以采用Kruskal-Wallis检验,R函数为kruskal.test。利用多重比较进一步分析各种治疗方法之间的具体差异,利用R程序包FSA中的dunnTest函数可以实现。多重比较结果整理如下表:疗法配对p值(基于Dunn检验和BH法)3.

51、同分的处理多重比较的检验统计量也要作相应的修正,修正后的检验统计量为【例4.6】三种不同教学方法的有效性是否有显著差异 某大学制定三种不同的教学方法:大班讲授、小班讲授、小组讨论。为检验三种方法对学生掌握知识的有效性是否有显著相同,进行了一次试验。选取二年级大学生50名,随机地分为三组,分别接受三种不同方法教学。由同一教师按不同方法分别讲授同一方面的知识,规定的内容讲授完后,对学生进行统一考试,成绩如教材表4-12。 分析:学生成绩为定距尺度测量,但为了避免作出某些假设,以使结论更具普遍性,不准备采用参数检验方法,而选用非参数检验。由于三种不同教学方法是独立的,故应采用k个独立样本的统计检验。

52、对于三组学生成绩集中趋势的一个很好的度量指标是中位数,成绩由小到大排序给出等级,能够采用Kruskal-Wallis检验。建立假设组为为采用Kruskal-Wallis检验对假设作出判定,将教材表4-12中的所有学生成绩排序,最低分秩评为1,最高分秩评为50。由于50名学生中有不少是同分,需要用调整过后的检验统计量计算p值。R中函数kruskal.test可以自动计算出调整后的统计量值。虽然不能拒绝原假设,但是p值离0.05相差不远,可以做多重比较进行更加细致的比较。结果整理如下表:教学方法配对p值(基于Dunn检验和BH法)从表可知,调整的p值都大于0.05,不能拒绝原假设,表明数据无法拒绝

53、各种教学方法之间存在显著差别,即三种教学方法的学生平均成绩没有显著差异。第5章 非参数相关性度量本章内容:5.1 斯皮尔曼(Spearman)秩相关5.2 肯德尔(Kendall)秩相关5.3 霍夫丁(Hoeffding)独立性检验5.1 斯皮尔曼(Spearman)秩相关秩相关(Rank Correlation) 也称作级序相关或等级相关,用于两个至少是定序尺度测量的样本间相关程度的测定。1. 基本方法X和Y的评秩完全相同(完全正相关)X和Y的评秩完全相反(完全负相关)X的秩Y的秩X的秩Y的秩111n222n-1n-1n-1n-12nnn1上面的式子取值在0到1之间。当X和Y完全正相关时,取

54、值为0;当X和Y完全负相关时,取值为1。当数据没有同分时,为了与皮尔逊相关相统一,定义斯皮尔曼秩相关系数为这样定义可以让R的取值从-1到+1。其中,R=1表明X和Y完全相关,R=1为完全正相关,R=-1为完全负相关。R越接近于1, 表明相关程度越高。反之,R越接近于零,表明相关程度越低,R=0为完全不相关。通过一些代数运算,可以得到这说明,斯皮尔曼秩相关系数本质是用秩替换原始数据的皮尔逊相关系数。2. 应用【例5.1】2位教授对本科毕业设计评分的相关分析。数据如下表:毕业生编号A教授B教授115223359496548664732871910710810分析:由于例5.1给出的数据为评分等级,

55、两个定序数据间的相关程度测定可以采用斯皮尔曼秩相关系数。利用R语言的函数cor可直接算出需要的数值。结果表明R=0.32120.8, 两位教授对10名本科生毕业设计评分的相关程度不高。注:斯皮尔曼秩相关系数不仅可以直接用等级来进行计算,也可以将高于定序尺度测量的数据转换为秩次进行计算。其使用范围比皮尔逊相关系数广。【例5.2】经济发展水平和卫生水平之间的相关分析。 对某地区12个街道进行调查,并对经济发展水平和卫生水平按规定的标准打分,并按从小到大的顺序排等级,得到评分的秩,评定结果如下表。街道编号经济水平及秩卫生水平及秩街道编号经济水平及秩卫生水平及秩18268697847807287978

56、6878477536016529805764498128810109411961257536411185885868910901112682703结果表明,R=0.8880.8,该地区的经济发展水平和卫生水平存在着正相关,相关程度较高,为88.8%。3. 同分的处理公式中,u是X中同分的观测值数目,v是Y中同分的观测值数目。【例5.3】经济发展水平和卫生水平间的相关分析某地区对24个地区进行调查,并对各地区的经济发展水平和卫生水平按规定标准评分,结果如下表。地区编号经济水平卫生水平地区编号经济水平卫生水平192561368552907014676639071156559487761664585

57、816917615068068186054779621959438777020554597664214634107663224232117454233930126865243831利用R语言的函数输出结果表明,R=0.84900.8,说明经济水平和卫生水平之间存在较高的相关性。如果不对同分进行修正,强行利用不修正的公式计算斯皮尔曼秩相关系数为0.8491。数值上与修正结果有细微差别,但也是大于0.8的。对比两个R值可知,由于同分的观测值数目占观测值总数目的比例不是很大,因而校正后的R与校正前的R变化不大。校正前的R略大于校正后的R,这说明同分对R的影响虽然很小,但同分的影响是夸大R值。因此,在

58、X与Y中至少有一个存在大量同分时,应进行校正。4. 斯皮尔曼秩相关的显著性检验对两个样本X和Y计算斯皮尔曼秩相关系数之后,可以根据相关系数的大小,推断总体秩相关的方向,并用显著性检验进行回答。针对研究问题的不同,可以建立不同的假设组:为对假设作出判定,所需数据至少是定序尺度测量的。检验统计量就是斯皮尔曼秩相关的公式(有同分时用修正公式),p值为相应情况的尾部概率。当原假设为真且样本量比较大时备择假设精确p值正态近似p值R的右尾概率Z的右尾概率R的左尾概率Z的左尾概率R的小尾概率的2倍Z的小尾概率的2倍【例5.4】对例5.3作显著性检验。5.2 肯德尔(Kendall)秩相关肯德尔秩相关与斯皮尔

59、曼秩相关一样,也是用于两个样本相关程度的测量,要求数据至少是定序尺度的。它也是利用两组秩次测定两个样本间相关程度的一种非参数统计方法。1. 基本方法例如,X、Y的秩分别为X:2, 4, 3, 5, 1; Y:3 ,4, 1, 5, 2。 将X的秩按从小到大顺序排列后,则X和Y的秩则为下面的形式:X:1,2, 3, 4, 5;Y:2,3, 1, 4, 5。 称秩的大小方向一致的对为协同(concordant)对或一致对。由于X的秩次已经按自然顺序由小到大排列,因此,X的观测值每两个之间都是一致对。考察Y的秩次情况,第一个秩为2,第二个为3,因为2小于3,是按自然顺序增加,因此,这是一个一致对。再

60、考察2和1, 因为2大于1, 不是按自然顺序增加排列,所以这是一个非一致对。依次考察下去,凡一致对记为+1分,非一致对记为-1分。Y的数对分数总和2,318个+2个-2,1-12,412,513,1-13,413,511,411,514,51若以U表示Y的一致对数目,V表示Y的非一致对数目,则一致对评分与最大可能总评分之比为当X和Y的顺序完全一致时,上式的值为1;当两者顺序完全相反时,上式值为0;当X和Y之间的顺序关系不确定时,该式取值在0和1之间。显然,X和Y的这种顺序关系反映出两个总体之间的某种关联性。肯德尔秩相关系数定义为当X和Y的顺序关系完全一致时,T为1;顺序关系完全相反时,T为-1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论