




已阅读5页,还剩49页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二章 单样本问题 2.1 广义符号检验和有关的置信区间 2.2 Wilcoxon符号秩检验,点估计和区间估计 2.3 正态记分检验 2.4 Cox-Stuart 趋势检验 2.5 关于随机性的游程检验,单一总体位置的 点估计,置信区间估计 和 假设检验 是参数统计推断的基本内容 在经典统计中,人们关心 总体均值(位置变量,描述总体的“中心”位置); 方差、标准差和极差(关于数据散步的参数,描述总体的“尺度”的变量) 在非参数统计中,我们也关心数据所包含的关于总体的位置和尺度的信息: (a)对总体位置参数的推断:均值、中位数、众数、分位数 (b)数据的走势或走向,或者看一下这些数目是否完全是随机的,在以前我们接触的统计方法中,得到一个样本,很自然的想知道它的“平均水平”是多少,这就涉及到统计中对总体的均值、中位数、众数等位置参数的推断。,如果总体是均值为正态分布时,一个典型方法就是t-检验,它的检验统计量定义为: 其中,s为样本标准差,为样本均值。,t-检验在大样本或已知总体是正态分布是可以得到很好的效果,但t-检验不稳健,在不知道总体分布,特别是小样本时,风险很大。这时就要考虑使用非参数方法了。,t统计量在零假设下服从 n-1 个自由度的 t-分布。 t-检验统计量是用样本标准差 s 代替了标准正态分布的总体标准差 之后而产生的。,首先来看一个简单的例题: 例1. 假设某地16座预出售的楼盘均价,单位(百元/平米)如下表所示36 32 31 25 28 36 40 32 41 26 35 35 32 87 33 35 问:该地平均楼盘价格能否与媒体公布的3700 /平米 的说法相符,解一: 用 t 检验法(假设在统计时楼盘价格服从正态分布 ),One-sample t-Test data: build.price - 37 t = -0.1412, df = 15, p-value = 0.8896 alternative hypothesis: true mean is not equal to 0 95 percent confidence interval: -8.045853 7.045853 sample estimates: mean of x -0.5,补充: R中的t检验法的用法,t-test(x) X1,X2,XnN(a, 2), H0 : a=a0 , H1: aa0,补充: R中的t检验法的用法,例如, 某食品厂用自动装罐机装罐头食品,每罐质量为500g, 现从每天生产的罐头中随机抽测9罐,其质量分别为: 510, 505, 498, 503, 492, 502, 497, 506, 495(单位:g) 欲检验 H0: a=500, H1: a500, t.test(x-500) data: x - 500 t = 0.46, df = 8, p-value = 0.6578 alternative hypothesis: mean is not equal to 0 95 percent confidence interval: -3.567471 5.345249 sample estimates: mean of x 0.8888889,2) 配对t检验法 X1,X2,XnN(a1, 12), Y1,Y2,YnN(a2, 22), H0 : a1=a2 , H1: a1a2,补充: R中的t检验法的用法,例如, 欲比较甲乙两种轮胎的耐磨性, 现抽取数据如下: 甲: 4900,5220,5500,6020,6340,7660,8650,4870 乙: 4930,4900,5140,5700,6110,6880,7930,5010 欲检验 H0 : a1=a2 , H1: a1a2, x y t.test(x,y,alternative=“less”,paired=T),补充: R中的t检验法的用法,Paired t-Test data: x and y t = 2.8312, df = 7, p-value = 0.9873 alternative hypothesis: mean of differences is less than 0 95 percent confidence interval: NA 534.1377 sample estimates: mean of x - y 320 接受H0, 认为两种轮胎无显著性差异.,在上面的逻辑推理中,假设分布结构的正态性是否合理,是 t-检验 运用是否得当的关键 显然 3:13 支持的是3700元/平米 不能作为正态分布对称中心的观点 现在,让我们换一个角度考虑位置推断问题:,2.1.0 符号检验,符号检验(Sign Test)是最古老的检验方法,其检验最早可追溯到 Arbuthnott 于1701年一项有关伦敦出生的男婴比例是否超过12的研究 之所以称为符号检验,是因为该检验只有两类观测值,如果用符号和区分,符号检验就是通过符号和的个数来做统计推断,所以称为符号检验。 符号检验虽然是最简单的非参数检验,但它体现了非参数统计的一些基本思路。,符号检验基本原理,基本思想:假定用总体中位数Me 来表示中间位置,那么样本点 取大于Me的值得概率与小于Me的概率应该相等。如果排除样本中等于Me的点,该概率应该为0.5。,检验统计量:如果Me的确是有关总体的中位数,则每个样本点都以0.5的概率小于(或大于)Me。这显然是一系列伯努利(Bernoulli)试验。大于Me的样本点的个数 与小于Me的个数 都服从二项分布 b(n,1/2), 与 都可以作为检验统计量。,令,以例题1(楼盘价格问题)为例理解“符号检验的基本原理”,如果零假设为真,即37是总体的中位数,则数据中应该差不多各有一半在37的两侧 计算每一个数据与37的差,用 表示位于37右边的点的个数, 表示位于37左边的点的个数,数据中没有等于37的数, + =16,在零假设和独立同分布的随机抽样的条件下,每一个样本等可能地出现在37的左右,这也就是说,从有利于接受备择假设的角度出发, 过大或过小,都表示37不能作为总体的中心,这个思路就是符号检验的基本原理。,同样的,在零假设和独立同分布的随机抽样的条件下,也有,下面给出规范的符号检验推断过程:,假设 是从总体中产生的简单随机样本,定义,符号检验与t检验得到了相反的结论,到底选择哪一种结果呢?,结论:符号检验在总体分布未知的情况下优于t 检验!,我们可以对例1(楼盘价数据问题)用符号检验法求解,解二: 用符号检验法,在显著性水平0.05下,拒绝原假设 H0. 认为这些数据与中心位置37存在显著差异.,检验类型:,需要说明的零假设一般就取等号。,类似地,给出单边假设检验问题的结果:,或,对于符号检验,使用检验的 p-值 进行检验将会比较简单:,双边符号检验问题,右侧检验思路: 对于检验假设 ,当 很大时(即很多观察值大于M0),基于零假设的概率,即 p-值,也不大。,因此M0可能太小,而Me应该比目前的M0大,这样,备择假设会更有理一些。如果上述概率小于指定的显著性水平,就可以拒绝零假设。这种情况等价于 很小的情况。,在显著性水平 下,检验的拒绝域为: 其中,,p值还可以通过Excel中的函数Binomdist(S+1,n,p,t/F)计算。本检验可以通过输入Binomdist(S+1,n,0.5,1)计算。,与参数的假设检验相同,也可以计算检验的 p 值,它等于一分布为二项分布 b(n,1/2) 的随机变量大于等于 的概率:,判别规则为: p 值大于 ,则不能拒绝零假设。 p 值小于 ,则拒绝零假设。,左侧检验思路: 对于检验假设 ,当 很小时(即只有少数观察值大于M0),基于零假设的概率,即 p-值,也不大。,因此M0可能太大,而 M 应该比目前的 M0 小,这样,备择假设会更有理一些。如果上述概率小于指定的显著性水平 ,就可以拒绝零假设。这种情况等价于 很大的情况。,在显著性水平 下,检验的拒绝域为: 其中,,p 值还可以通过Excel中的函数Binomdist(S+,n,p,t/F)计算。本检验可以通过输入Binomdist(S+,n,0.5,1)计算。,与参数的假设检验相同,也可以计算检验的 p 值,它等于一分布为二项分布 b(n,1/2) 的随机变量 小于等于 的概率:,判别规则为: p 值大于 ,则不能拒绝零假设。 p 值小于 ,则拒绝零假设。,双侧检验思路: 对于假设检验 ,当 不很大或不很小时,不能拒绝零假设。否则,应该拒绝零假设.,检验的拒绝域为两个: 或 其中,,与参数的假设检验相同,也可以计算检验的 p 值。当 ,它等于二项分布b(n,1/2)的随机变量大于 的概率的2倍:,当 ,它等于二项分布b(n,1/2)的随机变量小于 的概率的2倍:,判别规则为: p 值大于 ,则不能拒绝零假设。 p 值小于 ,则拒绝零假设。,特殊情形的处理:,在实际问题中恰巧有一些观测值正好等于M0,则如何处理呢?,办法之一:省去,并减少样本容量。 办法之二:使用更小的计量单位。 办法之三:修正符号检验统计量如下:,下面先看一个例子,由此来引出符号检验。 联合国人员在世界上66个大城市的生活花费指数(以纽约市1996年12月为100)按资小至大的次序排列如下(北京的指数为99):,假定这是从世界许多大城市中随机抽样而得到的样本,所有大城市的指数组成了总体。 可能面临的问题是:这个总体的平均水平是多少?北京市在该水平之上还是之下? 通常,在总体是正态分布的假设下,关于总体均值的假设检验和区间估计是与 t-检验有关的方法进行的。 在本例中,总体分布是未知的,我们就想知道,此时的总体是不是正态分布呢?先看一下此组数据的直方图。,从图中很难看出这是什么分布,此概率就是该假设检验的 p-值。,假设检验 ,即零假设为北京的生活水准小于世界大城市的生活水准,在零假设下,二项分布的概率 (其中 =1/2),因此,我们采用符号检验的方法:,舍去值为99的样本点,还剩65个数据,,的实际值为 k = 23,,在这个例子中,n=65,k=23, ,p-值为,即在零假设下,由该样本所代表的事件的发生的概率仅为 0.0124,即 p-值= 0.0124 很小,可以拒绝零假设,拒绝错了的概率仅为 0.0124。 也就是说,北京的生活指数不可能小于世界大城市的中间水准。,注:一般来说,如果 p-值太大,拒绝零假设的理由就不充分。也就是通常说的不能拒绝零假设。,样本: 世界上71个大城市的花费指数 (可以假定这个样本是从世界许多大城市中随机抽样而得的,所有大城市的指数组成了总体),两个关于位置参数的不同检验问题: 样本中位数M 是否大于64 (等价地说,是否指数小于64的城市的比例少于1/2) 样本0.25分位点Q0.25 是否小于64 (等价地说,是否指数小于64的城市的比例大于0.25),这两个问题实际上都是关于分位点的检验问题,2.1.1 广义符号检验:对分位点进行的检验,根据同样原理,可以将中位数符号检验推广为任意分位点的符号检验,假设检验,在所有样本点都不等于 q0 时,n 就等于样本量 如果有些样本点等于 q0 ,那么这些样本点就不能参加推断,应该把他们从样本中除去,这样 n 就小于样本量了 不过对于连续型变量,样本点等于 q0 的可能性很小,二项分布中如何计算 p 值,或者写成,例2.1 (1). 样本0.25分位点Q0.25 是否小于64的检验,解:形式上,我们的检验是,例2.1 (2). 64是否为样本中位数的检验,解:形式上,我们的检验是,则 36 32 31 25 28 36 40 32 41 26 35 35 32 87 33 35 - - - - - - 0 - + - - - - + - -,推广例1(楼盘均价问题),假设检验,由于 s+=2, s-=13,p-值为 P (minS+,S-2) 又 K= minS+,S- B(15,0.75),故 p-值为 0 因此,拒绝零假设 H0,binom.test(sum(x40),length(x)-1,0.75) Exact binomial test data: sum(x 40) out of length(x)-1 number of successes = 2, n = 15, p-value = 9.23e-07 alternative hypothesis: p is not equal to 0.75,R编程计算:,95 percent confidence interval: 0.01657591 0.40460270 sample estimates: probability of success 0.1333333,总结一下: 关于分位数的符号检验,我们用检验的 p-值 形式列出,因为正态分布是连续的,所以对离散的二项分布的近似中,可以用连续性修正量: 其中当 Kn/2 时取减号。,大样本正态近似(修正),样本量 n 较大时,二项分布可以用正态分布来近似。在零假设 下,当 n 较大时, 服从正态 N(0,1) 分布。,样本量 n 较小时,可以用二项分布的公式或查表来计算p-值。,对于单边检验,p-值为: 右侧 左侧 对于双边检验为:,关于连续性修正(continuity corrections)的注: 在实践中,当用连续分布去近似离散分布时,常常要用连续性修正。应用中最常用于近似的连续性分布是正态分布,以相邻点间距离为 1 的离散变量为例,每一个点 x 用区间(x-1/2, x+1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- Unit 3 ATravel Plan Lesson 13 Beijing Is Great!(教学设计) -2024-2025学年冀教版(三起)英语五年级上册
- 2023九年级化学下册 第十单元 酸和碱 课题2 酸和碱的中和反应第2课时 溶液的pH及其应用教学设计 (新版)新人教版
- Unit 7 Lesson 38 Hobbies Are Fun!2024-2025学年八年级英语上册同步教学设计(冀教版)河北专版
- 船舶卫生与卫生设施管理
- 3 荷花 教学设计-2024-2025学年语文三年级下册统编版
- 4《地球 我们的家园》《环境问题敲响了警钟》教学设计-2023-2024学年道德与法治六年级下册统编版
- 七年级生物上册 第一单元 第一节 生物的基本特征教学设计 新人教版
- Unit 6 The power of plants 第6课时Presenting ideas +Reflection教学设计 -2024-2025学年外研版英语(2024)七年级上册
- 2033三年级数学下册 五 年、月、日第4课时 24 时计时法教学设计 苏教版
- Module 2 Unit 2 What are you doing?(教学设计)-2024-2025学年外研版(三起)英语四年级上册
- 微信生态运营全景解读
- 《陕西省全过程工程咨询服务导则(试行)》
- 辩论理论之需根解损(需要性、根属性、解决力、损益比)
- (完整版)道路交通事故现场图绘制课件
- 现代一体化手术室建设发展现状及展望
- 经纬度数转换工具
- NB_T 10438-2020《风力发电机组 电控偏航控制系统技术条件》_(高清最新)
- 混凝土凝结时间计算及报告(样表)
- 外研版小学英语五年级下册期中测试卷二
- 第七章_材料显微断口分析
- 创伤护四项技术
评论
0/150
提交评论