




已阅读5页,还剩12页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第七章 中位数和百分位数的置信区间 7.1 旧方法:以分布为基础计算均值置信区间 我们知道如何用公式找出平均值的95的置信区间。 利用中检验函数很容易计算该置信区间。然而,当以假设为基础的常规理论不被满足时,我们可以转而寻找总体中位数的95的置信区间来替代非参数。这不是简单的任务,但如果你能遵循置信区间构造逻辑,它是可行的。 此外,该程序可以很容易地推广到除中位数外的百分数(例如,我们可以找到四分之一分位数置信区间,分位数置信区间等)。7.2 中位数的非参数置信区间回顾构造置信区间的基本概念:利用95的置信区间来估计一些总体非参数,我们需要找到两个常数和,使得 .区间被认为是非参数在的置信度下的置信区间。在总体均值下,我们想要找到中位数的上极限和 下极限使得 . 假设我们的样本包括个变量值.我们知道任何一个变量值下降高于或(低于)中位数的概率为。我们已经建立了,它的样本值都在中位数以上,统计量将是一个随机变量并且服从二项式抽样分布。 从寻找中位数边界置信区间开始,由于,所以我们可以充分利二项式抽样分布是对称分布这一事实,任何变量值高于中位数或低于中位数概率都是相同的。(如果,则不满足)。为了说明这一点,这里有三种的不同的二项式抽样分布, 将变量值按从小到大的顺序排列(即)。由于对称性,但这些数据按顺序放置时,在每个端点处,中位数的置信区间的端点的数值相同。 因为只有观察有限数量的样本,这将导致考虑在可能的间隔内的有限数量。所以对于可能的函数值有 ,.下面我们来看一个例子。例:睡眠模式。关于阿格纽睡眠模式的研究。通过测量16个年龄在50岁和60岁之间身心健康的男性在0级睡眠的时间占总睡眠时间的百分比。以下是相关数据: 0.07 0.69 1.74 1.90 1.99 2.41 3.07 3.08 3.10 3.53 3.71 4.01 8.11 8.23 9.10 10.16找到在0级睡眠时间真实中位数百分比的的置信区间。我们将输入的数据转换成一个R向量,然后储存它: x x.sorted x.sorted1 0.07 0.69 1.74 1.90 1.99 2.41 3.07 3.08 3.10 3.53 3.71 4.0113 8.11 8.23 9.10 10.16M置信区间可能取值有(0.07, 10.16), (0.69, 9.10), (1.74, 8.23)等。剩下的唯一要做的是找到与这些区间关联的置信度水平。我们希望为我们的答案,找到最窄的置信区间。 逻辑。为了展示这是如何工作,我们考虑区间(0.07,10.16)。这是最大的置信区间,如果不在数据的范围之内,它将无法覆盖。如果发生这种情况,那么要么所有的样本值都高于或都低于,所以超过随机样本的变量值必须满足=0(都不满足)或者=16(都满足)。因为服从二项分布(16,0.5),所以概率为 dbinom(0,16,.5) + dbinom(16,16,.5)1 3.051758e-05因此“未能覆盖”的概率,覆盖概率,或置信水平是 1 - (dbinom(0,16,.5) + dbinom(16,16,.5)1 0.9999695区间(0.07,10.16)是的99.99695的置信区间。这实现了我们所期望的95的置信水平,但是该区间可能太宽。如果我们移动到下一个最宽的区间(0.69,9.10)呢?因为该区间更窄,所以它的置信水平就更低。但是,如果它仍然在95以上,那么说明它比区间(0.07,10.16)更好。通过使用上述相同的逻辑,除非或,否则区间(0.69,9.10)将无法覆盖。区间(0.69,9.10)的覆盖概率为 1 - sum(dbinom(c(0,1,15,16),16,0.5)1 0.9994812如果你希望看到这趋势发展。如果继续这个过程,将得到以下的结果: 因此,的95的置信区间是。因此我们知道年龄在50岁至60岁之间的健康男性0级睡眠时间占总睡眠时间的中位数百分比的95置信区间是(1.90,8.11)。注意事项:1.当样本n非常小的和样本二项分布(n,0.5)是高度离散的,实际的置信水平与95的置信水平有一些差别。(由明尼苏达大学的查尔斯格耶和格伦麦所提出的一个著名的模糊置信区间方法试图解决这个问题,这里不再赘述。)2.上面的方法是比较保守,也就是说,它产生的置信水平,将永远不会低于既定置信水平的区间。然而,这可能会导致一个间隔较宽(不太精确)置信水平。3.该过程可以概括为寻找置信区间百分比的中位数(分位数)等。下面是定制R函数,自动化上面的过程,并发现对于任何百分位数都是广义非参数置信区间。下面是在载入一个R函数执行后,前面的例子: x pctile.ci(x)percentile lower upper0.5 1.9 8.114. 如果n过小或者所要求的百分位是太极端了,上述过程可以分解(即无法产生可信限)。例如,它可能会为一个给定的数据集来计算总体中位数的置信区间,但它可能无法找到一个百分之九十八分位数的置信区间。5. 如果n很小,这些方法相对来说是粗糙的,但它们仍然是有用的。7.3采用大样本正态逼近中位数/百分位数置信区间回顾一下,如果二项分布并且满足,那么近似正态分布: 逼近 ()因此用这些大样本,我们可以用一个95的正态分布捕获“区域”,以确定其中95置信区间的边界。步骤如下:1.检验是否满足 且2.将这些变量值按从小到大的顺序的排列(记为)3. 要计算人口百分位数95的置信区间,找到下列指数: .将四舍五入到高阶整数。 .将四舍五入到高阶整数。4. 百分位数的95%的置信区间是(.例:犯罪率。一位犯罪学家为研究在美国中型县中教育水平和犯罪率水平之间的关系,收集的数据为84个县中随机抽取。将两个变量进行测量:样本中至少具有高中文凭的百分比,以及犯罪率(报告为每10万居民的犯罪数量)。该数据出现在我们的库的文本文件crimerate.txt中。发现并解释在所有大中型美国的县中犯罪率分布的分位数的的置信区间。解决方案:我们读取该文本文件到名为crimerate R的数据框,检查这两个变量的名称,然后提取犯罪率变量转换成自身的向量:site crimerate names(crimerate)1 rate pct.diploma rate length(rate)*0.75 101 TRUE length(rate)*(1-0.75) 101 TRUE2. 将这些变量值按从小到大的顺序的排列: sort.rate indices sort.rateindices1 8220 9697对于调查的所有的中型美国县中犯罪率的四分之三位数90的置信区间是每10万居民犯罪数在8220到9697之间。注:以下是采用7.2节所述的精确的二项分布方法求得的相同的置信区间 pctile.ci(rate,p=0.75,conf.level=0.90)percentile lower upper 0.75 8179 9697因此,正太逼近效果是相当不错的。 当值越大时,逼近效果更好。使用R做下列各题。使用尽可能通用的R代码指令,并且还尽可能高效。 1.成年美国人每天睡眠时间平均7.8小时。您认为大学生睡眠少于这个平均值,那么你收集的在迈阿密的15名大学生进行随机抽样,并获得其准确的每天的睡眠量(以小时计),数据如下: 6.7 4.5 6.4 8.6 5.5 8.2 5.9 7.5 4.4 6.0 6.3 8.3 7.3 5.7 10.1a. 将这些观测值按从小到大顺序排列,并将区间(4.5,8.6),作为对穆大学生的天真实睡眠时间的置信区间,计算相关的置信水平。b. 找到M以90%的置信区间。使用R函数pctile.ci()。解释在文中的时间间隔。2根据R中uwecsample数据,其中包含从UWEC本科生样本的当前数据。我们尤其对学生高中百分位排名(根据数据变量HSP)感兴趣。a. 找到所有UWEC本科生中位数高中排名百分位数均值的95的置信区间。使用已建立的R函数pctile.ci()。并解释在文中的置信区间。b. 你怎样解释a和b结果的差异c. 找到所有UWEC本科生的高中排名的百分位数的95的置信区间。(我知道这听起来很绕口,但仔细想一分钟)。并解释在文中的置信区间。 第8章 配对数据测试:符号检验8.1成对样本我们现在要看看几个用于分析成对(或匹配)方法样本.并以这样的方式收集两个总体的随机样本,这样每个样本的每个值可以与其他样本确定的值有效配对或匹配。这通常是通过对一组受试者测量相同属性的两倍(即在两种不同的情况下)来完成。例:猴子的刺激. 一位生理学家想知道猴子更喜欢的大脑区域A的刺激,还是大脑区域B的刺激。在实验中,14只猕猴被指导按下两个键。当灯亮起时,压在灯1上的总是导致区域A的刺激;压在灯2上的总是导致区域B的刺激。学习按下键之后,对猴子进行15分钟的测试,记录下在段时间内按下两个键的频率。频率越高,优先级越高。数据显示在右边。这是成对的数据的一个例子,因为每个测试者(猴)都被测试了两次。 8.2 旧方法:成对t检验以及使用t检验求置信区间 在传统的(参数)对这种类型的数据分析的方法中,感兴趣的假设是下列总体均值比较之一: H0: 1 2 = 0 vs. Ha: 1 2 0 (双侧检验)H0: 1 2 = 0 vs. Ha: 1 2 0 (上尾检验)H0: 1 2 = 0 vs. Ha: 1 2 0 (下尾检验)这里是第一总体均值,是第二总体均值。回顾一下那些成对数据,我们可以对每个匹配对di = x1i x2i形成样本差异。然后对总体均值之差的估计,我们据此求出相应的标准误差。t检验统计量和95置信区间分别由下式给出 和这些都可以在R中使用t检验、采用配对为真选项来完成。例:厌食症的治疗.神经性厌食症是在年轻女性中一个严重的饮食失调症。接受家庭治疗之前和接收家庭治疗之后的文件anorexiatherapy.txt数据提供的17名年轻厌食症妇女的重量(磅)。家庭治疗对厌食症的年轻女性平均重量有没有显著作用呢? 解决方案。在研究的问题上没有特定的方向,所以我们将采用双侧检验。 把文件读入R的数据框(命名为anorexiatherapy)后,我们运行测试:该数据由两个数值列(wt.before和wt.after)构成的。我们在t检验中引入双边检验来测试配对t检验。自由度为16的t统计值是-4.185,并且p值是0.0007。因为p x y d d1 -20 -7 -14 -13 -26 5 -17 -9 -10 -9 -7 3 2 -17 T 0) T1 3 binom.test(T, length(dd != 0), alternative=two.sided)ded)Exact binomial testdata: T and length(dd != 0)number of successes = 3, number of trials = 14, p-value = 0.05737alternative hypothesis: true probability of success is not equal to 0.595 percent confidence interval:0.04657929 0.50797568sample estimates:probability of success0.214285用于检验的p值是0.0574,这是统计上的边界显著。也就是说,有轻微显著表明,在猴子中刺激区域A和B之间有一个偏好。由于“+”的数量较少,这表明区域B有更高的频率,因此B区是首选。8.4 打结和零糊弄对于给定的题,如果X和Y观测值是打结的又会怎样呢?采用以下步骤处理符号检验的零差异。定义的差异向量d后,我们可以这样做:d - dd != 0n x y d d1 -20 -7 -14 -13 -26 5 -17 -9 -10 -9 -7 3 2 -17我们添加一些抖动数据 d d1 -19.999998 -7.000000 -13.999983 -13.000007 -26.000020 4.9999987 -17.000000 -8.999992 -10.000011 -8.9999830 -6.999997 2.99999513 1.999998 -17.000013现在运行符号检验,但是在抖动数据上运行 T 0) T1 3 binom.test(T, length(d), alternative=two.sideExact binomial testdata: T and length(d)number of successes = 3, number of trials = 14, p-value = 0.05737alternative hypothesis: true probability of success is not equal to 0.595 percent confidence interval:0.04657929 0.50797568sample estimates:probability of success0.2142857 请注意,通过在0周围加入随机对称向量,对加入每个d 向量稍作改变,所以打不再是一个问题(不再是以前那些数据)。符号检验的结果和上述结果一样。然而,如果有打结,所有的受试者将参与检验。 此外,你应该记录“抖动”的方法和“零糊弄”的方法之间的binom.test()语句的不同之处。我们将使用符号检验作为一种机制来比较两种不同的饼干的味道(标记为A和B.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030睡衣行业市场发展分析及发展趋势前景预测报告
- 2025-2030电饭锅产业行业市场现状供需分析及投资评估规划分析研究报告
- 2025-2030瑶柱行业市场发展分析及前景趋势与投资研究报告
- 2025-2030猪饲料行业发展分析及投资战略研究报告
- 2025-2030热敏纸产业行业市场现状供需分析及投资评估规划分析研究报告
- 2025-2030漂白粉行业市场发展现状及发展趋势与投资前景预测研究报告
- 2025-2030混合动力船舶推进发动机行业市场现状供需分析及投资评估规划分析研究报告
- 2025-2030海工装备运输产业市场深度调研及发展趋势与投资战略研究报告
- 2025-2030洗衣手推车行业市场现状供需分析及重点企业投资评估规划分析研究报告
- 2025-2030汽车驱动桥行业市场现状供需分析及重点企业投资评估规划分析研究报告
- 北京市引进人才审批表格模板
- 第14篇局部水基灭火系统(修改后版本)
- 配管配线工程量计算实例
- CAMDS培训ppt课件
- 包装设计外文文献翻译最新译文
- 治安管理课件新兴行业场所
- 中国铁路总公司《铁路技术管理规程》(普速铁路部分)
- HY∕T 122-2009 海洋倾倒区选划技术导则
- 《声门下吸引技术》PPT课件
- 幼儿园绘本故事PPT:《小红帽》
- 一年级下册数学6.6两位数减一位数、整十数(不退位减)人教版
评论
0/150
提交评论