四总体均数与总体率的估计研教育课件_第1页
四总体均数与总体率的估计研教育课件_第2页
四总体均数与总体率的估计研教育课件_第3页
四总体均数与总体率的估计研教育课件_第4页
四总体均数与总体率的估计研教育课件_第5页
已阅读5页,还剩82页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Chapter 6总体均数与总体率的估计随机抽样总体样本统计推断【例6-1】欲了解某地正常成年男性血清胆固醇的平均水平,某研究者在该地随机抽取正常成年男性120名,得其血清胆固醇的均数为3.86mmol/L,标准差为1.73 mmol/L,据此认为该地正常成年男性血清胆固醇的平均水平为3.86 mmol/L。以样本均数3.86mmol/L来代表该地区正常成年男性血清胆固醇的平均水平是否合适,为什么?第一节 抽样误差与标准误【例6-2】假设已知某地正常成年男性红细胞数的均值为5.001012/L,标准差为0.431012/L。现从该总体中进行随机抽样,每次抽取10名正常成年男子,并测得他们的红细

2、胞数,抽取100份样本,计算出每份样本的均数。每个样本均数是否都恰好等于总体均数,各样本均数是否相等?均数的抽样误差(sampling error)抽样误差:由于个体变异的存在,在抽样研究中产生的样本统计量和总体参数之间的差异各种参数都有抽样误差,这里我们以均数为研究对象原因:个体变异抽样表现:样本均数和总体均数间的差别、样本均数和样本均数间的差别抽样误差是不可避免的,但抽样误差有自己的规律样本均数的分布和标准误当固定样本含量n从同一总体中随机抽取多个样本时,样本均数间存在差异,那么这些样本均数的分布是怎样的呢?能否用某个指标来描述它们之间的变异?图6-1 100个样本均数的频数分布图样本统计

3、量的标准差称为标准误(standard error)样本均数的标准差称为均数的标准误(SEM),用 表示 说明样本均数围绕总体均数的离散程度,可用来反映样本均数的抽样误差大小中心极限定理从正态总体 N (, 2) 中,随机抽取例数为 n 的样本,样本均数也服从正态分布;即使从偏态总体随机抽样,当 n 足够大时(n 50),样本均数近似正态分布从均数为,标准差为 的正态或偏态总体中,抽取例数为 n 的样本,样本均数的总体均数也为 ,标准差与原标准差成正比,与样本例数的平方根成反比 常未知,用 s 估计,因此均数标准误的估计值为实际应用中,若标准差固定不变,可通过增加样本含量n来减少抽样误差4.标

4、准误的计算【例】随机抽取某市200名7岁男童的身高均数为124.0cm,标准差为4.6cm,估计抽样误差的大小 意义不同: 标准差:表示观测值的变异程度 标准误:反映抽样误差的大小 用途不同: 标准差:确定医学参考值范围 标准误:用于统计推断(参数估计、假设检验) 公式不同: 标准差与标准误的区别第二节 t 分布t 分布的演化 常未知,若用 ,这时对样本均数进行的不是 z 变换而是 t 变换 统计量 t 不再服从N(0,1)标准正态分布英国统计学家 William Sealey Gosset 于1908年以 “Student” 笔名发表论文,证明统计量 t 服从v = n-1的t分布又称为St

5、udent t分布 (Students t-distribution)t 分布的图形及特征t 分布的特征为: 以0为中心,左右对称的单峰分布 越小,t值越分散,峰越矮,尾越高 增大,t分布逐渐逼近z分布, 时,t分布即为z分布t 界值表横标目:自由度纵标目:概率 P (曲线下面积) 表中数字:自由度为 ,概率P 为时,所对应的 t 界值,记为t, 单侧: 或双侧: 即在相同自由度时,t 的绝对值越大,P 越小在相同 P 值时,自由度越大所对应的 t 界值越小在相同 t 值时,双侧概率 P 为单侧概率 P 的两倍 时,t界值即为z界值第三节 总体均数的估计 统计推断(statistical in

6、ference)统计推断是指如何抽样,以及如何用样本性质推断总体特征参数估计(parameter estimation)假设检验(hypothesis testing)参数估计点估计(Point Estimation)To use a number to estimate the parameter.区间估计(Interval Estimation)To obtain a range so as to include the parameter.点估计的缺陷区间估计的实质假设某个总体的均数为,需要找到两个量A和B,使得在一个比较高的可信度下 (如95%),区间(A,B)能包含 。即P(A 50

7、) 例6-3中,因n=120 , , ,试求该地正常成年男性 血清胆固醇平均水平的95可信区间。 即(3.55,4.17)mmol/L 当未知n 较小-t/2, v 0 t/2, v 单侧可信区间和双侧可信区间应用条件双侧100(1-)%可信区间上侧100(1-)%可信区间下侧100(1-)%可信区间已知未知,n足够大未知,n较小单侧可信区间的计算例 随机抽取罐装牛肉10听,亚硝酸盐含量均数为17.6mg/kg,标准差1.64mg/kg,估计这批罐头的平均亚硝酸盐含量单侧可信区间!(仅有上限有意义,不高于某一个数值)上限为故95%CI为低于18.55mg/kg可信区间的涵义从总体中作随机抽样,

8、每个样本可以算得一个可信区间。如95%可信区间意味着做100次抽样,算得100个可信区间,平均有95个估计正确。在实际研究中,一般只进行一次抽样,算得一个可信区间,对于这个可信区间来说,我们有95%把握认为其包括了总体均数图6-5 从N(0, 1)中随机抽样算得的100个95可信区间(n=10)下列说法正确吗?算得某95%的可信区间,则: 总体参数有95%的可能落在该区间 有95%的总体参数在该区间内 该区间包含95%的总体参数 该区间有95%的可能包含总体参数 该区间包含总体参数,可信度为95%可信区间的两个要素可信度(Confidence):可靠性,即1-。一般取90%,95,可人为控制精

9、确性(Precision):区间的大小(区间的长度),越小越好必须二者兼顾均数的可信区间与参考值范围的区别区别点均数的可信区间参考值范围意义按预先给定的概率,确定的未知参数的可能范围“正常人”的解剖、生理、生化、某项指标的波动范围计算公式已知或未知但 n 较大未知:正态分布:偏态分布:PX P100-X用途估计总体均数判断观察对象的某项指标正常与否第四节 二项分布与Poisson分布一、二项分布看来只好替你打扫卫生了!对于n次独立的试验 ,如果每次试验结果出现且只出现对立事件A与 之一,在每次试验中出现A的概率是常数(0 1) ,因而出现对立事件 的概率是1- ,则称这一串重复的独立试验为n重

10、贝努利试验,简称贝努利试验(Bernoulli trial) 【问题6-4】假设服用某药物后有10%的人出现过敏反应。若3人服药,出现0、1、2或3个人过敏的概率分别是多少?组合(Combination):从n个元素中抽取x个元素组成一组(不考虑其顺序)的组合方式个数记为 牛顿二项展开式:1.二项分布的概率函数一般地,在一个n重贝努利试验中,令X表示事件A发生的次数,则随机变量X所有可能的取值为0, 1, 2, , n,且其概率函数为:贝努利试验序列中某一结果A出现次数的概率分布称二项分布(binomial distribution), 记为:2.二项分布的图形当=0.5时,分布对称;当 0.

11、5,分布呈偏态;当0.5时分布呈负偏态;特别是当n值不是很大时,偏离0.5愈远,分布愈偏随着n的增大,二项分布逐渐逼近正态分布。如 =0.30,n=5和n=10时,图形呈偏态,当n=30时,图形已接近正态分布。一般地说,如果n或n(1-)大于5时,常可用正态近似原理处理二项分布问题3.1 二项分布的性质 :累积概率(1)二项分布的概率之和等于1(2)单侧累积概率至多有m例阳性的概率(下侧累积概率)至少有m例阳性的概率(上侧累积概率)3.2 二项分布的性质 :均数和方差阳性结果发生数X的总体均数总体方差总体标准差4. 二项分布的抽样分布及其性质二项分布的随机抽样性质仍然被中心极限定理所反映在n足

12、够大时,样本率近似服从正态分布样本率p的均数等于样本率p的标准差(率的标准误)5. 二项分布的应用:区间估计查表法,适用于n50时;正态近似法,适用于n较大,p和1-p均不太小,如np和n(1-p)均大于5时。 此时总体率的1-可信区间如下 【例6-7】某医院应用氨苄青霉素治疗呼吸道感染,45例患者中有2例发生过敏反应。试估计过敏反应发生率的95%可信区间 查附表5(百分率的可信区间表),n=45的行与X=2的列交叉处的数值为115, 即氨苄青霉素过敏反应发生率的95%可信区间为(1%,15%) 【例6-6】某市疾控中心对该市郊区200名小学生进行贫血的检测,结果发现有80名小学生贫血,检出率

13、为40.0%。试估计该区贫血发生率的95%可信区间 【例6-5】已知某地新生儿先天性心脏病的发病率为9,试计算该地100名新生儿中有3人患先天性心脏病概率。能否用前述二项分布进行计算?是否有更为简便的计算方法?【例6-5】若用二项分布:二、Poisson (泊松)分布当二项分布中n很大,p很小时,二项分布就变为Poisson分布,Poisson分布实际上是二项分布的极限分布法国数学家Simeon Denis Poisson (1781-1840) 1837年在关于判断的概率之研究一文中提出的描述随机现象的一种常用分布 Poisson分布也是一种重要的离散型概率分布,用于研究单位时间、单位人群、

14、单位空间内,某稀有事件发生次数的分布单位体积水中细菌数单位体积空气中粉尘数单位时间内放射性物质放射出的质点数单位空间中某些昆虫数一定人群中恶性肿瘤或罕见非传染性疾病患病数或死亡数可以认为满足以下三个条件的随机变量服从Poisson分布:平稳性:X的取值与观察单位的位置无关,只与观察单位的大小有关独立性:在某个观察单位上X的取值与前面各观察单位上X的取值独立(无关)普通性:在充分小的观察单位上X的取值最多为11. Poisson分布的概率函数若随机变量的概率函数为:则称此变量服从Poisson分布,记为【例6-5】中:2. Poisson分布的累计概率3. Poisson分布的图形4.1 Poi

15、sson分布的性质 均数和方差Poisson分布的均数和方差相等,均为 ;即Poisson分布例为监测饮用水的污染情况, 现检验某社区每毫升饮用水中细菌数 , 共得400份记录如下: 试分析饮用水中细菌数的分布是否服从Poisson分布。若服从,按Poisson分布计算每毫升水中细菌数的概率及理论频数1ml水中细菌数0123合计次数f243120316400经计算得每毫升水中平均细菌数 ,方差 。两者很接近, 故可认为每毫升水中细菌数服从Poisson分布。以0.500代替,得 (k=0,1,2)1ml水中细菌数的分布细菌数次数f频率概率理论频数0 2430.60750.6065 242.60

16、1 1200.30000.3033 121.322 310.07750.0758 30.32 3 60.01500.0144 5.76合计 4001.00001.0000 400.002019年韩日世界杯64场比赛中,各队进球数有多有少。大部分是0,1,2个进球,个别队是5个以上进球,最多的是8个进球,平均是1.2578个/场/队。虽然强队大都能进球、赢球(如巴西队),弱队大都不能进球(如中国队)。但宏观上来说,各队进球数服从Poisson分布!平均计数为1.2578的Poisson分布 每场各队进球数 场次 理论数03736.3914745.7722728.7831312.074 2 3.7

17、95 1 0.95 6 1 0.25 128 128.00 4.2 Poisson分布中均数的抽样分布及其性质在足够大时,Poisson分布的平均计数近似正态分布平均计数的标准误n=1时(1个单位),4.3 Poisson分布的可加性若X1服从Poisson(1), X2服从Poisson(2),X1+X2服从Poisson(1+ 2)。即Poisson分布具有可加性注意: X1X2服从Poisson(1 2)5.1 平均计数的可信区间估计 =?X/n总计数X较大时, 可用正态近似法:n个单位的总计数 X 50时平均计数的 95%CI:n=1时:例 n=一个单位时间(30分钟),X=360。则30分钟该放射物质的平均脉冲数的95%CI:例 n=3个单位时间(一个单位时间10分钟),X=360。则10分钟该放射物质的平均脉冲数的95%CI:总计数X较小时, 查表法(根据分布直接计算)n个单位的总计数 X 50时:n

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论