全套电子课件:统计学-第四套_第1页
全套电子课件:统计学-第四套_第2页
全套电子课件:统计学-第四套_第3页
全套电子课件:统计学-第四套_第4页
全套电子课件:统计学-第四套_第5页
已阅读5页,还剩472页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、医学统计学Medical Statistics学科定义基础:概率论和数理统计等数学的原理、方法研究对象:医学资料研究任务:搜集、整理、分析和推断性质:一门应用学科生物统计学(Biostatistics) 应用于生物学研究,又称生物测量学Biometry医学统计学(Medical Statistics) 应用于医学研究,侧重于医学的生物性卫生统计学(Health Statistics) 应用于医学研究,侧重于医学的社会性几个关联紧密的学科 三个步骤 (1) 研究设计 运用医学统计学的起点,也是高质量地完成整个研 究的重要基础。(2) 资料分析 在研究设计基础上,通过实验(试验)或调查,将所得 数

2、据进行统计学处理的过程。(3) 结论 在数据分析的基础上,应用统计学处理的结果,进 行统计学推断;同时,依据相应的专业知识,作出 专业性的结论。三类资料(1) 定量资料(quantitative data) (2) 定性资料(qualitative data) (3) 等级资料(ranked data) 资料类型的判断病例号年龄性别身高血型心电图尿WBC职业135女1.65A正常教师244男1.74B正常工人326男1.80O正常职员425女1.61AB正常农民541男1.71A异常+工人645女1.58B正常+工人750女1.60O异常+干部828男1.76AB正常+干部931女1.62O正

3、常军人另一种分类 数值变量资料 分类资料 二分类 多分类 无序多分类有序多分类(等级资料)数学上的分类连续性资料(continuous data) 离散型资料(discrete data) 注意事项资料的划分根据研究目的确定的,可互相转换资料的类型不同,选用的统计分析方法也不同应要从三个层次去把握三类资料几个基本概念总体(population)是指按研究目的所确定的同质研究对象某项观察指标的全体 。有限总体:个体数可数无限总体:个体数不可数同质(homogeneity):指观察单位具有相同的性质。同质是研究的前提几个基本概念样本(sample)是指从研究总体中随机抽取具有代表性的部分观察单位的

4、某项变量值的集合。 来自总体随机:机会均等 随便样本含量(sample size)是指样本中的观察单位数,常用n表示。 几个基本概念参数与统计量总体指标称为参数(parameter)。一般用希腊字母表示,如:、样本指标称为统计量(statistics)。一般用拉丁字母表示,如:、s参数估计:用样本统计量估计总体参数。几个基本概念概率(probability)随机事件发生可能性大小的一个度量常用P来表示,0P1必然事件和不可能事件随机现象与随机事件几个基本概念小概率事件P0.05小概率原理小概率事件发生的可能性很小,进而认为其在一次抽样中不可能发生,此即为小概率原理。进行统计推断的依据 医学统计

5、学思维归纳型思维 (推理型思维)从样本到总体 从个别到一般统计学的作用工具发现规律,而不是创造规律个体变异与变量分布个体变异(individual variation)是同质观察对象间表现出的差异。变异是生物体在一种或多种、已知或未知的不可控因素作用下所产生的综合反映。就个体而言:变异是随机的(random)。就总体而言:个体变异是有规律的。个体变异是统计学应用的前提个体变异抽样误差统计推断一个原始资料某市1997年12岁男童120人的身高(cm)资料如下。 142.3 156.6 142.7 145.7 138.2 141.6 142.5 130.5 134.5 148.8134.4 148

6、.8 137.9 151.3 140.8 149.8 145.2 141.8 146.8 135.1150.3 133.1 142.7 143.9 151.1 144.0 145.4 146.2 143.3 156.3141.9 140.7 141.2 141.5 148.8 140.1 150.6 139.5 146.4 143.8143.5 139.2 144.7 139.3 141.9 147.8 140.5 138.9 134.7 147.3138.1 140.2 137.4 145.1 145.8 147.9 150.8 144.5 137.1 147.1142.9 134.9 14

7、3.6 142.3 125.9 132.7 152.9 147.9 141.8 141.4140.9 141.4 160.9 154.2 137.9 139.9 149.7 147.5 136.9 148.1134.7 138.5 138.9 137.7 138.5 139.6 143.5 142.9 129.4 142.5141.2 148.9 154.0 147.7 152.3 146.6 132.1 145.9 146.7 144.0135.5 144.4 143.4 137.4 143.6 150.0 143.3 146.5 149.0 142.1140.2 145.4 142.4 1

8、48.9 146.7 139.2 139.6 142.4 138.7 139.9计量资料的频数、频率分布组 段 频 数 频 率 12410.0083 12820.0167 132100.0833 136220.1834 140370.3083 144260.2167 148150.1250 15240.0333 15620.0167 16010.0083合 计1201.0000计量资料的频数分布图-直方图124132140148156164010203040人数图 某市120名12岁男童身高的频数分布频数表编制步骤 求极差选定适当的组段数后估计组距列出组段划记归组获得频数求频率,完成频数表 频

9、数分布表和频数分布图的用途 描述分布类型描述分布的特征便于发现特大、特小的可疑值便于计算有关指标、统计分析与处理频数分布类型对称分布:以正态分布较为常见非对称分布:偏态分布正偏态:右侧左侧 向右侧拖尾 均数中位数 负偏态:左侧右侧 向左侧拖尾 均数中位数 频数分布特征 数据分布的范围: 125.9160.9cm数据最集中的区间:140.0144.0cm分布形态:基本对称同一组资料,不同的人编制的频数表,结果不尽相同,允许几个合理的结果并存。 定性及等级资料的频数分布离散型频数表离散型频数图直条图 频数分布表血型频数频率(%) O205 40.43 A112 22.09 B150 29.59 A

10、B 40 7.89合计507100.00频数分布图OABAB图 239人发汞含量的频数分布1 3 5 7 9 11 13 15 17 19 21发汞含量(umol/kg)70605040302010 0人数图 某城市892名老年人生存质量自评分的频数分布0 10 20 30 40 50 60 70 80 90 100自评分400300200100 0人数图 102名黑色数瘤患者的生存时间频数分布1 5 10 15 20 25 30 35 40 45生存时间(月)40302010 0人数图 某地19901992年男性死亡年龄分布 0 5 10 15 20 25 30 35 40 45 50 55

11、 60 65 70 75 80 85死亡年龄(岁)2500200015001000 500 0课后习题P355: 练习2.1 统计资料的描述列表描述:频数分布表、一览表图形描述:频数分布图、趋势图指标描述定量资料 集中位置:算术均数、几何均数、中位数、百分位数 离散程度:极差、四分位数间距、方差、标准差定性或等级资料相对数指标:率、构成比、比集中位置的描述-平均数(average)均数(arithmetic mean, mean)均数的几何意义均数代表每组观察值的平衡点,也就是重心。如:(1,4,7,8)则均数为5。则图示如下:均数的重要特性:离均差(各观察值与均数之差)总和等于零 12345

12、678平均数(average)加权均数(weighted mean) 均数是加权均数的一个特例平均数(average)几何均数(geometric mean) 几何均数例1:10, 1:20, 1:40, 1:80, 1:160平均数(average)中位数(median) 将一组数据按从小到大的顺序排列,位置居中的数即是中位数。中位数例9例正常人的发汞值(mol/kg ): 1.1, 1.8 3.5 4.2 4.8 5.6 5.9 7.1 10.5 M=4.810例正常人的发汞值: 1.1, 1.8 3.5 4.2 4.8 5.6 5.9 7.1 10.5 16.3 M=(4.8+5.6)/

13、2=5.2 平均数(average)百分位数(percentile)X% PX (100-X)%50分位数就是中位数 其中 LX:PX所在组下限 iX:PX所在组组距 fX:PX所在组频数 n:样本例数 fL:小于PX所在组的各组段累计频数 百分位数例利用表2.1,求P50,P25,P75平均数应用的注意事项同质的资料计算平均数才有意义根据资料分布的特征选用适当的平均数均数:单峰对称分布的资料几何均数:等比资料、滴度资料、正偏态资料中位数:理论上可用于任何分布资料,但当资料适合计算均数或几何均数时,不宜用中位数。 (偏态分布、分布不明资料、有 不确定值的资料)平均数应用的注意事项计算几何均数时

14、: 变量值中不能有0 同一组变量值不能同时存在正、负值 若变量值全为负值,可先将负号除去,算出结果后再冠以负号 样本含量较少时不宜计算靠近两端的百分位数 平均数要与变异指标结合使用思考题:在太阳、地球和月球组成的体系中:太阳的质量为 21030kg地球的质量为 5.971024kg月球的质量为0.0731024kg请问:三者平均质量为多少?看一个例子:有甲、乙两组同性别同年龄儿童体重(kg):甲组 26,28,30,32,34 =30 kg n甲=5乙组 24, 27, 30, 33, 36 =30 kg n乙=5上述两组数据的特点: 集中位置 相同:均为30kg 离散程度不同:各观察值离均数

15、的远近不同离散趋势的描述全距(Range)亦称极差,记为R,是一组变量值中最大值与最小值之差。优点:简单明了缺点:不灵敏、不稳定 离散趋势的描述四分位数间距(interquartile range)定义为: QUQL,即中间一半观察值的极差。四分位数(quartile)是两个特定的百分位数:第25分位数P25,和第75分位数P75,分别记为QL和QU。 四分位数间距较全距稳定,常与中位数一起,描述不对称分布资料的特征。 离散趋势的描述方差(Variance)和标准差(Standard Deviation) “离均差平方之和 平均后的方根”n-1 称为(标准差的)自由度,即“可以自由变异的程度”

16、因为任一离均差均可以用另外n-1个离均差表示,所以“只有n-1个独立的离均差”。标准差的基本内容是 “离均差”,它显示一组变量值与其均数的间距,故标准差直接地、总结地、平均地描述了变量值的离散程度。 离散趋势的描述变异系数(coefficient of variation)亦称离散系数(coefficient of dispersion),是标准差s与均数之比,即: 变异系数的两个特点及相应的用途 没有单位反映标准差占均数的百分比或标准差是均数的几倍可用来比较度量衡单位不同的资料的变异度 不受平均水平的影响反映的是以均数为基数的相对变异的大小比较均数相差悬殊的资料的变异度 某地20岁男子100

17、人,身高均数为166.06cm,标准差为4.95cm;体重均数为53.7kg,标准差为4.96kg,试比较身高和体重的变异。 身高体重绝对变异受平均水平的影响相对变异排除了平均水平的影响平均数与变异度的关系 平均数表示的集中性与变异度表示的离散性,是从两个不同的角度阐明计量资料的特征 变异度越小,平均数对各变量值的代表性越好 变异度越大,平均数对各变量值的代表性越差 平均数与变异度的关系通常,平均数与变异指标一起描述资料的分布特征。用均数和标准差描述正态分布资料的特征;用中位数和四分位数间距描述偏态分布资料的特征。 资料的指标描述是统计描述的一个重要的组成部分定量资料的统计指标平均水平指标:算

18、术均数、几何均数、中位数 等。离散程度指标:全距、四分位数间距、方差、标准差、变异系数。定性资料或等级资料的统计指标相对数指标绝对数的概念与意义调查研究和实验研究得到的定性资料或等级资料经过整理,清点数目得到的数值称为绝对数。如某病的发病人次数、医院收容人数、治愈人数等。绝对数反映一定条件下某种事物的规模或水平,是计划或总结工作的依据,绝对数是计算相对数与平均数的基础。绝对数往往不便于比较。例:调查得某年小学生中流脑发病:甲地区63例,乙地区35例。 甲地区流脑流行比乙地区严重 如已知小学生总人数:甲地区50051人,乙地区14338人,可算出两个发病率: 甲地区流脑发病率:63/500511

19、000=1.26 乙地区流脑发病率:35/14338 1000=2.44 乙地区流脑流行比甲地区严重相对数的概念 和意义概念:相对数是两个有联系的指标之比。两个特点:表示事物出现的频度。 把基数化作相等,便于比较。 常用相对数 率构成比相对比 率 率(rate)又称频率指标,用以说明某事物或某现象在其可能发生的范围内实际发生的频率或强度。计算公式为: 关于率的几点说明(一)分子和分母都是计数值,从定义上来看,分子应为分母的一部分,但在实际应用中一些率的指标可能并不符合率的定义,但它们是约定俗成、沿习使用的。根据频率的稳定性,分母较大时,可以用率作为该事件发生机会(即概率)的近似值。例如:医治1

20、00例病人,90例痊愈,则:治愈率=90/100=90%。它近似的反映了病人治愈机会的大小。关于率的几点说明(二)0 rate1率常以百分率(%)、千分率()、万分率(1万)、十万分率(l10万)等表示。 比例基数(K )可以是100、1000、,其选取是根据习惯用法和需要选用,主要使算得的率至少保留12位整数,便于阅读。 患病率、发病率、感染率 :百分率(%)人口出生率与死亡率:千分率()肿瘤死亡率:十万分率(l10万)构成比 构成比(proportion) 又称构成指标,表示某一事物内部各组成部分所占的比重或分布,常以百分数表示,计算公式为: 设某事物个体数的合计由A1,A2,Ak个部分组

21、成,构成比计算为:构成比的特点:同一事物内部的k个组成部分构成比总和为100%。各部分构成比之间是相互影响的,某一部分比重的变化受到两方面因素的影响:其一是这个部分自身数值的变化,其二受其他部分数值变化的影响。比比(ratio)亦称相对比,是 A、B两个有关指标之比。 说明A为B的若干倍或百分之几,它是对比的最简单形式。A、B两个指标可以是绝对数,也可以是相对数;可以性质相同,也可以性质不同;可以是定性资料,也可以是定量资料。 人口统计中常用的比的指标受精时性别比(第一性比例)一般为110170,平均120;出生时性别比(第二性比例)绝大多数国家为103107,平均106;婚龄期性别比(第三性

22、比例)约为100; 性别比(sex ratio) 又称性比例,是指男性人口与女性人口的比值。 人口统计中常用的比的指标抚养比又称人口负担系数,是反映劳动人口负担程度的指标,此数值取决于人口年龄结构类型。 正确应用相对数(一) 计算相对数的分母不宜过小 例数较少,相对数波动较大。如:0/2,1/2,2/2例数较少时,宜用绝对数表示,必须用相对数时,可同时列出其可信区间。分析时不能以构成比代替率率反映的是频率或者强度构成比反映的是比重或分布正确应用相对数(二) 正确应用相对数(三)正确计算合并率对观察单位数不等的几个率,不能直接相加求其平均率(或称总率) 例如用某疗法治疗肝炎,第一次治疗150人,

23、治愈30人,治愈率20%;第二次治疗100人,治愈30人,治愈率30%。试计算两批的合并治愈率。观察单位数相等时?正确应用相对数(四)计算率时要注意资料的同质性对比分析时应注意资料的可比性 所谓可比,就是说除了要对比的因素外(如不同药物),其余的影响因素应尽可能的相同、相似或接近。观察对象同质,研究方法相同,观察时间相等,以及地区、周围环境、风俗习惯和经济条件应一致或相近。观察对象内部构成是否相同,若两组资料的年龄、性别构成不同,可以分组或进行标准化后再作比较。 正确应用相对数(五)样本率或构成比比较时,不能仅凭表面上的数值大小下结论,应考虑到其抽样误差,进一步作统计学处理 。例2.10 率的

24、标准化基本思想 采用某种影响因素的统一标准构成,以消除构成不同对合计率的影响,使通过标准化后的标准化合计率具有可比性 。标准化率 (standardized rate) 又称调整率(adjusted rate),实际上是一加权平均其中NiN 来自标准组,pi来自实际资料 对例2.10资料,选择甲乙两组合并后的观察人数作为标准组标准组中轻型患者140例,重型患者160例,构成比分别为:0.4667和0.5333,以此为权数,分别求得两组的标化率: 应用标准化时的注意事项“标准组”的选择两组中的任一组作为标准组相比较两组合并作为标准组另选一个通用的便于比较的标准组。如本地的、本省的、全国的、世界的

25、同一指标之构成皆可酌情选用选用不同的标准时,所得出的标准化率是不同的。但这种差别大多不致于影响对比的相对关系。 应用标准化时的注意事项标准化率的应用价值仅限于相互比较,不反映具体的实际水平。 要反映实际情况,则需用未标化前的率。 应用标准化时的注意事项标准化率的适用范围仅适用于某因素两组内部构成不同,并有可能影响两组总率的比较,对于因其他条件不同而产生的不可比性问题,标准化率不能解决。应用标准化时的注意事项标准化率也有抽样误差两样本标准化率作比较时,当样本含量较小时,还应作假设检验正态分布(normal distribution )又称Gauss分布( Gaussian distributio

26、n )是一个重要的连续型概率分布。 正态分布的重要性医学研究中的某些观察指标服从或近似服从正态分布;很多统计方法是建立在正态分布的基础之上的;很多其他分布的极限为正态分布。因此,正态分布是统计分析方法的重要基础。 记作: X N(,2) 例如: X N(120,8.22) X N(5,32)正态分布的数学形式X N(0,1)标准正态分布的均数为0,标准差为1正态分布曲线的三个特点集中性 对称性均匀变动性集中性 中等大小的数据居多,较大的和较小的数据少些,即例数集中在中等大小的数据附近。对称性 以均数为中心,大于它和小于它的数据的例数是对称的。均匀变动性 例数由少增多或由多减少的过程是逐渐变化的

27、,即均匀分布的。在分析数据时,均匀性是一个很重要的特点。 如果,随着变量值的变异,例数突然地增多或突然地减少,或长距离地间断,都表示资料的同质性可能较差,应进一步查明原因。正态分布的特征正态分布是单峰分布:X= (峰)正态分布以均数为中心,左右完全对称 。正态分布有两个参数(parameter)。某些指标经变换后服从正态分布正态曲线下的面积分布有一定的规律。 -1.9695% +1.962.5%2.5%正态曲线下的面积分布示意 标准正态分布曲线下的面积的计算 求u值,用u值查表,得到所求区间面积占总面积的比例。曲线下对称于0的区间,面积相等。曲线下总面积为100或1。 例2.11 在例2.1中

28、已求得某市120名岁男童身高均数为142.67cm,标准差为6.00cm。设该资料服从正态分布,试求: 该地12岁男童身高在132cm以下者占该地12岁男童总数的比例。 分别求均数1s、均数1.96s和均数2.58s范围内12岁男童占该组儿童总数的实际百分数,并与理论百分数比较。 参考值范围又称正常值范围正常人的形态、功能、生化等各种指标的波动范围。简称正常值。 为什么波动? “个体变异”同一指标的数据因人而异同一个体的数据随环境、时间等改变而变为什么要确定一个范围?既然同属正常人,就不能以甲的数据为标准,认为乙异常,亦不能以甲此时的数据为标准,认为彼时的异常。所以必须确定一个波动范围。如WB

29、C:400010000个/mm3“正常”是一个相对的概念“正常人”是指排除了影响所研究指标的疾病和有关因素的人。 意义横向分析划界、分类临床医生判断正常与异常的参考依据 动态分析如某个地区不同时期发汞的正常值可反映环境污染的动态变化或环保效果参考值范围确定的原则 选定同质的正常人作为研究对象 控制检测误差 判断是否分组 单、双侧问题 选择百分界值 选定同质的正常人作为研究对象 同质 正常 “足够数量” 例数过少,代表性差;例数过多增加成本,且易导致正常标准把握不严,影响数据的可靠性。一般认为每组100例以上 ;有人认为确定临床生化指标的正常值应取300500例。控制检测误差 通过人员培训、控制

30、检测条件、重复测定等措施,严格控制检测误差。判断是否分组 组间差别是否有统计学意义并有临床意义?例:红细胞、白细胞各组的分布范围、高峰位置等是否基本一致?例:表2.11发汞资料单、双侧问题 过大或过小均属异常 :双侧界值例:白细胞计数仅过大或过小为异常:单侧界值 例:肺活量仅过低异常 下限 尿铅仅过高为异常 上限选择百分界值 参考值范围的涵义:绝大多数的正常人在该范围内 习惯上将“绝大多数”定义为正常人的80%、90%、95%或99% 。应根据研究目的、研究指标的性质、数据分布特征等情况综合考虑百分界值的选择。 确定可疑范围 若病人与正常人的数据重叠较多的情况下,为避免较大的假阳性和假阴性错误

31、率,可设定可疑范围。 正常人病人假阳性率假阴性率图2.9 正常人与病人的数据分布重叠示意图 参考值范围的估计方法 正态分布法 百分位数法 对数正态分布法 正态分布(normal distribution )又称Gauss分布( Gaussian distribution )是一个重要的连续型概率分布。 正态分布的重要性医学研究中的某些观察指标服从或近似服从正态分布;很多统计方法是建立在正态分布的基础之上的;很多其他分布的极限为正态分布。因此,正态分布是统计分析方法的重要基础。 记作: X N(,2) 例如: X N(120,8.22) X N(0,1)正态分布的数学形式正态分布曲线的三个特点集

32、中性 对称性均匀变动性集中性 中等大小的数据居多,较大的和较小的数据少些,即例数集中在中等大小的数据附近。对称性 以均数为中心,大于它和小于它的数据的例数是对称的。均匀变动性 例数由少增多或由多减少的过程是逐渐变化的,即均匀分布的。在分析数据时,均匀性是一个很重要的特点。 如果,随着变量值的变异,例数突然地增多或突然地减少,或长距离地间断,都表示资料的同质性可能较差,应进一步查明原因。正态分布的特征正态分布是一单峰分布,高峰位置在均数X= 处 。正态分布以均数为中心,左右完全对称 。正态分布有两个参数(parameter)。正态曲线下的面积分布有一定的规律。 -1.9695% +1.962.5

33、%2.5%正态曲线下的面积分布示意 二项分布(binomial distribution)二分类资料,观察对象的结局只有相互对立的两种结果。 例如: 生存、死亡 阳性、阴性 发病、不发病 治愈、未愈先看一个例子已知:小白鼠接受某种毒物一定剂量时, 死亡率=80% 生存率=20%每只鼠独立做实验,相互不受影响若每组各用3只小白鼠(甲、乙、丙)3只小白鼠的存亡方式符合二项分布概率的乘法法则 : 几个独立事件同时发生的概率,等于各独立事件的概率之积 概率的加法法则 : 互不相容事件和的概率等于各事件的概率之和3只小白鼠均生存的概率:P=0.20.20.2=0.0083只小白鼠2生1死的概率:P1=0

34、.20.20.8=0.032P2=0.20.80.2=0.032 P=0.096P3=0.80.20.2=0.0323只小白鼠1生2死的概率:P1=0.20.80.8=0.128P2=0.80.80.2=0.128 P=0.384P3=0.80.20.8=0.1283只小白鼠均死亡的概率:P=0.80.80.8=0.512x00.50.40.30.20.10.0123(0.2+0.8)3 二项分布示意图二项分布的定义从阳性率为的总体中随机抽取含量为n的样本,恰有X例阳性的概率为: X=0,1,2,n 则称X服从参数为n和的二项分布,记为:XB(n,)。其中参数 n由实验者确定,而常常是未知的。

35、如已知n=3,=0.8,则恰有例阳性的概率P(1)为: 二项分布的性质(一)均数与标准差二项分布的性质(二)累计概率(cumulative probability)从阳性率为的总体中随机抽取n个个体 最多有k例阳性的概率: 最少有k例阳性的概率: 递推公式:二项分布的例子据以往经验,用某药治疗小儿上呼吸道感染、支气管炎,有效率为85,今有5个患者用该药治疗,问: 至少3人有效的概率为多少? 最多1人有效的概率为多少? 至少3人有效的概率:P(X3)=P(3)+P(4)+P(5)则 P(X3)=0.1381781250.3915046880.443705313=0.973388126 最多1人有

36、效的概率为: P(X 1)=P(0)+P(1)二项分布的应用条件各观察单位只能有互相对立的一种结果,属于二分类资料 已知发生某一结果(如阴性)的概率不变,其对立结果(如阳性)的概率则为1-n次试验在相同条件下进行,且各观察单位的结果互相独立 Poisson 分布的概念单位时间、单位空间内某事件的发生数单位人群(较大)中某稀有事件的发生数放射性物质每分钟放射的脉冲数每ml水中大肠菌群数、每升空气中粉尘数、每1万个细胞中有多少个发生突变某地每天的交通事故数、某工矿企业每天的工伤人数足球比赛每场的进球数生物:每平方公里有多少植物如果某事件的发生是完全随机的,则单位时间或单位空间内,事件发生0次、l次

37、、2次的概率为: X=0,1,2, 则称该事件的发生服从参数为的Poisson分布,记为XPoisson()。X为单位时间或空间内某事件的发生数,P(X)为事件数为X时的概率,e为自然对数的底。Poisson分布的性质(一)均数与方差 Poisson分布的方差2与均数 相等,均为 ,即:2= 其中参数 即为均数,表示单位空间或时间内事件平均发生的次数,又称强度参数。 Poisson分布的性质(二)累计概率最多为k次的概率:最少为k次的概率: 递推公式: Poisson分布的形状取决于 的大小。 Poisson分布为正偏态分布,且 愈小分布愈偏; 随着 的增大,分布逐渐趋于对称当 =20时已基本

38、接近对称分布;当 = 50时,Poisson分布近似正态分布, 50时可按正态分布原理处理之。 Poisson分布的性质(三)图2.8 Poisson分布示意可加性 以较小的度量单位,观察某一现象的发生数时,如果它呈Poisson分布,那么把若干个小单位合并为一个大单位后,其总计数亦呈Poisson分布。 Poisson分布的性质(四) 例如,已知某放射性物质每10分钟放射脉冲数呈Poisson分布,5次测量的结果,分别为35、34、36、38、34次,那么50分钟放射脉冲数(总计为177次)亦呈一Poisson分布。因此 Poisson分布资料可利用可加性原理使50,然后用正态近似法处理之。

39、 可加性示例Poisson分布的性质(五)Poisson分布是二项分布的极限形式 二项分布中,当很小,比如0.05,而n很大,二项分布逼近Poisson分布。且:其中= n。n愈大,近似程度愈好。如果某些现象的发生率甚少,而样本例数n甚多时,二项分布常用Poisson分布来简化运算。 一个实例: 据以往经验,新生儿染色体异常率为1,试分别用二项分布及Poisson分布原理,求100名新生儿中发生X例(X=0,l,2)染色体异常的概率。 Poisson分布的应用条件 事件的发生是相互独立的事件发生的概率相等,事件结果是二分类的(发生或不发生)。 事件数的可信区间 : 总体计数X : 样本计数利用

40、抽样误差的规律性,由样本计数X来估计总体计数 正态近似条件:样本计数X50 总体计数 的可信区间 为: 为标准总体离差 正态近似法查表法当X50时,查附表7,“Poisson分布的可信区间”得到 的95%或99%可信区间。例:用计数器测得某放射性物质半小时内发出的脉冲数为360个,试估计该放射性物质平均每30分钟的脉冲计数。本例:X=360 取 =0.05: 即放射性物质平均每30分钟的脉冲计数的95%可信区间为332.8397.2个。例4.6 用计数器两次测得某放射性物质5分钟内发出的脉冲数分别为42和48个。假设单位时间内脉冲数的发放符合Poisson分布,试估计该放射性物质每5分钟平均脉

41、冲数的95%可信区间。 Poisson分布具有可加性.X=42+48=90 则平均每单位时间(5分钟)该放射性物质平均发出脉冲数为45.0个/5分钟,其95%CI为:35.754.3个/5分钟。 抽样误差和 t 分布 Sampling error and t distribution 抽样误差的概念 由抽样引起的样本统计量与总体参数间的差异 两种表现形式 样本统计量与总体参数间的差异样本统计量间的差异 抽样研究 个体变异抽样误差产生的条件 均数的抽样误差及标准误 表现一:样本均数与总体均数之差值表现二:多个样本均数间的离散度中心极限定理(central limit theorem) 从均数为、

42、标准差为的总体中独立随机抽样,当样本含量n增加时,样本均数的分布将趋于正态分布,此分布的均数为,标准差为 。 标准误(standard error,SE),样本统计量的标准差称为标准误,用来衡量抽样误差的大小。样本均数的标准差称为标准误。此标准误与个体变异 成正比,与样本含量n的平方根成反比。实际工作中, 往往是未知的,一般可用样本标准差s代替 :因为标准差s随样本含量的增加而趋于稳定,故增加样本含量可以降低抽样误差。 中心极限定理表明,即使从非正态总体中随机抽样,只要样本含量足够大,样本均数的分布也趋于正态分布 ,见图3.1 。图3.1描述了来自不同总体的样本均数之抽样误差和抽样分布规律。事

43、实上,任何一个样本统计量均有其分布。统计量的抽样分布规律是进行统计推断的理论基础。 标准差与标准误的联系和区别 联系都是变异指标。S反映个体观察值的变异;反映统计量的变异。当n不变时,标准差,标准误 t分布设从正态分布N(,2)中随机抽取含量为n的样本,样本均数和标准差分别为 和s,设: 则t值服从自由度为n-1的t分布(t-distribution)。Gosset于1908年在生物统计杂志上发表该论文时用的是笔名“Student”,故t分布又称Student t分布。 f(t) =(标准正态曲线) =5 =10.10.2-4-3-2-1012340.3图3.2 自由度分别为1、5、时的t分布

44、 t分布的特征 t分布为一簇单峰分布曲线t分布以0为中心,左右对称t分布与自由度有关,自由度越小,t分布的峰越低,而两侧尾部翘得越高,;自由度逐渐增大时,t分布逐渐逼近标准正态分布;当自由度为无穷大时,t分布就是标准正态分布。 每一自由度下的t分布曲线都有其自身分布规律t分布表明,从正态分布总体中随机抽取的样本,由样本计算的t值接近0的可能性较大,远离0的可能性较小。t0.05,102.228,表明,从正态分布总体中抽取样本含量为n=11的样本,则由该样本计算的t值大于等于2.228的概率为0.025,小于等于-2.228的概率亦为0.025。 P(t-2.228)+P(t2.228)0.05

45、 或:P(-2.228t100,故可以用标准正态分布代替t分布,u0.10=1.64 即该地12岁男孩平均身高的90可信区间为:141.77143.57(cm),可认为该地12岁男孩平均身高在141.77143.57(cm)之间。 -tt0正确理解可信区间的涵义 可信区间一旦形成,它要么包含总体参数,要么不包含总体参数,二者必居其一,无概率可言。所谓95的可信度是针对可信区间的构建方法而言的。 以均数的可信区间为例,其涵义是:如果重复100次抽样,每次样本含量均为n,每个样本均按 构建可信区间,则在此100个可信区间内,理论上有95个包含总体均数,而有5个不包含总体均数。 在区间估计中,总体参

46、数虽未知,但却是固定的值(且只有一个),而不是随机变量值 。图4.1 100个来自N(0,1)的样本所估计的可信区间示意 可信区间与参考值范围的区别 可信区间用于估计总体参数,总体参数只有一个 。参考值范围用于估计变量值的分布范围,变量值可能很多甚至无限 。95%的可信区间中的95%是可信度,即所求可信区间包含总体参数的可信程度为95%95%的参考值范围中的95%是一个比例,即所求参考值范围包含了95%的正常人。统计描述统计推断指标描述图表描述参数估计假设检验统计分析定量资料分析的 t 检验英国统计学W.S.Gosset (1909)导出了样本均数的确切分布,即 t分布。t分布的发现使小样本的

47、统计推断成为可能,因而它被认为是统计学发展史上的里程碑之一。以t分布为基础的检验称为t检验。例6.1 测得25例某病女性患者的血红蛋白(Hb),其均数为150(g/L),标准差为16.5(g/L)。而该地正常成年女性的Hb均数为132(g/L)。问该病女性患者的Hb含量是否与正常女性Hb含量不同? 0 =132(g/L)n=25已知总体未知总体=?目的:推断病人的平均血红蛋白(未知总体均数)与正常女性的平均血红蛋白(已知总体均数0)间有无差别 =0 ?手头样本对应的未知总体均数等于已知总体均数0,差别仅仅是由于抽样误差所致;除抽样误差外,病人与正常人存在本质上的差异 建立假设 (在假设的前提下

48、有规律可循) 零假设(null hypothesis),记为H0 H0:132,病人与正常人的平均血红蛋白含量相等;备择假设(alternative hypothesis),记为H1H1:132,病人与正常人的平均血红蛋白含量不等。其中H0假设比较单纯、明确,在H0 下若能弄清抽样误差的分布规律,便有规律可循。而H1假设包含的情况比较复杂。因此,我们着重考察样本信息是否支持H0假设(因为单凭一份样本资料不可能去证明哪个假设是正确的,哪一个不正确)。 确定检验水准 (确定最大允许误差) 设定检验水准的目的就是确定拒绝假设H0时的最大允许误差。医学研究中一般取=0.05 。检验水准实际上确定了小概

49、率事件的判断标准。选定检验方法计算检验统计量(计算样本与总体的偏离)统计量t表示,在标准误的尺度下,样本均数与总体均数0的偏离。这种偏离称为标准t离差。根据抽样误差理论,在H0假设前提下,统计量t服从自由度为n-1的t分布,即t值在0的附近的可能性大,远离0的可能性小,离0越远可能性越小。 t值越小,越利于H0假设 t值越大,越不利于H0假设计算概率P(与统计量t值对应的概率) 在H0成立的前提下,获得现有这么大的标准t离差以及更大离差 的可能性。P=P(|t|5.4545) ? 按 =25-1=24查附表2t界值表-tt0-2.0642.0640 =240.0250.025t0.05,24=

50、2.064 P =P ( |t| 2.064 )=0.05 P=P(|t|5.4545)t0.05,24=2.064 P t0.05,9=2.262 P 0.05 按 =0.05的水准,拒绝H0,接受H1,差别有统计学意义。认为矽肺患者的血红蛋白与健康人不同。 H0:d0,缺乏维生素E对肝中维生素A含量无影响 ;H1:d0,缺乏维生素E对肝中维生素A含量有影响 。双侧 =0.05。 按 = n-1=8-1=7查t值表,得t0.05,7=2.365,tt0.05,7,则P 0.05,差别有统计学意义,可以认为缺乏维生素E有降低肝中维生素A含量的作用 。 练习6.2H0 :12,新药与常规药物的疗

51、效相同 ;H1 :12 ,新药与常规药物的疗效不同 。双侧 =0.05。 =n1n22=10102=18 按自由度18查附表2,t界值表得t0.20,18=1.330,t0.20,差别无统计学意义,尚且不能认为新药与常规药物的疗效有所不同 。 练习6.3分析思路:服药前两组比较,以分析可比性;各组服药前后差值分别比较,确定 各自的疗效;各组服药前后差值相互比较,分析两组的效果是否相同?练习6.4 疗前 疗后 差值安眠药组 3.460.6731 5.000.9247 1.540.5639 安慰剂组 3.260.6914 4.920.8228 1.660.5030 疗前两组比较 :t=0.4635

52、,P=0.6554 可以认为两组具有可比性 =n1n22=8t0.05,8=2.306安眠药组服药前后比较: t=6.1065,P=0.0036 可以认为服药安眠药后睡眠时间延长。=n-1=4t0.05,4=2.776安慰剂组服药前后比较: t=7.3796,P=0.0018 可以认为服药安慰剂后睡眠时间延长。=n-1=4t0.05,4=2.776两组服药前后差值相互比较 t=0.3551,P=0.7371 尚且不能认为两组延长睡眠时间的效果有差别=n1n22=8t0.05,8=2.306总结论:服药前两组具有可比性,服用安眠药和安慰剂均有延长睡眠时间的效果,但两者效果没有差别。方差分析方差分

53、析(Analysis of Variance,ANOVA)1928年由英国统计学家R.A. Fisher 首先提出,为纪念Fisher,以F命名,故方差分析又称为F检验。方差分析的优点不受比较组数的限制,可比较多组均数可同时分析多个因素的作用可分析因素间的交互作用方差分析的应用条件独立性:各样本是相互独立随机的样本正态性:各样本都来自正态总体方差齐性:各样本的总体方差相等看一个实例例6.6 某地用A、B和C三种方案治疗血红蛋白含量不满10g的婴幼儿贫血患者,治疗一月后,记录下每名受试者血红蛋白的上升克数,资料见表6.3,问三种治疗方案对婴幼儿贫血的疗效是否相同? 变异分解 组间变异总变异 组内

54、变异SS总=SS组间+SS组内总=组间组内 总变异SS总(离均差平方和 )总=N-1 组间变异SS组间组间=k-1 MS组间 =SS组间/(k-1) 组内变异SS组内组内=N-k MS组内=SS组内/(N-k) 方差分析的基本思想 抽样误差 本质上的差别 + 抽样误差 (组间差异) (组内差异)如果三种治疗方案效果相同,也即三组样本均数来自同一总体(H0:1=2=3),那么从理论上说组间变异应该等于组内变异,因为两者均只反映随机误差(包括个体差异),这时若计算组间均方与组内均方的比值: F= MS组间 /MS组内 则F值在理论上应等于1,但由于抽样误差的影响,F通常接近1,而并不正好等于1。相

55、反,若三种疗法效果不同,则组间变异就会增大,F值则明显大于1,要大到什么程度才有统计学意义呢?可通过查附表4 方差分析用F界值表得到P值,将其与事先规定的值比较后作出判断。 单因素多个样本均数的比较(analysis of one way variance) 处理因素只有一个 属于完全随机设计:随机抽样 随机分组 随机试验基本步骤建立检验假设计算检验统计量(列方差分析表)计算 P 值下结论建立假设H0:A=B=C,三种治疗方案治疗婴幼儿 贫血的疗效相同,H1:三种治疗方案治疗婴幼儿贫血的疗效 不全相同或全不相同。=0.05计算基本数据计算SS总,SS组间,和SS组内 C =(83.70)2 /

56、60=116.7615SS总=184.43116.76=67.6685SS组内=0.91332191.2971219 0.7800219=59.3747 列方差分析表 界定P值,作结论总自由度为N1=601=59组间自由度=组数(k)1=31=2组内自由度=总自由度组间自由度=592=57。 查方差分析表得F0.05(2,57)=3.15,FF0.05(2,57),则P0.05。故按 =0.05的水准,拒绝H0,接受H1,故可认为三种治疗方案的治疗效果不一样。 多个样本均数的两两比较 在方差分析认为多组均数间差异有统计学意义的基础上,若需了解究竟哪些组均数之间有差别,还是各组间均有差别,可用多

57、个样本均数的两两比较(又称多重比较 multiple comparison)。 多个样本均数的两两比较不宜用t检验如用 t 检验,则第一类错误率将增大,此时易将无差别的两均数错判为有差别 =1-(1-)m ( m=Ck2=k(k-1)/2)如:三个组的比较 1-(1-0.05)3=0.14,比0.05大多了。多个样本均数间的两两比较 用q检验(又称Student-Newman-Keuls法,即SNK法),统计量为q: H0:A = B ,每次对比时两个总体均数相等;H1:AB ,每次对比时两个总体均数不等。=0.05。 将三个样本均数按从大到小顺序排列并编上组次: 组次 1 2 3 均数 1.

58、840 1.415 0.930 组别(治疗方案) A B C q0.05,(57,3)=3.40 q0.05,(57,2)=2.83结论总的说来,三种治疗方案的治疗婴幼儿贫血疗效有差别。而这种差别主要来自A方案和C方案。这一结论可用下列形式表示:A B C 1.840 1.415 0.930多个实验组与一个对照组均数间的两两比较 常用q检验,又称Duncan法,其计算公式为 :公式与q检验公式类似,但需查附表9 q界值表。 两因素多个样本均数的比较(two way analysis of variance )两因素:配伍因素和 处理因素属于随机区组设计 ( randomized block d

59、esign ) 又称“配伍组设计”配伍的概念是“配对”概念的扩展,不是按每两个配对,而是按每三个、每四个或更多个配起来,这就超出了“对子”的涵义,而是配伍组设计了。配伍设计的目的对研究因素以外的已知的干扰因素加以控制,从而将研究因素的作用与干扰因素的作用区分开,以达到提高检验的功效之目的。实例例6.10 在抗癌药筛选试验中,拟用20只小白鼠按不同窝别分为5组,分别观察三种药物对小白鼠肉瘤(S180)的抑瘤效果,资料见表6.7,问三种药物有无抑瘤作用? 两因素方差分析的原理类似于单因素方差分析,前者仅在后者的基础上,从误差中再分离出配伍组效应,使误差减少,达到提高检验功效之目的 SS总=SS处理

60、+SS配伍+SS误差实验因素:H0:三种药物对小白鼠肉瘤(S180)的抑瘤效 果与对照组相同,即对照=A=B=C;H1:三种药物对小白鼠肉瘤(S180)的抑瘤效果与对照组不全同或全不同。 =0.05。建立检验假设干扰因素:H0:5个窝别小白鼠对肉瘤生长的反应相同;H1:5个窝别小白鼠对肉瘤生长的反应不全相 同或全不相同。=0.05。计算SS总,SS处理, SS配伍和SS误差 SS误差=SS总SS处理SS配伍=0.741280.410840.11233=0.21811 计算自由度总=总例数1=201=19处理=处理组数1=41=3配伍=配伍组数1=51=4误差=总处理配伍=1934=12 列方差

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论