统计分类资料统计分析PPT课件_第1页
统计分类资料统计分析PPT课件_第2页
统计分类资料统计分析PPT课件_第3页
统计分类资料统计分析PPT课件_第4页
统计分类资料统计分析PPT课件_第5页
已阅读5页,还剩88页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1简要回顾统计分析统计描述统计推断参数估计假设检验均数、标准差总体均数估计t检验,方差分析Example数值资料第1页/共93页2统计分析统计描述统计推断参数估计假设检验Example分类资料率、比、构成比总体率可信区间2检验第2页/共93页3主要内容 分类变量资料的统计描述 常用的相对数指标 应用相对数时应注意的几个问题; 率的标准化法。 分类变量资料的统计推断 估计率的抽样误差 总体率可信区间的估计 两个率的比较 第3页/共93页4第一节 分类变量资料的统计描述第4页/共93页5 常用的相对数 比例 率 比 相对数应用的注意事项 率的标准化第5页/共93页6计数资料 用定性的方法得到的资料

2、称作分类变量资料 按某种属性分类,然后清点每类的数据住院号住院号年龄年龄职业职业文化程度文化程度分娩方式分娩方式妊娠结局妊娠结局202565527无无中学中学顺产顺产足月足月202565322无无小学小学助产助产足月足月202583025管理人员管理人员大学大学顺产顺产足月足月202567724知识分子知识分子中学中学顺产顺产早产早产202564730管理人员管理人员大学大学顺产顺产足月足月202584832无无小学小学剖宫产剖宫产足月足月201991527无无中学中学顺产顺产死产死产第6页/共93页7绝对数和相对数 绝对数:实际数 反映某事物现象发生的实际情况,总量指标 缺点:不利于比较。

3、相对数 是两个有联系的数据的比值。 目的:将基数化为相同,便于比较。第7页/共93页8 问问 题题p某部队野营训练,发生中暑12人,北方籍战士10人,南方籍战士2人,结论:北方籍战士容易中暑。p 1999年某幼儿园有36名儿童患了腮腺炎,该幼儿园有200名儿童(其中25名儿童以前患过腮腺炎),该幼儿园儿童1999年腮腺炎发病率是多少?第8页/共93页9一、常用的相对数指标 构成比( proportion) 率(rate) 比(ratio) 动态数列(dynamic series) 第9页/共93页101、构成比( proportion) 概念:说明某一事物内部各组成部分所占的比重,常以百分数表

4、示,又称比例。 计算公式:%100 观察单位总数观察单位总数同一事物各组成部分的同一事物各组成部分的位数位数某一组成部分的观察单某一组成部分的观察单构成比构成比第10页/共93页11例:手术前后胸腔积液白细胞分类 第11页/共93页12构成比特点: 各部分构成比的总和为100,值在0-1间变动; 某部分构成比发生变化时,其他部分也相应变化。第12页/共93页132、率(rate) 定义:一定时间内,实际发生某现象的观察单位数与可能发生该现象的观察单位总数之比。 计算公式:K比例基数第13页/共93页14 用以说明某现象发生的频率或强度 K:比例基数,常用百分率(%)、千分率()、万分率(1/万

5、)或十万分率(1/10万)等表示。使计算结果保留12位整数。 平均率不能由各组率相加后求平均,应为分子合计除以分母合计。关于率第14页/共93页15例 几种药物不良反应发生情况 半合成青霉素不良反应发生水平最高,达35.5 总发生率:87/3803=22.9 ()第15页/共93页16p发病率 p患病率 率常用统计指标率常用统计指标1000 同时期平均人口数同时期平均人口数某时期新发病人次某时期新发病人次发病率发病率1000 调查人数调查人数调查时患某病人数调查时患某病人数患病率患病率第16页/共93页17%100 经治疗人数经治疗人数病死人数病死人数病死率病死率1000 该地同时期平均人口数

6、该地同时期平均人口数某地某时期死亡人数某地某时期死亡人数死亡率死亡率p病死率 p死亡率 第17页/共93页183、比(ratio) 定义:也称相对比,指两个有联系的指标之比,常以百分数或倍数表示。 计算公式: 两个指标可以性质相同,也可以性质不相同;可以是相对数、绝对数或平均数等。 %)100( 乙指标乙指标甲指标甲指标相对比相对比第18页/共93页19第19页/共93页204、动态数列(dynamic series) 概念:指一系列按时间顺序排列起来的统计指标(包括绝对数、相对数和平均数),用以说明事物在时间上的变化和发展趋势。 常用指标:有绝对增长量、发展速度和增长速度、平均发展速度与平均

7、增长速度。 第20页/共93页21 绝对增长量 :说明事物在一定时期内所增减的绝对数量,表现为两指标之差。 累计绝对增长量 报告期与基期指标之差 。 逐年绝对增长量 报告期与前一期指标之差第21页/共93页22 发展速度和增长速度:说明事物在一定时期内发展变化的幅度和速度。 定基比发展速度 环比发展速度 定基比增长速度 环比增长速度第22页/共93页23107.5%-100%第23页/共93页24二、应用相对数应注意的问题 计算相对数的分母不宜过小 稳定性差,缺乏代表性 例数较少时,用绝对数 分析时不能以构成比代替率 构成比是比例指标,它用来说明事物内部各组成部分所占的比重或分布,分子仅是分母

8、中同一事物现象的一部分,是概率的估计值。 率则与时间有关,它具有速率的概念,也具有概率估计值的意义,是与时间有关的比例 第24页/共93页25 正确计算平均率 不能将这几个率直接相加求其均值,而应将各个率的分子、分母分别相加后,再求总率即平均率 相互比较时注意可比性 除研究因素不同外,其他影响研究结果的因素应尽可能相同或相近 研究对象同质、方法相同、其他基本条件一致、 内部构成要相同,不同则进行率的标化后再比较 同一地区不同时期资料的比较,应注意客观条件的变化 第25页/共93页26 样本率或构成比的比较应进行假设检验 样本率(或构成比)是通过抽样得到的,存在抽样误差,因此不能只凭数值表面相差

9、的大小作结论,应进行差别的假设检验。 第26页/共93页27三、 标准化法第27页/共93页28为什么要进行标化第28页/共93页291、标化法的基本思想 当两组资料进行比较时,如果其内部不同小组率有明显差别,而且各小组内部构成也明显不同 ,直接比较不合理。 在两个及两个以上总率(总均数)进行对比时,为了消除内部构成不同的影响,采用统一标准,分别计算标准化率后再作对比的方法称为标准化法。 第29页/共93页30 1.以人口数作为标准 2.以人口构成比作为标准 1.选择有代表性的、较稳定的、数量较大的人群 作标准。 2. 两组之和的人口数或人口构成比; 3. 两组间较稳定一组的人口数或人口构成比

10、;第30页/共93页31以人口数作为标准预期发生数=标准人口数x原发生率第31页/共93页32计算标准化率第32页/共93页33以人口构成比作为标准第33页/共93页341.标准化法只适用于某因素两组内部构成不同,并有可能影响两组总率比较的情况。对于因其它条件不同而产生的不具可比性的问题,标准化法不能解决。2.由于选择的标准人口不同,算出的标准化率也不同。当比较几个标准化率时,应采用同一标准人口。第34页/共93页353.标准化率已经不再反映当时当地的实际水平,它只是表示相互比较的资料间在共同标准下的相对水平,用于比较。4.两样本标准化率是样本值,存在抽样误差。比较两样本的标准化率,当样本含量

11、较小时,应作假设检验。第35页/共93页36第二节 分类变量资料的统计推断 第36页/共93页37统计推断用样本信息推论总体特征的过程。包括:参数估计: 运用统计学原理,用从样本计算出来的统计指标量,对总体统计指标量进行估计。假设检验:又称显著性检验,是指由样本间存在的差别对样本所代表的总体间是否存在着差别做出判断。第37页/共93页38简要回顾统计分析统计描述统计推断参数估计假设检验Example分类资料率、比、构成比总体率的可信区间2检验、u检验第38页/共93页39主要内容 率的抽样误差和总体率的区间估计 率的u检验 2检验第39页/共93页40一、率的抽样误差和总体率的估计第40页/共

12、93页411、率的抽样误差与标准误 概念:样本率(p)和总体率()的差异称为率的抽样误差(sampling error of rate) ,用率的标准误(standard error of rate)度量。 1np)1( 如果总体率未知,用样本率p估计nppsp)1( 第41页/共93页42 率的标准误越小,说明率的抽样误差越小,用样本推论总体时,可信程度越高。 例4.5 某地随机抽取500名儿童,乙肝感染率为4.50%,求乙肝感染率的标准误。 该地500名儿童乙肝感染率的标准误为0.93%。第42页/共93页432、总体率的可信区间点估计:就是把样本率看作总体率;区间估计:按一定的概率,以样

13、本信息来估计总体率所在的范围,即计算总体率的1-置信区间。这里,一般取0.05或0.01 查表法: 正态近似法 第43页/共93页44查表法 对于小样本资料(n50),可根据样本阳性例数X及样本例数n,直接查二项分布参数的置信区间表, 例:某新药的毒理研究中,用20只小白鼠作急性毒性实验,死亡3只,估计该药急性致死率的95%可信区间。 从附表(根据二项分布原理制成)查得,在n=20与X=3纵列交叉处的数值为338,即该药急性致死率的95%可信区间为3%38%第44页/共93页45正态近似法 条件:当n足够大,p和(1p)均不太小,且np和n(1p)均大于5时,样本率p的抽样分布近似服从正态分布

14、。可用公式估计总体率的置信区间。 公式:(p-usp,p+ usp) 式中,u:标准正态分布曲线下,双尾面积为时对应的u界值,当=0.05时,u0.05=1.96;=0.01时,u0.01=2.58。第45页/共93页46例 某地随机抽取500名儿童,乙肝感染率为4.50%,估计该地儿童乙肝感染率的95%可信区间? (p-usp,p+ usp) =(0.045-1.960.0093,0.045+1.960.0093)=(2.68%,6.32% ) 该地儿童95%乙肝患病率置信区间为(2.68%,6.32%)。第46页/共93页47二、率的u检验第47页/共93页48 样本率存在抽样误差,比较两

15、样本的率时,应作假设检验。 当样本例数n较大,样本率p和1p均不太小,且np和n(1p)均大于5时,样本率与总体率、两样本率间差别进行比较时,可采用u检验。 第48页/共93页491、样本率与总体率的比较 条件:当样本率的分布近似服从正态分布时,样本率p与已知总体率0的比较,可用u检验 公式: 式中,0:总体率,一般为理论值、经验值或大量观察得到的稳定值。第49页/共93页50例4.6 根据以往经验,一般胃溃疡患者中有20%发生胃出血症状。某医院观察65岁以上溃疡病患者152例,有31.6%的患者出现胃出血症状。问老年人溃疡病患者是否容易发生胃出血? 1)建立假设,确定水准 第50页/共93页

16、51 2)计算u值第51页/共93页52 3)确定P值,做出结论第52页/共93页532、两样本率的比较 条件:两样本含量n1与n2均较大;两样本率p1、(1p1)及p2、(1p2)均不太小;如n1p1、或n1(1p1)及n2p2、或n2(1p2)均大于5时,可采用正态近似法。 公式: 式中,p1和p2:分别为两个样本率;Sp1-p2:两率之差的标准误;Xl和X2:分别表示两样本发生某现象的观察单位数。第53页/共93页54例4.7 调查两个城市的甲状腺肿患病率,其中甲市调查3315例,甲状腺肿患病率为1.78%,乙市调查3215例,患病率为5.60%,问两个城市甲状腺肿患病率有无差别?1)建

17、立假设,确定检验水准第54页/共93页552)计算u值第55页/共93页56 3)确定P值,做出结论第56页/共93页57当样本量不大,或几个率进行比较时 2检验两样本率的比较除可用u检验,还可采用2检验,且=1时,u2= 2 。第57页/共93页58三、 2检验第58页/共93页59 用途: 推断两个总体率或构成比之间有无差别 多个总体率或构成比之间有无差别 多个样本率比较的分割 两个分类变量之间有无关联性 频数分布拟合优度的检验。 检验统计量: 应用:计数资料2第59页/共93页60一、 2检验基本思想 For a given phenomenon, the chi-square test

18、 compares the actual frequencies (A) with the theoretical frequencies (T). 实际频数(A) : observed frequencies 理论频数(T). : calculated from some hypothesis.第60页/共93页61 Suppose you toss a coin 100 times H: 40 times T: 60 times If you hypothesize that the coin is fair, theoretical : 50 times each.第61页/共93页62

19、 Whether the Hypothesis is true? Compare the A with the T. If they are quite different, then the theory might not be true; Otherwise, the theory is acceptable.第62页/共93页63 Whether they are quite different? whether the deviations between A and T are significant. Deviations=22()A TT第63页/共93页64基本公式: A:实

20、际频数,如四个基本数据; T:理论频数,是根据检验设 ,且用合并率 来估计而定的。22(), ()(1)A TT行数-1 列数012:H2222()(40 50)(60 50)45050A TT第64页/共93页652 -distribution,df=16.83P=0.053.84P=0.012 valueProbability distribution for the statistic, when the sample sizes and the theoretical frequencies are not too small.第65页/共93页66 P value Suppose t

21、he deviations are not significant, or there is no difference between the A and T, the probability that we get the value of 2 . With df=1, the probability that we get the value of 3.84 is 0.05.第66页/共93页67 P0.05 Suppose the deviations are not significant, or there is no difference between the A and T,

22、 the probability that we get the value of 2 is less than 0.05. Impossible! So the deviations are significant. Reject the hypothesis.第67页/共93页68 Whether the coin is fair? hypothesis that the coin is fair, 2 =4P=0.05P40,且全部T5时 校正:当n40,但有任一格子1T5时确切概率:当n40或T40,且全部T5时 校正:当n40,但有任一格子1T5时 当n40或T40 b+c40,校正22()bcbc第

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论