统计描述课件_第1页
统计描述课件_第2页
统计描述课件_第3页
统计描述课件_第4页
统计描述课件_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

3统计描述2统计描述3统计描述2Chapter4

第一节计量资料的统计描述第二节分类资料的统计描述第三节统计表与统计图3统计描述2频数表的编制步骤(1)求全距:最大值与最小值之差,又称极差(range)

。(2)确定组段数和组距(classinterval)

:根据研究目的和样本含量n确定。组距=全距/组段数,通常分8-15个组,再略加调整。(3)确定各个组段的上下限:第一组段的下限(lowerlimit)略小于最小值,最后一个组段上限(upperlimit)必须包含最大值,其它组段上限值忽略。(4)统计频数和频率:将所有数据归纳到各组段,得到各组段的频数。3统计描述2频数表和频数图用途1.描述频数分布的类型:对称分布、偏态分布2.显示频数分布的重要特征:集中趋势和离散趋势3.便于发现某些特别大或特别小的可疑值3统计描述2集中趋势的描述

均数:(average)描述一组同质计量资料

的集中趋势(centraltendency)。

1.算术均数(arithmeticmean)/均数(mean)

2.几何均数(geometricmean)

3.中位数(median)3统计描述21.算术均数(arithmeticmean)/均数(mean)(1)直接计算法k:频数表的组段数f:频数X:组中值。(2)加权法(利用频数表):3统计描述22.几何均数(geometricmean)3统计描述2中位数计算公式3统计描述2频数表法百分位数(percentile)3统计描述2例2由下表中的数据计算中位数以及P25和P75组段

频数f频率

累计频数累计频率3.7~10.6710.673.9~42.6753.344.1~117.331610.674.3~1711.333322.004.5~2617.335939.334.7~3221.339160.664.9~2617.3311777.995.1~1812.0013589.995.3~106.6714596.665.5~42.6714999.345.7~5.910.67150100.00合计150100.0----3统计描述21.求百分位数所在组段

2.求累积频数

3.确定百分位数所在组的频数、上下限,P25=4.5+0.2(150×25%-33)/26=4.535P75=4.9+0.2(150×75%-91)/26=5.065Md=4.7+0.2(150×50%-59)/32=4.83统计描述2Q=P75-P25=19.45-8.51=10.94(h)

P25

=6+6(145×25%-17)/46=8.51(h)P75=18+6(145×75%-101)/32=19.45(h)3统计描述2例1两组同性同年龄儿童体重如下3统计描述2三、离散趋势

反映数据的离散度(Dispersion),即个体观察值的变异程度。常用的有:

1.全距

2.四分位数范围

3.方差与标准差

4.变异系数3统计描述21.

全距(range):反映个体变异范围2.百分位数(percentile):

PX=L+i(nX%-ΣfL)/fX

四分位数范围(inter-quartilerange)

(P25,P75

)四分位数间距Q=P75-P253统计描述2潜伏期/h⑴

频数,f⑵

累积频数,Σf⑶0~17176~466312~3810118~3213324~613930~013936~414342~482145

合计145-例2由下表中的数据计算四分位数间距3统计描述21.求百分位数所在组段

2.求累积频数

3.确定百分位数所在组的频数、上下限,潜伏期/h⑴

频数,f⑵

累积频数,Σf⑶0~17176~466312~3810118~3213324~613930~013936~414342~482145

合计145-3统计描述2Q=P75-P25=19.45-8.51=10.94(h)

P25

=6+6(145×25%-17)/46=8.51(h)P75=18+6(145×75%-101)/32=19.45(h)3统计描述2组段(1)

频数f(2)组中值X0(3)fX0(4)=(2)×(3)3.7~13.83.83.9~44.016.04.1~114.246.24.3~174.474.84.5~264.6119.64.7~324.8153.64.9~265.0130.05.1~185.293.65.3~105.454.05.5~45.622.45.7~5.915.85.8合计150-719.8

某地150名正常成年男子红细胞数(1012/L)频数分布表P25=4.5+0.2(150×25%-33)/26=4.535P75=4.9+0.2(150×75%-91)/26=5.065Q=5.065-4.535=0.5303统计描述2表示一组数据的平均离散情况3.方差(variance)3统计描述2样本方差为什么要除以(n-1)自由度(degreesoffreedom)

在统计学中,n个数据若不受任何条件的限制,则n个数据可取任意值,称有n个自由度。若受到k个条件限制,就只有(n-k)个自由度。计算标准差时,n个变量值本身有n个自由度。但受到样本均数的限制,任一个“离均差”均可用其他(n-1)个表示,所以只有(n-1)个独立的“离均差”。因此自由度为(n-1)。3统计描述24.标准差(standarddeviation)

标准差

即方差的正平方根;其单位与原变量X的单位相同。3统计描述2例3求例1两组数据的标准差。解:3统计描述2例3求下表中150名男子红细胞计数的标准差。组段(1)

频数f(2)组中值X0(3)fX0(4)=(2)×(3)3.7~13.83.83.9~44.016.04.1~114.246.24.3~174.474.84.5~264.6119.64.7~324.8153.64.9~265.0130.05.1~185.293.65.3~105.454.05.5~45.622.45.7~5.915.85.8合计150-719.83统计描述2解:采用频数表法求标准差,表中已有X0、

fX0,相乘得fX02,从而ΣfX02=3476.48,3统计描述2问题

例4某地1985年农村周岁女童体重均数为8.02kg,标准差为0.98kg;其身长均数为72.0cm,标准差为3.0cm。试问:身长与体重的变异度何者为大?3统计描述2周岁女童均数

标准差变异系数体重8.02kg0.98kg12.2%身长72.0cm3.0cm4.1%5.变异系数(coefficientofvariation)

适用条件:①观察指标单位不同,如身高、体重②同单位资料,但均数相差悬殊3统计描述2外加呼吸阻力前后的口腔压力波幅口腔压力波幅CmAg均数

标准差加阻力前1.2180.256加阻力后7.2400.6333统计描述2外加呼吸阻力前后的口腔压力波幅口腔压力波幅CmAg均数

标准差变异系数加阻力前1.2180.25621.019%加阻力后7.2400.6338.741%3统计描述21.全距较粗,适合于任何分布2.标准差与均数的单位相同,适合于近似正态分布3.变异系数主要用于单位不同或均数相差悬殊资料4.平均指标和变异指标分别反映资料的不同特征,常配套使用,如正态分布:均数、标准差偏态分布:中位数、四分位数间距变异指标小结3统计描述2Chapter2

第二节分类资料的统计描述第三节统计图表3统计描述2第二节分类资料的统计描述

一、分类资料的频数表二、分类资料常用统计量三、应用相对数时应注意的问题四、率的标准化3统计描述2足月剖宫产中学干部757.015429足月助产中学无370.515824早产助产中学无466.015820早产顺产小学无268.015727足月剖宫产中学商业1162.015925足月剖宫产中学无569.016123足月顺产大学管理员668.015825足月助产小学无574.016022足月顺产中学无571.516527妊娠结局分娩方式文化程度职业住院天数体重身高年龄住院号一.分类资料的频数表分类资料:按某种属性分类,然后清点每类的数据。定量资料分类资料3统计描述2年龄工人管理人员农民商业服务无知识分子总计182000305209261018045222871024701115024503428521534436126504325451337036628343510347857248301114112239171143214231424360344253122283621145114383110218400020002合计2071411022085372061401表*按年龄(2岁一组)与职业整理3统计描述2二.分类资料常用统计量

比比例率3统计描述2比(ratio)/相对比(relativeratio):任两个指标A与B的比,说明A是B的若干倍或几分之几,通常用倍数或分数表示。比=A:B

对同性质的:说明两者间的差别或比例关系

如:男同学:女同学,医生:护士,教师:学生对不同性质的:表示一个量A相对于另一个量B的对比数

如:人口数:医生数,人口数:病床数体重指数=体重/(身高)2(kg/m2)3统计描述2构成比:说明某一事物内部,各组成部分所占的比重,也叫比例。

如:及格率=(及格人数/参加考试人数)×100%教研室16人中教授有4人,占20%。构成比没有单位,0≤构成比≤13统计描述2

疾病⑴

人数⑵

构成比(%)(3)痢疾肝炎流脑麻疹其他合计3685211152241185048.627.96.95.411.27579100.0例:某地1980年五种传染病的构成3统计描述2率(rate):说明某一时段内某现象发生的频率

或强度,又称为强度相对数。

(1)描述某事件在某时期内发生(频)率:比例基数:100%、1000‰、10000/万等如:发病率、死亡率、感染率、阳性率等死亡率=(某时期死亡人数/总的人口数)×100000/10万3统计描述2例如:某地1980年人口数为56万,麻疹发生数为411人,则麻疹发病率=(411/560000)×10000/万=7.3/万

当“率”的分母足够大的时候,“率”近似为该现象或事件发生的概率。

这里定义的率是描述在某一时期内某现象发生的频率,为累积发生率。3统计描述2(2)描述某现象在观察单位时间内发生的(速)率或强度的率:即所观察的事件在单位时间内发生的率(实际为速率),

倒数=平均观察多少时间该事件发生一次3统计描述2例2-13在某地区1998年初调查了1000名65岁以上的老人,发现其中有100名老人患糖尿病,在1999年初随访这1000名老人,发现其中有120名老人患糖尿病,即有20例新病例。糖尿病的年发病率3统计描述2年龄组⑴

人口数⑵死亡数⑶比例(%)⑷=⑶/725死亡率(1/10万)⑸=(3)/(2)0~15~30~50~≥703569802325052050321218822004711221424431071.53.019.661.114.83.19.569.3363.5533.8936446725100.077.4/10万=725/936446表4-7比例与率的例子合计3统计描述2比例与率合计为100%容易某部分的比重某组成部分占总体的比重比例不一定特点较难资料获得随机事件发生频率强调点发生的频率或强度概念率3统计描述2三.应用相对数时应注意的问题1.进行率的对比分析时,应注意资料可比性。如:比较疗效时,比较组间应病情轻重相同,若有性别影响,应按性别分组后再作比较。2.计算相对数的分母不宜过小,小则直接叙述。如:某医师用组织埋藏法治疗两例视网膜炎患者,一例有效,即报道有效率为50%,显然该有效率是不可靠的。3统计描述2例:若P1=x1/n1

P2=x2/n2P3=x3/n3

P=(x1+x2+x3)/(n1+n2+n3)(正确)

P=(P1+P2+P3)/3(错误)由于人群的构成差异及随机抽样的方式不同,不要随意将多个样本率的资料进行合并计算样本率或简单计算样本率的平均值。3.不要随意对多个样本率进行合并计算3统计描述2工龄⑴

检查人数⑵患者数⑶比例(%)⑷患病率(%)⑸1~5~10~15~合计3402544321361730732711.520.449.718.45.011.816.919.91162147100.012.7表*某化工厂不同工龄工人的慢性气管炎患者构成比与患病率4.不能以比例代替率3统计描述2四、率的标准化

例2-14研究者调查某县城和该乡居民1990年的粗死亡率,两地居民的人口数分别为7500和5000人,死亡人数分别为63人和40人,粗死亡率分别为8.4‰和8.0‰,前者高于后者。3统计描述2人口数死亡数死亡率<1515-601612358.04.014.08.45000合计县城年龄(岁)63A乡>602000300025007500人口数死亡数死亡率10003000100010151510.05.015.08.0403统计描述2(一)标准化的目的和基本思想目的:使得各率之间具有可比性基本思想:选择一个具有代表性的人群作为参照人群,按参照人群

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论