版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第十一章资料的描述性分析第十一章资料的描述性分析2023/10/42第十一章资料的描述性分析第一节计量资料的统计描述方法第二节计数资料的统计描述方法
统计图表
2023/8/32第十一章资料的描述性分析第一节计量资2023/10/43第一节计量资料的统计描述方法
常用的描述定量资料分布规律的统计方法有两类:统计图表:频数分布表/图选用适当的统计指标:集中趋势指标:均数、中位数离散趋势指标:极差、标准差2023/8/33第一节计量资料的统计描述方法常用的描2023/10/44频数分布表(frequencydistributiontable):
将变量值化分为若干个组段,清点并记录各组段变量值的个数,称为频数表(frequencytable)
。第一节数值变量资料的频数分布2023/8/34频数分布表(frequencydist2023/10/45最小值最大值第一节数值变量资料的频数分布2023/8/35最小值最大值第一节数值变量资料的频数分布2023/10/461.频数表的编制步骤(1)求数据的极差:
极差(range)是全部数据中的最大值与最小值之差,它描述了数据的变异幅度。
公式:R=XMax-XMin
例8.1:XMax=5.59
XMin=3.60R=5.59-3.60=1.99
第一节数值变量资料的频数分布2023/8/361.频数表的编制步骤第一节数值变量资料2023/10/47
(2)划分组段确定组数:
n>100,10~15组;n<100,8~10组确定组距:组距可以相等也可以不相等,一般采用等距分组,组距=极差/组数例8.11.99/10≈2,故组距=2mmol/L1.频数表的编制步骤2023/8/37(2)划分组段1.频数表的编制2023/10/48(2)划分组段
确定各组段的上下限:每个组段的起点称为该组的下限(lowlimit),终点称为上限(upperlimit),上限=下限+组距;第一组段必须包括最小值,因此其下限取包含最小值、较为整齐的数值;例8.1
第一组段下限为3.60,上限为3.60+0.20=3.80
各组段不能重叠,每一组段均为半开半闭区间,即包括下限,不包含上限。例8.1第一组段为3.60~即[3.60,3.80);以此类推。最后一组段,须包括最大值,且要列出这一组段的下限和上限,即5.40~5.60,
[5.40,5.60]1.频数表的编制步骤2023/8/38(2)划分组段1.频数表的编制步骤2023/10/491.频数表的编制步骤最后一组段第一组段列出各组段2023/8/391.频数表的编制步骤最后一组段第一组段列2023/10/410(3)列表划记
1.频数表的编制步骤将原始数据一一对应入每个组段,通过划“正”字,来统计每个组段内的数据2023/8/310(3)列表划记1.频数表的编制步骤将原2023/10/411(3)列表划记1.频数表的编制步骤统计每个组段内的频数(例数)
频数的合计数等于样本含量2023/8/311(3)列表划记1.频数表的编制步骤统计2023/10/4121.频数表的编制步骤(3)列表划记计算出每个组段的频率
每组的频数样本含量2023/8/3121.频数表的编制步骤(3)列表划记计算2023/10/4131.频数表的编制步骤(3)列表划记计算出每个组段的累计频率
=本组段的频率+上一组段的累计频率
2023/8/3131.频数表的编制步骤(3)列表划记计算2023/10/4141.频数表的编制步骤2023/8/3141.频数表的编制步骤2023/10/4152.绘制频数分布直方图
绘制频数分布直方图坐标轴横坐标:变量值即研究指标,无需从0开始,以单位尺度划分。纵坐标:为频数f,必须从0开始(f为每一组段内的人数)直条直条的宽度:组距直条的高度:每一组段的频数累计2023/8/3152.绘制频数分布直方图绘制频2023/10/4162.绘制频数分布直方图2023/8/3162.绘制频数分布直方图2023/10/4172.绘制频数分布直方图2023/8/3172.绘制频数分布直方图2023/10/4183、频数分布的特征从频数表可以看到频数分布的两个重要的特征
集中趋势(centraltendency)血糖值向中央部分(中等水平)集中,以中等水平的血糖值者居多,是为集中趋势。
离散趋势(tendencyofdispersion)从中央部分到两侧(血糖值从中等水平到较低或较高水平)的频数分布逐渐减少,是为离散趋势。集中趋势和离散趋势是频数分布的两个重要侧面,从这两方面就可全面的分析所研究的事物。2023/8/3183、频数分布的特征从频数表可以看到频数分2023/10/4194.频数分布的类型
频数分布又可分为对称分布和偏态分布对称分布:集中位置在正中,左右两侧频数分布大体对称偏态分布:集中位置偏向一侧,频数分布不对称正偏态分布:集中位置偏向年龄小的一侧负偏态分布:集中位置偏向年龄大的一侧不同类型的分布,应采用相应的统计分析方法。2023/8/3194.频数分布的类型频数分布又2023/10/4204.频数分布的类型正态分布(normaldistribution)中间高、两边低、左右对称属于对称分布的一种许多医学资料都属于这种分布,例如人体正常的生理生化指标正态分布2023/8/3204.频数分布的类型正态分布正态分布2023/10/4214.频数分布的类型
a.尖峭峰
b.正态峰
c.平阔峰
2023/8/3214.频数分布的类型a.尖峭峰
2023/10/422正偏态分布正偏态分布:峰偏左,尾部向右侧延伸如:以儿童为主的传染病发病人数的分布右偏态4.频数分布的类型负偏态分布负偏态分布:峰偏右,尾部向左侧延伸如:以老年人为主的慢性病发病人数的分布左偏态(positiveskewed)(negativeskewed)2023/8/322正偏态分布正偏态分布:峰偏左,尾部向右侧2023/10/4235.频数表的用途频数表可揭示资料的分布特征和分布类型便于进一步计算统计指标和统计分析处理(第二节)便于发现某些特大或特小可疑值,便于资料的校对。2023/8/3235.频数表的用途频数表可揭示资料的分布特2023/10/424一、集中趋势指标算术均数(arithmeticmean)几何均数(geometricmean)中位数和百分位数(medianpercentile)
以上统称为平均数(average)常用于描述一组变量值的集中位置,代表其平均水平或是集中位置的特征值。2023/8/324一、集中趋势指标算术均数(arithme2023/10/4251.算术均数又简称为均数(mean)定义:是反映一组观察值在数量上的平均水平。总体均数用希腊字母
表示,样本均数用表示计算方法:直接法:频数表法:应用:正态分布或近似正态分布资料
(arithmeticmean)2023/8/3251.算术均数又简称为均数(mean)(a2023/10/4261.算术均数计算方法直接法:即将所有观察值x1,x2,x3,…,xn直接相加再除以观察值的个数,写成公式
为样本均数n为变量值个数,i为各变量值,Σ表示求和2023/8/3261.算术均数计算方法为样本均数2023/10/4271.算术均数
例1
有9名健康成人的空腹胆固醇测定值(mmol/L)为5.61,3.96,3.67,4.99,4.24,5.06,5.20,4.79,5.93,求算术均数。
2023/8/3271.算术均数例1有9名健康2023/10/4281.算术均数
计算方法频数表法(weightingmethod)当资料中相同观察值的个数较多时,可将相同观察值的个数,即频数f,乘以该观察值x,以代替相同观察值逐个相加。对于频数表资料,用各组段的频数作f,以相应的组中值(classmid-value)作x。组中值=(下限+上限)/2公式
fi为各组段的频数xi为各组段的组中值2023/8/3281.算术均数计算方法2023/10/4291.算术均数2023/8/3291.算术均数2023/10/4301.算术均数组中值=(下限+上限)/2如:3.60~组段的组中值=(3.60+3.80)/2=3.70以此类推2023/8/3301.算术均数组中值=(下限+上限)/22023/10/431f1,f2,…,fk分别为各组段的频数,这里的f起到了“权数”的作用,它权衡了各组中值由于频数不同对均数的影响。即频数多,权数大,作用也大;频数少,权数小,作用也小,故称为加权法。1.算术均数用组中值,加权法计算出的均数是精确值吗?2023/8/331f1,f2,…,fk分别为各组段的频数2023/10/432
均数的两个重要特性各离均差(即各观察值x与均数x之差)的总和等于零。离均差的平方和小于个观察值x与任何数α(α
≠x
)之差的平方和。1.算术均数2023/8/332均数的两个重要特性1.算术均数2023/10/4331.算术均数各离均差(即各观察值x与均数x之差)的总和等于零。偶知道另一个也能证明了!嘿嘿2023/8/3331.算术均数各离均差(即各观察值x与均数2023/10/4341、最常用,特别是正态分布资料2、均数对极值特别敏感, 极大值或极小值通常将均数拉向自己1.算术均数均数的特征2023/8/3341、最常用,特别是正态分布资料1.算术均2023/10/435CASIOfx-3600P计算器统计功能
步骤键盘说明
1.MOOD3
进入SD统计功能
2.SHIFT
AC
清除原有数据
3.2.35DATA
输入数据
4.21DATA3.32DATA
4.SHIFT1(数字键)显示计算的
5.SHIFT3(数字键)显示计算的S6.Kout3(数字键)显示计算的n7.Kout1(数字键)显示计算的2023/8/335CASIOfx-3600P计算器统计功2023/10/4362.几何均数定义:有些医学资料,如抗体滴度、细菌计数等,其频数分布明显偏态,各观察值之间呈倍数变化(等比关系),此时宜用几何均数反映其平均增减倍数。计算方法:直接法加权法应用:等比资料或对数正态分布资料(geometricmean)2023/8/3362.几何均数定义:有些医学资料,如抗体滴2023/10/437
计算方法:直接法:直接将n个观察值(x1,x2,x3,…,xn
)的乘积开n次公式写成对数形式为2.几何均数几何均数:变量对数值的算术均数的反对数。2023/8/337计算方法:2.几何均数几何均数2023/10/438例3
有7份血清的抗体效价分别为1:2,1:4,1:8,1:16,1:32,1:64,1:128,求平均抗体效价。本例先求抗体效价的倒数,再求几何均数2.几何均数血清抗体的平均效价为1:162023/8/338例3有7份血清的抗体效价分别为1:22023/10/439计算方法:加权法:当资料中相同观察值得个数f(即频数)较多时,如频数表资料写成公式2.几何均数2023/8/339计算方法:2.几何均数2023/10/440例4有60人的血清抗体效价,分别为7人1:5,11人
1:10,22人1:20,12人1:40,8人1:80,求平均抗体效价。2.几何均数60人的血清平均抗体效价为1:20.7052023/8/340例4有60人的血清抗体效价,分别为2023/10/441
注意事项等比资料,如:抗体的平均滴度、药物的平均效价、卫生事业平均发展速度、人口的几何增长对数正态分布:是右偏态分布观察值不能有0。因为0不能去对数,不能与任何其他数呈倍数关系。观察值不能同时有正值和负值。若全是负值,计算是可以把负号去掉,得出结果后再加上负号。同一组资料求得的几何均数小于算术均数。2.几何均数2023/8/341注意事项2.几何均数2023/10/442
若一组数值变量资料为偏态分布,变量为x,令y=lgx后,变量y服从正态分布,请问变量x为什么样的偏态分布资料?2.几何均数正偏态分布正态分布变量y服从则变量x服从抗体滴度⑴
人数,f⑵
滴度倒数,X⑶lgX⑷1:2.5
1:101:401:1601:640
合计141822126722.510.040.0160.0640.00.39791.00001.60212.20412.8062102.1032
2023/8/342若一组数值变量资料为偏态分布,变2023/10/4433.中位数和百分位数(1)中位数定义:是将一组观察值从小到大按顺序排列,位次居中的观察值就是中位数。例:((medianpercentile))X:
5,5,6,7,20,位次:
12345中位数(M):
66.52362023/8/3433.中位数和百分位数(1)中位数((me2023/10/444(1)中位数计算方法:直接由原始数据计算中位数先将观察值按大小顺序排列,再按下面公式计算:2023/8/344(1)中位数计算方法:2023/10/445
例5
有7名正常人的血压(舒张压)测定值(mmHg)为:72,75,76,77,81,82,86,求中位数。解:n=7为奇数变量x:72,75,76,77,81,82,86
位次:1234567(1)中位数
请大家思考下:计算中位数和其他平均数有什么不同?特点:仅利用了中间的1~2个数据2023/8/345例5有7名正常人的血压(舒张压)2023/10/446计算方法:用频数表计算中位数,按所分组段,由小到大计算累计频数和累计频率。再按下面公式计算为:(1)中位数2023/8/346计算方法:(1)中位数2023/10/447下限值L上限值Ui;fm中位数M(1)中位数2023/8/347下限值L上限值Ui;fm中位数M(12023/10/4480~
2.27~
4.55~
10.61~
28.03~
46.21~
65.15~
80.30~
89.39~
96.97~
(1)中位数累计频数36143761861061181281322023/8/3480~2.27~4.55~102023/10/449(1)中位数反映了位次居中的观察值的水平优点:不受两端特大值和特小值影响缺点:并非考虑到每个观测值适用于各种分布类型的资料,
特别适合于:大样本偏态分布资料或者一端/两端无确切数值的资料
3.中位数和算术均数再对称分布的资料中,理论上数值是相 同的中位数的特征2023/8/349(1)中位数反映了位次居中的观察值的水平2023/10/450(2)百分位数定义:是一种位置指标,用PX
来表示。将n个变量值从小到大依次排列,再把它们的位次转换为百分位。对应于X%位次的数值即为第X百分位数。
变量值:
558…89…758位次:
123…75…150百分位次:0.7%1.3%2%…50%…100%2023/8/350(2)百分位数定义:是一种位置指标,用2023/10/451百分数示意(100-x)%x%位图(2)百分位数
一个PX将全部变量值分为两部分,在不包含
PX的全部变量值中有X%的变量值比它小,有(100-X)%的变量值比它大。
PX是一个界值。2023/8/351百分数示意(100-x)%x%位图(2)2023/10/452(2)百分位数计算方法
频数表法
公式如下Lx:第X百分位数所在组段的下限ix:第X百分位数所在组段的组距fx:第X百分位数所在组段的频数:第X百分位数所在组段上一组段累计频数2023/8/352(2)百分位数计算方法
频数表法2023/10/453例3
某传染性疾病的潜伏期(天)见表8-3,求平均潜伏期和潜伏期的第25、75与95百分位数P25,P75,P95。(2)百分位数2023/8/353例3某传染性疾病的潜伏期(天)见表8-2023/10/454(2)百分位数2023/8/354(2)百分位数2023/10/4551、四分位数(Quartile)(三个四分位数)2、十分位数(Centile):9个十分位数3、百分位数(Percentile)99个百分位数(2)百分位数P50P25P752023/8/3551、四分位数(Quartile)(三个四2023/10/456百分位数是用于描述样本或总体观察值序列在某百分位置的水平,最常用的是P50即中位数;多个百分位数结合应用时,可更全面地描述总体或样本的分布。百分位数常用于确定医学参考值范围(referenceranges),(下节后述)。一般,分布中部的百分位数相当稳定,具有较好的代表性,但靠近两端的百分位数,只在样本例数足够多时才比较稳定。因此,样本例数不够多时,不宜取太近两端的百分位数。(2)百分位数2023/8/356百分位数是用于描述样本或总体观察值序列在2023/10/457常用平均数的意义及其应用场合小结2023/8/357常用平均数的意义及其应用场合小结2023/10/458第三节离散趋势指标平均水平的指标只是描述了一组数据的集中趋势指标,可以作为总体的一个代表值,那么这组观察值之间的是否存在差异?描述差异的指标有哪些呢?差异究竟有多大?如何计算?2023/8/358第三节离散趋势指标平均水平的指标只是描2023/10/459第三节离散趋势指标盘号甲乙丙15605205102540510505350050050044604904955440480490合计250025002500均数500500500例:设甲、乙、丙三人,采每人的耳垂血,然后作红细胞计数,每人数5个计数盘,得结果如下(万/mm3)甲乙丙2023/8/359第三节离散趋势指标盘号甲乙丙15602023/10/460描述计量资料数据间离散程度的指标—变异指标。常用的指标:极差四分位间距方差标准差变异系数。第三节离散趋势指标2023/8/360描述计量资料数据间离散程度的指标—变异2023/10/4611.极差定义:亦称为全距,即一组观察值中最大值与最小值之差计算方法:R=XMax-XMin
意义:R值越大,表示该组数据的变异越大。缺点:数据利用不全,仅利用了两个极端值,部分信息损失,在例数少时结果不稳定。(Range)2023/8/3611.极差定义:亦称为全距,即一组观察值中2023/10/4621.极差例
三组同龄男孩的身高值(cm)
R
甲组909510010511010020
乙组96981001021041008
丙组969910010110410082023/8/3621.极差例三组同龄男孩的身高2023/10/4632、四分位数间距
四分位数(quartile
):可看作特定的百分位数,第25百分位数P25,表示全部观察值中有25%(四分之一)的观察值比它小,为下四分位数,记做QL;同理第75百分位数P75为上四分位数,记做记做Qu;四分位数间距,简记为Q,第75百分位数与第25百分位数之差。(inter-quartilerange)P50P25P752023/8/3632、四分位数间距四分位数(quart2023/10/464计算方法:Q=Qu–QL=P75%-P25%意义:Q值越大,表示该组数据的变异度越大。优点:1.四分位数间距包括了全部观察值的一半,因此也可看成是中间一半观察值的极差。
2.四分位数间距作为说明个体差异的指标,比极差稳定。缺点:未考虑到每个观察值的变异度大。应用:常用于表示偏态分布资料的变异。2、四分位数间距2023/8/364计算方法:Q=Qu–QL=P75%2023/10/465例7
利用表计算四分位数间距Q。2、四分位数间距2023/8/365例7利用表计算四分位数间距Q。2、2023/10/466极差仅采用了观察值中的最大值和最小值;而四分位数间距也仅仅采用了上、下四分位数,均没有考虑每个观察值,因此这两项指标不能全面反映资料的离散程度。第三节离散趋势指标2023/8/366极差仅采用了观察值中的最大值和最小值;而2023/10/4673.方差若要克服以上缺点,就必须全面考虑到每一个观察值。可用总体中每一个观察值xi与总体均数
,之差的总和(离均差总和),反映资料的离散程度,但若计算离均差平方和,结果就不为0,但受到样本例数多少的影响,为了消除这一影响,就取离均差平方和的均数,该指标简称为方差(variance)。总体方差用σ2
表示,样本方差用S2表示。
(variance)2023/8/3673.方差若要克服以上缺点,就必须全面考虑2023/10/4683.方差公式奇怪:为什么样本方差是除以n-1呢?后述2023/8/3683.方差公式奇怪:为什么样本方差2023/10/469
方差(variance)是全部观察值的离均差平方和的均值。表示一组数据的平均离散情况。特点:方差的分子——离均差平方和,是将每一个观察值与均数作差之后平方:反映了全部观察值的离散程度;但同时也将变量值的度量衡单位平方了,变成了(m)2、(kg)2…3.方差唉!这个指标还是不够尽善尽美,继续探索…2023/8/369方差(variance)是全部观2023/10/4704.标准差方差的单位是原度量衡单位的平方,为了用原单位,就把总体方差开平方,取其正的平方根,这就是总体标准差,用σ表示:(standarddeviation)其单位与原变量x的单位相同。2023/8/3704.标准差方差的单位是原度量衡单位的平方2023/10/471总体标准差σ在实际的应用当中只是个“理论值”。因为实际工作中常常得到的是样本资料,
不知道的,只能用样本均数来估计,这样就用代替,用样本例数n代替N,但这样计算得结果常比真实的σ低,英国统计学家W.S.Gosset提出用样本例数n-1代替n来校正。应用更多的是样本标准差S。4.标准差频数表资料基本公式2023/8/371总体标准差σ在实际的应用当中只是个“理论样本方差为什么要除以(n-1)
与自由度(degreesoffreedom)有关。自由度是统计学术语,其意义是随机变量能自由取值的个数。如:n个数据如不受任何条件的限制,则n个数据可取任意值,称为有n个自由度。若受到k个条件的限制,就只有(n-k)个自由度了。4.标准差如有一个n=4数据样本,受到=5的条件限制,在自由确定4,2,5三个数据之后,第四个数据只能是9,否则均数不是5,推而广之,任何统计量的v=n-限制条件的个数。
计算标准差时,n个变量值本身有n个自由度。但受到样本均数的限制,任何一个“离均差”均可以用另外的(n-1)个“离均差”表示,所以只有(n-1)个独立的“离均差”。因此只有(n-1)个自由度。2023/10/472样本方差为什么要除以(n-1)与自由度(degree2023/10/473例8有三组成人的舒张压资料(见表8.4),求全距、方差和标准差,进行比较。4.标准差编号甲组乙组丙组甲2乙2丙216060603600360036002666872435646245184375757556255625562548279776724624159295868686739673967396合计3693683702770127486277342023/8/373例8有三组成人的舒张压资料(见表8.2023/10/474编号甲组乙组丙组甲2乙2丙216060603600360036002666872435646245184375757556255625562548279776724624159295868686739673967396合计369368370277012748627734全距262626方差117.2100.388.5标准差10.8310.019.414.标准差三组舒张压值的全距R相同,不能反映出各组数据的离散程度的区别;方差和标准差考虑了每个数据和均数的相差情况,三组的S2和S明显不同,全面的反映了资料的变异情况。2023/8/374编号甲组乙组丙组甲2乙2丙21606062023/10/475例利用表8-2资料和加权法计算标准差。4.标准差2023/8/375例利用表8-2资料和加权法计算标准差。2023/10/476意义:从上例可以看出,方差、标准差越大,其观察值之间的变异就越大,则平均数的代表性就越差。4.标准差2023/8/376意义:从上例可以看出,方差、标准差越大,2023/10/477
用途:反映一组观察值的离散程度,标准差小,数据间的离散程度小,均数的代表性好。用于计算变异系数用于计算标准误结合均值与正态分布规律估计医学参考
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 第47届世界技能大赛木工项目-江苏省选拔赛技术文件
- 2023年温州市残疾人职业技能大赛-麦饼制作项目技术文件
- 2024年教案创新:《窦娥冤》教学的新视角
- 2024年PCCAD软件操作培训-赋能你的创意思维
- 2024年PIE工程师培训:高效团队与项目执行力提升
- 2024年微课视角下的《将进酒》课件设计
- 《黄河落日》教学课件制作技巧
- 病理学(医学高级):病理学真题
- 2024年工程制图教案:技术与艺术的结合
- XX工程160KVA箱变安装施工方案
- 统编版(2024)七年级上册道德与法治3.1《做有梦的少年》教案
- 2024-2030年中国机器翻译行业市场发展趋势与前景展望战略分析报告
- 高速公路综合监控太阳能供电系统技术方案设计
- 2024年秋新华师大版七年级上册数学 2.4.3去括号和添括号 教学课件
- 【论述土木工程的信息化建设应用8600字(论文)】
- 北师大版(三起)(2024)三年级上册英语Unit 5单元测试卷(含答案)
- 2024年初级银行从业资格《个人理财》考试试题
- 公司资金调拨及内部往来管理流程手册模板
- 尊干爱兵课件2017
- 流程图练习题(三种结构)
- 消防监控服务合同范本
评论
0/150
提交评论