预防医学变量的统计描述_第1页
预防医学变量的统计描述_第2页
预防医学变量的统计描述_第3页
预防医学变量的统计描述_第4页
预防医学变量的统计描述_第5页
已阅读5页,还剩145页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1

预防医学

福医卫生统计系林征

第七章:医学数据的统计描述2第七章提纲数值变量的统计描述分类资料的统计描述统计图表医学统计中常见的分布及其应用统计描述3统计描述就是用适当的表格、图形、数量化的指标,表达数据的数量特征,揭示其分布的规律性统计描述分为:形象化描述(统计图表)——建立对资料的初步印象;数值化的描述(统计指标)——给出分布规律及具体数值统计描述4为什么要对资料进行统计描述?医学研究得到的原始数据(rawdata)往往是庞大的、混乱的个体变异的存在,医学研究中某指标在各个体上的观察结果不是恒定不变的,但也不是杂乱无章的;从总体的角度上个体值的出现是有一定规律的,即呈一定的分布统计描述的结果为进一步的统计推断提供参考统计描述5统计描述的思路:计算相应统计指标绘制合适统计图表判断类型获取资料分类汇总相应统计指标绘制合适统计图表数值变量分类变量一、数值变量的统计描述6例7-1:某地1998年随机抽查120名20岁健康男大学生身高(cm)175.7171.6172.4170.5172.3163.8172.4167.5173.6175.0178.4170.4169.9173.6172.0172.1179.1179.4173.1172.4170.4178.2172.9172.7179.6174.5174.8172.0175.8172.7170.0168.5173.8168.9179.9172.4166.5171.6177.0171.4170.3167.4174.3172.3175.3170.4171.6174.1171.6173.8162.8172.7174.0179.6166.7166.6164.3177.8182.7171.4168.9175.2176.7169.5176.3177.7172.1166.6177.1176.1171.5172.3174.2174.4173.5171.9167.4171.7179.5177.3175.3172.3174.2174.4173.5171.9167.4181.7179.5177.3166.9168.4175.2172.3172.9173.6165.3171.9169.1168.9178.2169.5172.1178.4166.6165.8171.1174.9176.7174.8168.2178.1170.5172.3172.3169.8168.1172.1180.0171.2理想的描述结果7身高例数比例(%)162~21.67164~32.50166~108.33168~1310.83170~1915.83172~2823.33174~2016.67176~108.33178~108.33180~43.33182~18410.83如何得到上述理想的结果?8频数分布表分组划计原始资料频数分布图各项统计指标1.频数表9求极差R:R=max-min确定组距:组距i是一个组的下限与下一个组段下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即i=Int[(max-min)÷组数]统计出各组的频数并整理成频数分布表确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。对于100余例的数据通常分为8-15组。或根据以下经验公式:列出组段:第一组段的下限略小于最小值,最后一个组段上限必须包含最大值123451.频数表10身高例数频率(%)频率密度(每cm身高频率)162~21.670.0083164~32.500.0125166~108.330.0417168~1310.830.0542170~1915.830.0792172~2823.330.1167174~2016.670.0833176~108.330.0417178~108.330.0417180~43.330.0167182~18410.830.00422.频数分布图(直方图)11频数表与频数图的作用12频数表与频数图可以提供不同分组的观察人数、频率与频率密度观察分布范围及有无可疑值确定分布的类型:对称或不对称分布289只近视眼Lasik术后1月裸眼视力Frequencynv0.000.100.200.300.400.500.600.700.800.901.001.101.20060对称分布14以“172~”组段的频数最多该人群身高介于162~183cm间从“172~”组段向两端逐渐减少表现出以“172~”组段为中心基本对称的特点不对称分布15分布不对称者称为偏态分布skewnessdistribution偏态分布又分为正偏分布和负偏分布正偏分布positiveskewness是指分布的长尾在峰的右侧,又称右偏分布rightskewed所谓负偏分布negativeskewness是指分布的长尾在峰的左侧,又称左偏分布leftskewedNegativeskewness:老年人生存质量自评分0

10

20

30

40

50

60

70

80

90

100

100

200

300

0

400

自评分人数17Positiveskewness:黑色素瘤患者的生存时间0

5

10

15

20

25

30

35

40

45

0

10203040

生存时间(月)人数如何更具体、精确?18了解了数据分布的形态(对称与否)、是否有异常值,仅仅意味着对数据有了初步认识,尚未得到数据的“精确”特征例如:教务处得到04与05两个年级的预防医学成绩,如何判断优劣?分数段04级05级例数%例数%<6043.776.960~1917.62221.870~3835.22625.780~3532.43029.790~1001211.11615.93、描述集中趋势与离散趋势的指标19集中趋势centraltendency:反映同质的群体中数据向其中心值靠拢的倾向和程度;测量集中趋势就是寻找数据水平的代表值或中心值,该值通常称为平均数01离散趋势dispersetendency:反映各变量值远离其中心值的程度,体现了同质群体内部个体间的变异大小,也称为变异度02Part1:集中趋势指标20不同分布类型的数据用不同的集中趋势指标02常见的平均数指标有:算术均数、几何均数、中位数01算术均数21算术均数arithmeticmean(μ总体均数,样本均数)简称均数,在已知各观察单位具体变量值时,可以采用直接法计算,公式如下:算术均数22测得8只正常大鼠血清总酸性磷酸酶(TACP)含量(U/L)为:4.20、6.43、2.08、3.45、2.26、4.04、5.42、3.38;求其品均水平。解算术均数23求120名20岁健康男大学生的平均身高资料来源于整理后的频数表,无法取得原始数据采用加权法计算加权均数,作为算术均数的近似值组段频数162~2164~3166~10168~13170~19172~28174~20176~10178~10180~4182~1841合计120算术均数24加权均数(weightedmean)直接法算术均数是加权均数的一个特例25算术均数组段频数组中值频数×组中值162~2163326164~3165495166~101671670168~131692197170~191713249172~281734844174~201753500176~101771770178~101791790180~4181724182~1841183183合计120—20748算术均数26二者十分接近;可见加权法计算的结果是对直接法的良好近似;而且加权法的计算较直接法稳定,简便直接法计算的均数为:172.75916666加权法计算的均数为:172.90000000算术均数小结27用于定量数据,不能用于分类数据和等级数据适用于服从对称分布计量资料(正态或近似正态)的集中趋势描述易受极端值的影响它是一组数据的均衡点所在;集中趋势的最常用指标问题:28对于某项风险较高的新手术术后的生存时间进行跟踪,共调查了7人,6人死亡之前分别生存了5天、6天、10天、16天、25天、29天,还有一人术后30天随访时仍存活;求他们的平均生存时间?中位数29中位数median:观察值排序后处于中间位置上的值对于有奇数位数的数据

Me

=(n+1)/2位数对于有偶数位数的数据

Me

=[n/2位数+(n/2+1)位数]/2Me50%50%中位数30某药厂观察9只小鼠口服高山红景天醇提取物(RSAE)后在缺氧条件下生存时间(分钟)如下:

原始数据:49.160.863.363.663.665.665.868.669.0

排序:49.160.863.363.663.665.665.868.669.0

位置:123456789

中位数31求120名20岁健康男大学生的平均身高资料来源于整理后的频数表,无法取得原始数据如何计算中位数?组段频数162~2164~3166~10168~13170~19172~28174~20176~10178~10180~4182~1841合计120中位数32组段频数累计频数累计频率(%)162~221.67164~354.17166~101512.50168~132823.33170~194739.17172~287562.50174~209579.17176~1010587.50178~1011595.83180~411999.17182~1841120100.00合计120——频数表法计算公式:中位数33式中L50、i50和f50分别为中位数所在组段的下限、组距和频数;为小于L50各组段的累积频数,n为总例数中位数34直接法计算的中位数为:172.3501频数表法计算的中位数为:172.9302该组数据的算术平均数为:172.7603可见对于近似对称分布的数据,中位数与算术平均数是十分接近的(理论上对于完全对称分布,二者是相等的)04对于偏态分布的数据,二者的关系又是如何?05中位数35对于负偏态,二者关系又如何?取何为优?对于例7-6数据,其频数分布图如左,为正偏态中位数为:15(直接法)或15.66(频数表法)算术均数为17.08算术均数大于中位数取何者更合理些?030405060102中位数vs.算术平均数3614位职员月收入3000、3500、4000、4500;经理月收入2万,求该部门5位人员平均月收入?2算术均数求得为7000,但是不论职员还是经理的收入均与此相区甚远,即算术均数作为这一组数据的集中位置不合理3中位数求得为4000元,很好的体现了“少数服从多数”的原则:在4000附近的确人数占绝大多数,这应该是具有说服力的“集中位置”!4能否总结一下为什么舍算术均数而取中位数?中位数vs.算术平均数37STEP3STEP2STEP1对于偏态分布资料,算术均数受极端值的影响,偏离了“中心”位置,不再合理反映“集中点”所以对于偏态分布数据,多采用中位数反映平均水平而对于近似对称分布数据,二者均可以反映平均水平,但是算术均数对数据的变化反映较中位数灵敏,得到的指标更精确正、负偏态的由来3801对于正偏态数据有算术均数>中位数,故算术均数减去中位数为正值,称这种数据分布为正偏态对于负偏态数据有算术均数<中位数,故算术均数减去中位数为负值,称这种数据分布为负偏态02中位数小结39适用于分布呈明显偏态,数据中存在极大或极小值,分布的一端或两端无确定数值,或分布不清的资料它是位置参数,不受极端值的影响,因此较算术均数稳定对于对称分布的资料,理论上中位数与算术均数是相等的假设某投资者拥有资金1000元,第一年他取得10%的收益,第二年为15%,第三年为20%,求平均收益?第一年末所拥有的资金为其原始的1.1倍第二年末所拥有的资金为其原始的1.1×1.15倍第三年末所拥有的资金为其原始的1.1×1.15×1.2倍假设他三年来的投资收益是平均的,那么他的年平均收益a应该满足a×a×a=1.1×1.15×1.2;所以:即他的年均收益为14.9274905%,而不是(0.1+0.15+0.2)/3=0.15新问题:平均发展速度新问题:平均抗体滴度417名慢性迁延性肝炎患者的HBsAg滴度资料为:1:16、1:32、1:32、1:64、1:64、1:128、1:512,求平均滴度?相似的思路处理抗体滴度问题:假设1:16为基础滴度,则原始数据可以看作是1倍、2倍、2倍、4倍、4倍、8倍、和32倍稀释;求平均稀释倍数如果改用算术均数的直接法:先将各滴度取倒数,倒数的平均数约为121.14,所以平均滴度约为1:121比1:121大的有5个数据,而比它小的只有2个,而且大多数的数据在1:100以内,所以看来1:121不合适!3214新问题:平均边长42已知矩形边长为4和1,求平均边长已知长方体长、宽、高分别为4、1、2,求平均边长矩形平均边长为2,长方体平均边长也为2几何平均数43将这种由n个数据相乘后开n次方求得的平均数称为几何平均数geometricmean,表示为G上述例子可见平均边长、平均发展速度、平均抗体稀释倍数等平均指标的求法与算术均数、中位数有所差别几何平均数44抗体滴度频数1:1621:3271:64111:128131:256121:5127合计5252名慢性肝炎患者的HBsAg滴度经过整理后如右表采用加权法计算加权几何均数几何平均数与算术均数4501从上述公式中可见,几何均数的对数值相当于原观察值对数转化后所求得的算术平均数02算术平均数的使用条件是数据满足对称或近似对称分布;即意味着,如果数据在经对数转换后满足对称分布,就可以求其几何平均数人群血铅含量平均值的计算46人群血铅含量平均值的计算47可见血铅值经对数转换后近似对称分布01考虑计算该对数值的算术平均数为1.1502经反对数转换,得到几何均数为14.1303几何平均数小结48适用于呈等比级数、或呈倍数变化的数据;例如医学上的抗体滴度、人口变化速度、细菌增长率、药物效价等01常用于表示呈正偏态,但是经过对数转换后可以满足对称(正态)的数据的平均水平02数据中不可以有0,如果有0用一个很小的正数代替;不可同时有正负数03在医学之外,它常用于计算事物变化的平均速度(经济学)04两个样本的资料相同或不同?4901020304对于两组资料集中趋势的描述:样本2:样本含量9,算术均数10.11,中位数9.905样本1:8.99.49.69.79.910.410.911.011.2样本1:样本含量9,算术均数10.11,中位数9.9结论:两个样本完全一样?样本2:2.93.13.85.19.910.017.018.021.206Part2:离散趋势指标5001离散趋势反映数据特征的另外一个重要方面——“离心”程度02从另一个侧面说明了集中趋势测度值的代表程度03不同类型的数据有不同的离散程度测量值极差51极差range:一组数据的最大值与最小值之差离散程度的最简单测度值易受极端值影响未考虑数据的分布一般极差越大,则数据的变异性越大;但是它没有考虑除极值外其他数据的变异情况;而且样本的极差通常过小地估计了总体的极差7891078910四分位数52四分位数quartile:排序后处于25%和75%位置上的值QU25%25%25%M25%它与中位数一样,都是特殊的位置百分位数Qu,第75%位数又称为上四分位数(上限)QL,第25%位数又称为下四分位数(下限)QL四分位数的确定53当nx%为小数时Px=X[trunc(nx%)+1]当nx%为整数时Px=0.5[Xnx%+Xnx%+1]trunc(a)表示对a取整数,去掉小数:trunc(118.8)=118直接计算法*:(对于其他特别的百分位数也适用)第x百分位数式中Lx、ix和fx分别为第x百分位数所在组段的下限组距和频数;为小于Lx各组段的累积频数,n为总例数频数表法:四分位数间距541四分位数间距interquartilerange:上四分位数与下四分位数之差IRQ=QU–QL2反映数据离散程度,其值越大数据离散程度越大3体现了中间50%数据的离散程度,但是仍然没有考虑到每个观测值间的变异4受极端值的影响小,比极差稳定5特别适用于分布呈明显偏态;分布形态不清;分布一端或两端无确定数值的资料6常与中位数一起,综合描述数据的集中和离散趋势离均差与离均差和55离均差与离均差和:为了克服全距、四分位数间距的缺点,人们考虑到用每个变量值与均数之间的差别来反映离散的程度,所以提出了离均差的概念,其数学表达式为离均差可正可负,但是数学上可以证明离均差平方和与均方56离均差平方和与离均差平方和的平均值:为了避免离均差和等于0的情况,人们考虑将离均差取平方后求其和,于是有了离均差平方和,其数学表达式为前者称为SS总体,后者称为SS样本;但是SS不但和变异大小有关,还和观察值的个数有关,SS随观察例数增多而增大。为了解决这个问题,人们又引入了离均差平方和的平均值,其数学表达式为方差57离均差平方和的平均值(MS),又可称为方差variance1它是反映数据离散程度的最常用的指标2在计算方差过程中利用到每个变量值,所以它表达的离散趋势信息比极差、四分位数间距更精确3但是由于在计算方差时用到算术均数,所以方差也只能用于反映对称或近似对称分布资料的离散趋势4总体方差与样本方差58总体方差通常用希腊字母s2(sigma)表示,记作:但是在实际研究中,通常只观察来自总体中的一个样本,所以总体均数是未知的;此时用样本均数作为总体均数的估计值,相应的方差称为样本方差,其公式为:

式中的n-1又称为自由度自由度591自由度degreeoffreedom,df:一组数据中可以自由取值的数据的个数2当样本数据的个数为n时,若样本均值x确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值3例如,样本有3个数值,即x1=2,x2=4,x3=9,则x=5。当x=5确定后,如果x1=6,x2=7,那么x3则必然取2,而不能取其他值4样本方差用自由度去除,其原因可从多方面解释,从实际应用角度看,在抽样估计中,当用样本方差S2去估计总体方差σ2时,它是σ2的无偏估计值标准差60在取方差的过程中,对离均差作了平方转换,这样方差的单位就是原观察值单位的平方,使用不方便为了使得观察单位的平均数指标与变异程度指标具有相同的单位,通常将方差的算术平方根作为反映变异程度的一个重要指标,人们将它称为标准差standarddeviation,sd方差(MS)标准差(SD)样本总体方差(MS)标准差(SD)样本(x为组中值)总体(x为组中值)变异度间的比较问题631985年通过十省调查得知,农村刚满周岁的女童体重均数为8.42kg,标准差为0.98kg;身高均数为72.4cm,标准差为3.0cm,试问身高与体重何者变异情况较大?01要反映变异程度本例题中宜采用标准差;从标准差的数值看来,身高变异程度大于体重。02是否合理?03身高的单位是cm,而体重的单位是kg,能否认为3cm>0.98kg?04变异系数64变异系数coefficientofvariation:标准差与其相应的均值之比01它反映数据相对离散程度,没有量纲02消除了数据水平高低和计量单位的影响,用于不同性质数据或均数相差较大时,离散程度的比较03数值变量统计描述小结65对数转换几何均数与对数值标准差的反对数中位数与四分位数间距不对称算术均数与标准差原始资料对称频数分布表、图分组划计分布类型二、分类资料的统计描述66分类变量的取值为某种属性,例如:血型(A、B、O、AB)人群中某病发生与否(发生、不发生)性别(男性、女性)视力等级(差、中、好)这些变量值无法直接进行统计运算,通常的做法是按照类别进行统计汇总,分别计算每一个类别的观察单位数,即某个分类的频数将上述频数绘制成频数分布表某年某社区各年龄居民高血压患病情况67年龄患病人数20~930~1340~9150~10260及以上12合计22740~与50~年龄段为高血压的高危年龄段!某年某单位各年龄居民高血压患病情况68年龄调查人数患病人数患病率(1/万)20~104590.930~443132.940~7029113.050~63710216.0≥60321237.5合计28592277.960岁以上年龄段为高血压的高危年龄段!相对数6901对分类变量汇总后,通常这些频数不能直接比较;分类资料的统计描述与推断中通常使用相对数,而不是绝对数02相对数指标是由两个有联系的指标之比组成常用的相对数指标70BAC比(ratio)率(rate)构成比(proportion)1、相对比71相对比ratio含义:两个相关联的指标之比特点:无量纲、取值可以超过1;A与B的量纲可以相同也可以不同,但是A与B互不包含计算公式:常用指标有:性别比、每千人口的医生数、动态数列分析指标等2、构成比72构成比proportion含义:反映事物内部某个部分占总体的比重;分子包含在分母中计算公式:特点:无量纲、在0~1间取值、不独立性、可加性常用指标有:性别构成、疾病构成、年龄构成、职业构成等3、率73率rate含义:反映某一时间段内,某一事件出现的机会大小(近似于一段时间内发生某事件的平均概率)特点:多来源于随访性资料、分母中含有时间定义、取值有时会超过1(时间取半年、半月)计算公式:常用指标有:发病率、死亡率、出生率等应用相对数的注意事项74防止概念混淆;分析时不能以构成比代替率正确地合并估计率(平均率或合计率)计算相对数的分母一般不宜过小相对数比较时要注意可比性防止概念混淆75并非所有含“率”的指标都表达是发生的可能性大小,很多情况下这些含“率”的指标是相对比例如:某年某市高血压发病情况某年某市畸胎发病情况季节发病人数百分比(%)春1010.00夏2020.00秋3030.00冬4040.00季节畸胎例数百分比(%)春1010.00夏2020.00秋3030.00冬4040.00proportionvs.rate相对数比较时的可比性77科室甲院乙院出院人数治愈人数治愈率(%)出院人数治愈人数治愈率(%)内科87629533.6732910431.61外科30529295.7470265793.59妇科56449287.2359150184.77儿科32930191.4926323388.59合计2074138066.541885149579.314、率的标准化781出现这种矛盾现象的原因在于两院不同科室病例构成不同2甲院以内科病例居多,乙院却以外科病例居多,而外科病例的治愈情况较内科好得多,造成乙院的治愈人数较多,在合计时乙院的总治愈率高于甲院3可见这两组资料内部的构成不同(不同的科室治愈率是不同的),可比性差,不可直接比较总治愈或合计治愈率率的标准化79采用统一的标准对内部构成不同的各组频率进行调整,而后对比各组标准化率的方法称为率的标准化法调整后的率为标准化率,简称标化率(standardrate),或调整率(adjustedrate)标准化的目的是使得不同构成的各组间比较时具有可比性;其做法是对那些在各组间分布不均衡,并且可能对研究结果造成影响的因素(混杂因素)进行调整、校正,使得它们对结果的影响在各组间一致常见的混杂因素有年龄、性别、病情等率的标准化80淋巴结转移甲医院乙医院病例数生存数生存率(%)病例数生存数生存率(%)无453577.7730021571.67有71045068.38834250.60合计75548564.2438325767.10标准化率的计算8121率的标准化的方法通常有直接与间接法两种两种方法的使用条件不同直接标准化率82231已知各构成组分的率时(或已知各组分的观察单位数与各组分观察阳性数),可采用该法在用直接标准化法计算标准化率(标化率)时要选择一个“标准人群”,例如:标准人口、标准年龄构成,等该标准不可随便选择,一般选用标准的方法有三种直接标准化率——标准选取83将要比较的两组资料合并后作为共同的标准将要比较的两组中任意一组作为共用标准选择一个有代表性的、内部构成相对稳定的较大人群作为标准;例如全国人口、全省人口直接标准化率84腋下淋巴结转移标准人口数Ni(ni=n甲+n乙)甲院乙县原生存率pi原生存率pi无34577.7771.67有79368.3850.60合计1138期望生存人数ei=nipi811期望生存人数ei=nipi649247401

×=268

×=542使用合并的人口数Ni作为标准人口甲院标化生存率=811/1138=71.23%乙院标化生存率=649/1138=56.99%排除了两院病例淋巴结转移情况不同后,甲院的生存情况较乙院好直接标准化率85直接标准化法的一般公式:求得人群不同构成标准人口ni与原构成的率pi时,标化率p’:标准化法的注意事项86通常在不同群体间的内部构成不同时,如果欲对它们进行相互比较,可以考虑采用标准化法常见的内部构成因素有:年龄、性别、病情等因素标准化率并不是本身的“真值”,而是以标准人口作为参考,对各被标化组进行的调整后得到的相对的“率”,仅仅反映不同的组间的相对水平标准化法的注意事项87标准化率随着标准人群的不同而不同;但是标化率的大小倾向是相同的;通常的“标准人群”有前述几种情况,不可随意选择1对于总体资料,经过标准化后的调整率可以直接比较;而对于样本资料,标化后的率需要作假设检验2如果资料出现“交叉”情况,慎用标准化3三、统计图表88避免冗长的文字叙述,使要表达的内容中心突出,简单明了,便于直观分析和比较它是资料组织、整理的有力工具,方便研究者进行资料的校对1、统计表statisticaltables统计表就是以表格的形式,表达被研究对象的特征、内部构成及研究项目分组之间的数量关系什么是统计表:三大组成(线条、文字、数字)重点突出,简洁明了(一事一表)层次分明(避免层次过多或结构混乱)统计表结构与绘制要求:统计表的结构90线条文字数字线条91三线到五线、只有横线顶线底线分隔线合计线层次线文字92标目备注标题文字93标题(表号+3w)注释纵标目(谓语、宾语)(主语)横标目数字94小数点对齐158.968.50.0…—统计表格的种类95简单表:只有一个分组依据01组合表:有两个或两个以上的分组依据02简单表96186143合计143218甲硝唑42925替硝唑未愈合计治愈药物分组组合表97药物甲医院乙医院总计有效无效合计有效无效合计A40105042850100B351550331750100合计75251007550100200统计图的结构和绘制原则统计图98按照资料的性质与分析目的选择适当的统计图与统计表相似,构成统计图的主要有:标题(图下方)、标目(坐标轴上)、坐标轴(5:7)、图形、图例等坐标轴如果没有特殊要求最好从0开始线图中各个点的连接采用线段,不作外延城、郊89-98年糖尿病死亡情况99地区89909192939495969798城4.454.774.655.645.786.867.457.738.9110.59郊2.122.462.893.563.874.124.284.595.326.22线图100线图101用线段的上升或下降表示某事物随另外一个事物变化的趋势(普通线图)或变化的相对速度(半对数线图)绘制线图时应注意以下几点时间一般绘在横轴,指标数据绘在纵轴图形的长宽比例要适当,其长宽比例大致为10:7一般情况下,纵轴数据下端应从“0”开始,以便于比较。数据与“0”之间的间距过大时,可以采取折断的符号将纵轴折断普通线图与半对数线图102普通线图的纵坐标为算术尺度,刻度是等间距的;半对数线图的纵坐标为对数尺度,刻度间是等比例的(呈倍数变化)普通线图用于反映一个变量随另一个变量的变化的趋势;半对数线图则反映一个变量随另一个变量变化的相对速度壹贰103两种疾病15年的死亡率变化疾病种类死亡率(1/10万)1975198019851990痢疾1.450.820.230.14百日咳0.220.050.020.01线图vs.半对数线图104线图vs.半对数线图105将线图中的纵坐标转换为对数值,而横坐标尺度仍为算术值不变,这样的线图称为半对数线图依据对数值的特点,任意两个点纵坐标值之差可以看作相同底数的幂次之差,体现了事物发展的相对速度所以线图反映指标随时间变化的趋势和改变的绝对幅度,而半对数线图则反映变化的趋势与相对速度020103某年某地三种疾病的死亡率106死因死亡率(1/10万)肺结核27.4心脏病83.6恶性肿瘤178.2直条图1071绘制时,各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图32有单式条形图、复式条形图等形式用宽度相同的条形的高度或长短来表示各独立分类数据的大小108某年某地120名20岁健康男大学生身高身高例数比例(%)162~21.67164~32.50166~108.33168~1310.83170~1915.83172~2823.33174~2016.67176~108.33178~108.33180~43.33182~18410.83直方图109用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图设定直方图下的总面积等于1直方图vs.直条图110STEP1STEP2STEP3STEP4条图是用条形的长度或高度表示各类别频数的多少,其宽度是固定的,没有意义直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数,宽度则表示各组的组距,其高度与宽度均有意义直方图的各矩形通常是连续排列,不同分组间不可调换;条形图则是分开排列,通常情况下任意两个或多个条块间可以相互调换条形图主要用于展示独立分组变量的数值大小,直方图则主要用于展示定量变量的频数分布两种脱落牙的再植效果111脱落方式成功良好较好失败合计嵌入式脱位牙121212440脱落牙277131057合计3919251497百分圆图112百分条图113构成图114包括百分条图和圆图分别是用矩形以及圆形内各部分的面积来表示总体或样本中各组成部分所占的比例,即内部构成问题散点图115以点的密集程度和趋势表示两个变量间的关联密切程度与关联方向统计图表小结116231统计图表是统计描述的得力工具统计表展现精确的数值指标但不够直观;统计图令人映象深刻却不够精确两者通常一起结合使用四、正态分布117最早是由法国数学家德.莫阿弗尔(A.de.Moivre,1667—1754)于1733年提出(TheDoctrineofChances,1738);C.F.高斯(CarlFriedrichGauss,1777—1855)则将其成功推导(Theoryofmotionofthecelestialbodiesmovinginconicsectionsaroundthesun,1809),用于使得正态分布广为人知,故又称为GaussDistribution许多现象都可以由高斯分布来描述:例如,在生产条件不变的情况下,抗压强度、口径、长度等指标;同一种生物体的身长、体重等指标;同一种种子的重量;测量同一物体的误差;弹着点沿某一方向的偏差;某个地区的年降水量;以及理想气体分子的速度分量,等等。于是人们将正常现象的数值满足的分布称为“NormalDistribution”10DeutscheMark118直方图→钟形曲线119

随着组段的无限细分、样本含量的无限增加,原本崎岖不平的直方图的轮廓逐渐变得平整,以至于形成一条光滑的连续曲线——正态分布曲线

Probabilitydensityfunction正如数学曲线中x与y严格的对应关系,在正态分布曲线坐标轴上的点x,y也有严格的数学对应关系:1上式中2f(x)=随机变量X的概率密度函数3=正态随机变量X的总体均数4=正态随机变量X的总体方差5=3.1415926;e=2.71828x=随机变量的取值(-<x<)6随机变量x~N(m,s2)121则称X服从正态分布,记作x~N(,2),其中:为分布的均数,为分布的标准差。如果随机变量X的概率密度函数满足:方差相等、均数不等的正态分布图示122P2P131P32均数相等、方差不等的正态分布图示12332

1正态分布的图形特征124单峰分布;高峰在均数处;两边沿横坐标轴无限延伸,理论上永远不与之相交01以均数为中心,均数两侧完全对称;在m±s处有拐点(在该范围内是凸的,其它范围内是凹的),表现为关于均数完全对称的钟形曲线。02正态分布有两个参数(parameter),总体均数决定了正态分布的高峰位置,所以它是正态分布的位置参数;而总体标准差决定了正态分布的分布跨度,所以它是正态分布的形状参数。03总体均数增大,分布向横坐标右侧平移;反之,向右平移;如果总体标准差增大,分布变得矮胖,反之变得高瘦04正态分布曲线下面积的含义125曲线下面积是指由分布曲线与横坐标或者横坐标上的特定区间所围成的区域的面积abxf(x)曲线下面积曲线下面积曲线下面积正态分布曲线下面积的含义126对于连续型的计量资料,x可以取某个区间或整条数轴上的任意点值;对于横坐标轴上的任意特定点,其所对应的曲线下面积都等于0(因为线的面积等于0)x=axf(x)正态分布曲线下面积的含义127设定曲线下面积等于1,对于横坐标轴上的某个区间(a<x<b)的曲线下面积,其含义为x取该区间值时对应的概率有多大;其数值的大小用分布函数式F(X)表示abxf(x)曲线下的面积的计算128

对于任意一个区间的曲线下面积,在知道变量值x对应的概率密度函数f(x)后,都可以根据微积分的方法求出其面积的大小abxf(x)正态曲线下的面积规律129X轴与正态曲线所夹面积恒等于1(相当于x的所有取值都在横坐标轴上)

。对称区域面积相等F(-,-X)F(+X,

)

F(+X,

)=F(-,-X)正态曲线下的面积规律130

-3-2-++2+3

F(-,

-3

)=0.0013F(-,

-2

)=0.0228F(-,

-1

)=0.1587F(-,

)=0.5F(-,

+3

)=0.9987F(-,

+2

)=0.9772F(-,

+1

)=0.8413F(-,)=1正态曲线下的面积规律131正态分布的一个显著特点:其曲线下面积完全决定于以标准差为单位从点x到µ的标准离差(标准离差的含义为标准差的倍数)正态曲线下的面积规律13201.正态曲线下面积总和为102.正态曲线关于均数对称;对称的区域内面积相等03.对任意正态曲线,按标准差为单位,对应的面积相等04.-1.96~+1.96内面积为95%05.-2.58~+2.58内面积为99%计算曲线下面积的问题133虽然服从正态分布的指标,只要知道均数与标准差,就可用微积分的方法求得任意范围曲线下面积,但此积分是困难的,这给实际使用带来诸多不便。例如:当=0,=1时,在(-1.96,1.96)范围内正态变量取值概率为0.95,而当=0,=1.96时,在(-1.96,1.96)范围内正态变量取值概率就不是0.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论