正态分布及应用_第1页
正态分布及应用_第2页
正态分布及应用_第3页
正态分布及应用_第4页
正态分布及应用_第5页
已阅读5页,还剩63页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Medical StatisticsDepartment of Epidemiology & Biostatistics School of Public Health Nanjing Medical University医学统计学1Review:统计学和医学统计学的基本概念建立医学统计思维医学统计学的内容频数分布描述集中位置的指标因为变异,世界才变得如此丰富多彩!2Human Genome Project 人类基因组计划(1990-)3The Beginning“We have just started the real journey towards fully understanding

2、 biological diversities around us from its fundamental building blocks, the DNA”456黑猩猩与人染色体差异1.23%(Science, 2002)7同种动物之间的染色体差异8双胞胎之间的染色体差异9个体变异是统计学应用的前提个体变异抽样误差统计推断10平均数应用的注意事项同质的资料计算平均数才有意义。均数适用于:单峰对称分布的资料几何均数适用于:对数变换后单峰对称的资料中位数适用于:任何分布资料,有不确定值的资料11例5 只用平均数描述资料的弊病甲组 26 28 30 32 34 甲均数30kg乙组 24 27 3

3、0 33 36 乙均数30kg丙组 26 29 30 31 34 丙均数30kg甲乙丙图2.2 三组儿童体重的离散程度122.3 描述离散程度的指标变异度极差(Range)四分位数间距(interquartile range)方差(Variance)标准差(Standard Deviation)变异系数( coefficient of variation )13离散趋势的描述极差、四分位数间距全距(range),极差 R = maxmin四分位数间距(inter-quartile range) QU QL P75 P 2514离散趋势的描述方差方差(variance) 15离散趋势的描述标准差

4、标准差(standard deviation, sd) n-1: 自由度(degree of freedom)16甲组 26 28 30 32 34 乙组 24 27 30 33 36 丙组 26 29 30 31 34 极差 方差 标准差甲组 8 10.00 3.16乙组 12 22.50 4.74丙组 8 8.50 2.9217离散趋势的描述变异系数变异系数(coefficient of variation, CV)排除了平均水平的影响,并取消了单位。因此变异系数常用于:比较度量衡单位不同的两组或多组资料的变异度比较均数相差悬殊的两组或多组资料的变异度。 18不同指标间变异度的比较19正确

5、应用(1)算术均数:适用于单峰对称分布资料;几何均数:适合于作对数变换后单峰对称分布资料;中位数和百分位数:适用于任何分布的资料;中位数和百分位数在样本含量较少时不稳定,越靠两端越不稳定;中位数在抗极端值的影响方面,比均数具有较好的稳定性,但不如均数精确。因此,当资料适合计算均数或几何均数时,不宜用中位数表示其平均水平。不同质的资料应考虑分别计算平均数。20正确应用(2)标准差的基本内容是离均差,它显示一组变量值与其均数的间距,故标准差直接地、总结地、平均地描述了变量值的离散程度。在同质的前提下,标准差大表示变量值的离散程度大,即变量值的分布分散、不整齐、波动较大;反之,标准差小表示变量值的离

6、散程度小,即变量值的分布集中、整齐、波动较小。变异系数派生于标准差,其应用价值在于排除了平均水平的影响,并消除了单位。21平均数与变异度均数标准差(min,max)中位数四分位数间距 (min,max)变异度小,则均数代表性好!变异度大,数据分散,则均数代表性差!平均数所表示的集中性与变异度所表示的离散性,从两个不同的角度阐明计量资料的特征!22总结 :每个观察指标均有其特定的变异规律;描述变异:图形描述统计量描述平均数:均数、几何均数、中位数变异度:标准差、四分位数间距、变异系数、极差不同分布的指标,用不同的统计量描述;用平均数与变异度共同描述。23第三章 正态分布及其应用 Normal d

7、istribution and its applications 统计学中最重要的理论分布之一 243.1 正态分布Normal distribution德国数学家Gauss发现最早用于物理学、天文学Gaussian distribution25(a)(b)(d)(c)Extension: 频数分布变量分布身高的分布26概率密度函数和分布函数f(x)x27正态分布的定义如果随机变量X的概率密度函数 则称X服从正态分布,记作 XN(,2), 其中, 为分布的均数, 为分布的标准差。 (- X +) 28正态分布图示x0.1.2.3.4f(x)29方差相等、均数不等的正态分布图示31230均数相等

8、、方差不等的正态分布图示21331 正态分布的特征正态分布有两个参数(parameter),即位置参数(均数)和变异度参数(标准差)。高峰在均数处;均数两侧完全对称;正态分布有两个拐点; 正态曲线下的面积分布有一定的规律;32正态曲线下的面积规律X轴与正态曲线所夹面积恒等于1 。对称区域面积相等。S(-,-X)S(X,)S(-,-X)33对称区域面积相等。S(-x1, -x2)-x1 -x2 x2 x1S(-x1,-x2)=S(x2,x1)正态曲线下的面积规律34正态曲线下的面积规律 -4 -3 -2 -1 0 1 2 3 4 -3 -2 - + +2 +3 S(-, -3)=0.0013S(

9、-, -2)=0.0228S(-, -1)=0.1587S(-, )=0.5S(-, +3)=0.9987S(-, +2)=0.9772S(-, +1)=0.8413S(-, )=135正态曲线下的面积规律 -4 -3 -2 -1 0 1 2 3 4 -3 -2 - + +2 +3 1-S(-3 , +3)=0.00261-S(-2 , +2)=0.04561-S(- , +)=0.317436正态曲线下的面积规律 -4 -3 -2 -1 0 1 2 3 4 -3 -2 - + +2 +3 S(-, -3)=0.0013S(-, -2)=0.0228S(-, -1)=0.1587S(-, )=

10、0.5S(-, +3)=0.9987S(-, +2)=0.9772S(-, +1)=0.8413S(-, )=137正态曲线下的面积规律-3 -2 - + +2 +3 S(-, -3)=0.0013S(-, -2)=0.0228S(-, -1)=0.1587S(-, -0)=0.5S(-3, -2)=0.0215S(-2, -1)=0.1359S(-1, )=0.3413 -4 -3 -2 -1 0 1 2 3 4 38正态曲线下的面积规律-3 -2 - + +2 +3 S(-, -3)=0.0013S(-, -2)=0.0228S(-, -1)=0.1587S(-, -0)=0.5S(-3,

11、 -2)=0.0215S(-2, -1)=0.1359S(-1, )=0.3413 -3 -2 -1 0 1 2 339正态曲线下的面积规律 -3 - + +3 -2 +2 S(-3, -2)=0.0215S(-2, -1)=0.1359S(-1, )=0.3413S(-, -3)=0.0013S(-, -2)=0.0228S(-, -1)=0.1587S(-, -0)=0.540正态曲线下的面积规律正态分布的一个显著特点 其曲线下面积完全决定于以标准差为单位从点x到的离差。41231X2=-2X2X1=-1X1X3=-3X30.15870.15870.158742正态曲线下的面积规律-1.9

12、6+1.962.5%2.5%95%43正态曲线下的面积规律-1.64+1.645%5%90%44正态曲线下的面积规律-2.58+2.580.5%0.5%99%45正态曲线下的面积规律正态曲线下面积总和为1;正态曲线关于均数对称;对称的区域内面积相等;对任意正态曲线,按标准差为单位,对应的面积相等; -1.64 +1.64内面积为90%; -1.96 +1.96内面积为95%; -2.58 +2.58内面积为99%。小于-3的面积为 0.13%;小于-2的面积为 2.28%;小于- 的面积为15.87%。463.2 标准正态分布标准正态分布(standard normal distributio

13、n)是均数为0,标准差为1的正态分布。记为N(0,1)。标准正态分布是一条曲线。概率密度函数: (- u +) 47正态分布转换为标准正态分布若 XN(,2),作变换: 则u服从标准正态分布。 u称为标准正态离差(standard normal deviation)48标准正态分布曲线下面积(u) u 0.00 -0.02 -0.04 -0.06 -0.08-3.00.00130.00130.00120.00110.0010-2.50.00620.00590.00550.00520.0049-2.00.02280.02170.02070.01970.0188-1.90.02870.02740.

14、02620.02500.0239-1.60.05480.05260.05050.04850.0465-1.00.15870.15390.14920.14460.1401-0.50.30850.30150.29460.28770.2810 00.50000.49200.48400.47610.46810u49总结正态分布是描述个体变异的重要分布之一,也是统计学理论中的重要分布之一;正态分布是一簇分布,由两个参数决定:均数和标准差;正态分布曲线下的面积是有规律的,且与标准正态分布曲线下的面积对应(以标准正态离差为单位)。503.3 正态分布的应用估计频数分布质量控制参考值范围的建立51估计频数分布

15、Example6:某市120名12岁男童身高均数142.67cm,标准差为s=6.00cm。设该资料服从正态分布,试求该地12岁男童身高在132cm以下者占该地12岁男童总数的比例。 首先计算标准离差:查标准正态分布表: (-1.78)=0.0375结果:估计低体重儿的比例为3.75%.52质量控制质量控制的意义监控日常工作、科研过程、生产过程中误差的变化,分析变化的趋势是否出现异常,从而引起警觉和注意,以便分析原因,并及时采取措施。53质量控制图(quality control chart)UCL (上控制限)UWL(上警戒限)CL (中心线)LWL(下警戒限)LCL (下控制限)样本编号、

16、取样时间M+3SDM+2SD MM-2SDM-3SD54质量控制图(quality control chart)UCL (上控制限)UWL(上警戒限)CL (中心线)LWL(下警戒限)LCL (下控制限)样本编号、取样时间M+2.58SDM+1.96SD MM-1.96SDM-2.58SD55质量控制图(quality control chart) 123456789101112131415取样时间M+3SDM+2SD MM-2SDM-3SD56建立参考值范围(reference interval)参考值范围又称正常值范围(normal range)什么是参考值范围:是绝大多数正常人的某观察指

17、标所在的范围绝大多数:90%,95%,99%等等。确定参考值范围的意义:用于判断正常与异常。“正常人”的定义:排除了影响所研究的指标的疾病和有关因素的同质的人群。57参考值范围确定的原则选定足够例数的同质的正常人作为研究对象 控制检测误差判断是否分组(性别,年龄组) 单、双侧问题 选择百分界值(90%,95%) 确定可疑范围58参考值范围的估计方法:正态分布法12.5%2.5%95%-1.96+1.9659参考值范围的估计方法:百分位数法P2.5P97.560参考值范围的估计方法方法双侧 单侧下限单侧上限正态分布法百分位数法 P2.5P97.5 P5 P9561参考值范围的计算例7: 14岁女孩身高的95参考值范围62例8:某地调查了360名成年男子的平均血红蛋白 13.45(g/100ml),标准差s=0.71(g/100 ml),试估计该地成年男子血红蛋白95的参考值范围.计算95参考值范围:下限: 1.96s=13.451.960.71 =12.06(g/100ml)上

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论