医学统计学:3-正态分布及其应用_第1页
医学统计学:3-正态分布及其应用_第2页
医学统计学:3-正态分布及其应用_第3页
医学统计学:3-正态分布及其应用_第4页
医学统计学:3-正态分布及其应用_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

正态分布及其应用

NORMALDISTRIBUTION主要内容正态分布的概念及其特征标准正态分布医学参考值范围及其制定第一节正态分布

(normaldistribution)

表2-2某地140名正常男子红细胞数的频数表

红细胞数频数频率(%)累积频率(%)3.80~

21.41.44.00~

64.35.74.20~

117.913.64.40~

2517.931.54.60~

3222.954.44.80~

2719.373.75.00~

1712.185.85.20~

139.395.15.40~

42.998.05.60~

21.499.45.80~

6.0010.7100.0合计140-100.0

图2-1140名正常男子红细胞计数的直方图

频数f红细胞数X频率密度频率/组距直方图形状相同,使各直方的面积相应于频率,其和为1(100%)图3-1某地成年男子红细胞数的分布逐渐接近正态分布示意图

一、正态分布(NormalDistribution)

频率密度各直条的面积恰好等于名自组段的频率例数较大的情况下,频率近似地看作概率正态分布的概念又称为Gauss分布(Gaussiandistribution)。当原始数据的频数分布图的观察人数逐渐增加且组段不断分细时,图3-1中的直条就不断变窄,其顶端则逐渐接近于一条光滑的曲线。这条曲线形态呈钟形,两头低、中间高,左右对称,近似于数学上的正态分布。正态分布曲线的数学函数表达式如果随机变量X的分布服从概率密度函数和概率分布函数则称X服从正态分布,记作X~N(μ,σ2),μ为X的总体均数,σ2为总体方差二、正态分布的特征钟型曲线,以μ为中心,左右完全对称,两端与X轴永不相交在X=μ处,f(X)取最大值,X越远离μ,f(X)越小。曲线下面积分布有规律X轴与正态曲线所夹面积恒等于1或100%;区间μ±σ的面积为68.3%,区间μ±1.96σ的面积为95%,区间μ±2.58σ的面积为99%.两个参数决定位置和变异:μ和σ

图3-2正态分布曲线下的面积

图3-2正态分布曲线下的面积

图3-3三种不同均值的正态分布

两个参数决定位置和变异是位置参数(即平均水平),决定分布曲线在横轴的偏倚位置σ是变异参数,决定分布曲线的形态图3-4三种不同标准差的正态分布标准正态变换正态分布是一个分布族,对应于不同的参数

会产生不同位置、不同形状的正态分布。sm对任意一个服从正态分布N(μ,σ2)的随机变量,令:都可转换为标准正态分布N(0,12)二、标准正态分布

(StandardNormalDistribution)

对任何参数的正态分布,都可以通过变量变换

化成和的标准正态分布。通常,可以利用标准正态分布表求出与原始变量X有关的概率值。

图3-5标准正态分布及曲线下面积

标准正态分布z的概率密度函数为即将X~N(μ,σ2)的正态分布转化为z~N(0,12)的标准正态分布,z称为标准正态变量,其分布函数为根据上述公式制成附表1,欲求一定区间标准正态分布曲线下的面积只需查表即可,且

φ(z)=1-φ(-z)φ(u)例:已知X服从均数为μ标准差为σ的正态分布,试估计:

(1)X取值在区间μ±1.96σ内的概率;

(2)X取值在区间μ±2.58σ内的概率。求X取值在相应区间内的概率,首先要确定区间两端点所对应的z值查表,得φ(-1.96)=0.025,则z取值在(-1.96,1.96)的概率为0.95,即X取值在区间μ±1.96σ内的概率为0.95。95%99%例3-1:正常成年男子的红细胞计数近似服从正态分布,假设均值为4.78×1012/L,标准差为0.38×1012/L,试估计红细胞数在4×1012/L以下所占的比例。先将4(×1012/L)变换为相应的μ值,即于是问题就转化成为求标准正态分布z值小于-2.05概率。查附表1得φ(-2.05)=0.202,表明成年男子的红细胞数低于4×1012/L的人约占总体的2%。求出在4×1012/L~5.5×1012/L范围内所占的比例即求P(4.0≤X≤5.5)例3-2上节课的例题中已计算出101名正常成年女子的血清总胆固醇均数为4.03mmol/L,标准差为0.659mmol/L。试估计该单位:正常成年女子血清总胆固醇在4.00mmol/L以下者占正常女子总人数的百分比;在4.00~5.00mmol/L之间者占正常女子总人数的百分比;在5.00mmol/L以上者占正常女子总人数的百分比。由于此例样本含量较大,可用样本均数、标准差代替总体均数和标准差查附表1得φ(-0.05)=?,如何求φ(1.47)?正态分布的和与差的分布服从正态分布的随机变量X1,X2的和(X1+X2)与差(X1-X2)的分布仍是正态分布,且有如下性质:不论X1和X2独立与否,X1、X2的和与差的均数就等于均数的和与差,即E(X1±X2)=E(X1)±E(X2)当X1和X2独立时,X1、X2的和与差的方差都等于方差的和,Var(X1±X2)=Var(X1)+Var(X2)三、正态分布的应用正态分布除了可估计频数分布外,还是许多统计方法的基础,并可应用于质量控制及制定医学参考值范围。

一、基本概念医学参考值:通常指包括绝大多数正常人的解剖、生理、生化、免疫及组织代谢产物的含量等各种生理生化指标常数,也称正常值。医学参考值范围:由于存在个体差异,生物医学数据并非常数而在一定范围内波动,故采用医学参考值范围作为判定正常和异常的参考标准。主要目的:用于临床疾病诊断。

第三节医学参考值范围

(MedicalReferenceRange)通常使用的医学参考值范畴有:90%,95%和99%。最常用的是95%参考值范围。

确定95%参考值范围示意图

二、医学参考值范围的制定方法

(一)选择一定数量的参照样本

选择参照样本必须要考虑可能影响所要制定参考值范围指标的各种疾病及干扰因素,将这些人排除在外。例如在制定血清谷-丙转氨酶活性正常值时,选取正常人的条件为肝、肾、心、脑、肌肉等无器质性疾患,近期无特殊用药史等。同时可能需要考虑性别、年龄、民族、地理位置等因素。样本含量一般要较大,如n>120。(二)对选定的参照样本进行准确的测定为保证原始数据可靠,要严格控制检测误差,包括分析仪器的灵敏度、试剂的纯度、操作技术及标准的掌握等,同时必须对测量条件做出统一的规定和说明,如临床化验参考值范围的制定,应对收集样本时的环境和生理条件(温度、季节、体育活动强度、饮食、妊娠等),收集、转运和储藏样品的方法及时间有明确的规定。(三)决定取单侧范围还是双侧范围值

有些指标如白细胞数过高或过低均属异常(a),故其参考值范围需要分别确定下限和上限,称作双侧。有些指标如24小时尿糖含量仅在过高(b)、肺活量仅在过低时为异常(c),只需确定其上限或下限,称作单侧参考值范围。(a)白细胞数参考值范围(b)24小时尿糖参考值范围(c)肺活量参考值范围(四)选择适当的百分范围(95%or99%)参考值的百分范围应根据资料的性质和研究目的选择,它与诊断阈值有确定的关系。百分范围的不同将导致不同的假阳性率和假阴性率。图3-6正常人和病人数据分布重叠(五)估计参考值范围的界限参考值范围估计主要有正态分布法和百分位数法。

1.百分位数法:适用于任何分布类型的资料,尤其是偏态分布资料,要求样本含量比正态分布法要多(不低于100)。计算公式:双侧1-α参考值范围:P100α/2~P100-100α/2

单侧1-α参考值范围:>P100α或<P100-100α双侧95%医学参考值范围是(P2.5

,P97.5

),单侧范围是P95以下(如人体有害物质如血铅)或P5以上(如肺活量)百分范围(%)

单侧

双侧

下限

上限

下限

上限95

P5

P95

P2.5

P97.599

P1

P99

P0.5

P99.5

表3-2参考值范围所对应的百分位数

例3.4为该地区50岁~60岁女性高血脂诊断与治疗提供参考依据,试估计血清甘油三脂含量的95%单侧参考值范围。甘油三脂频数累积频数累积频率(%)0.10~27274.30.40~16919631.10.70~16736357.61.00~9445772.51.30~8153885.41.60~4258092.11.90~2860896.52.20~1462298.72.50~462699.42.80~362999.83.10~1630100.0

合计630--百分范围(%)

单侧

双侧

下限

上限

下限

上限95

P5

P95

P2.5

P97.599

P1

P99

P0.5

P99.5即95%单侧参考值范围为小于2.098mmol/L。2.正态分布法首先要对资料进行正态性检验,且要求样本含量足够大(n≥100)。计算公式如下:双侧1-α参考值范围:单侧1-α参考值范围:百分范围(%)

单侧

双侧

下限

上限

下限

上限95

99

表3-3参考值范围所对应的正态分布区间参考值范围(%)单侧双侧800.841.28901.281.64951.641.96992.332.58表2-7z界值表

例3.5若已算得某地正常成年男子红细胞数的均数为4.78×1012/L,标准差为0.38×1012/L,试估计该地成年男子红细胞数的95%参考值范围。下限:上限:例:估计正常成年女子血清总胆固醇的95%参考值范围,已知均数=4.03mmol/L,S=0.659mmo/L,z0.05/2=1.96,故:确定为双侧,下限:上限:练习已知正常成年女子血清总蛋白含量近似服从正态分布。现在确定成年女子血清总蛋白含量参考值范围,在某地抽取了“正常”成年女子200人,测量其血清总蛋白含量,计算得均值为=74.2g/L,标准差S=3.6g/L。试估计该地成年女子血清总蛋白含量的95%参考值范围。

小结

1.标准差与均数结合能够完整地描述一个正态分布。对任何参数的正态分布,都可以通过一个简单的变量变换化成标准正态分布。

2.利用正态分布可以很容易地确定其数值出现在任意指定范

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论