离散趋势统计描述_第1页
离散趋势统计描述_第2页
离散趋势统计描述_第3页
离散趋势统计描述_第4页
离散趋势统计描述_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、河南大学医学院授课教案首页预防医学 教研室 教研室主任签名课程名称医学统计学授课对象2005 级临床医学专业章节名称第三章 离 散趋势的统 计描述课程教师乔玲教材医学统计学(第 4 版,马斌荣主编)教学手段 课件讲授学时数3授课时间 地点14#楼 201教学目的1、衡量变异程度的指标2、掌握标准正态分布表的查找及正态分布的应用。3、熟悉标准正态分布的概念。4、了解正态分布的概念,正态分布的两个参数,正态曲线下面积分布规律。教学过程与时 间分配1 衡量变异程度的指标( 60 分钟) 练习 30 分钟2 正态分布及应用( 30 分钟)3 医学参考值范围,及制定的方法( 10 分钟) 练习 20 分

2、钟教学重点难点重点:变异指标的应用; 正态曲线下的面积规律;标准正态分布表的使用。 难点: 正态分布的概念、正态曲线与标准正态曲线面积的对应关系。基本概念极差,四分位数间距 / 离均差平方和,方差,变异系数,正态分布,正态分布 的两个参数,医学参考值范围练习与作业完成课后练习 123 理解和复习正态分布及应用参考资料其他版本医学统计学备注教研室审查意见主任签字年月日 注:教后记放在讲义最后一页。基本内容第三章 离散程度的统计描述指标第一节 变异指标描述数值变量资料频数分布的另一主要特征是离散程度,用变异指标表示。 只有把集中指标和离散指标结合起来才能全面反映资料的分布特征。 常用变异指 标有全

3、距、四分位数间距、方差、标准差、变异系数。1全距(range,简记为 R):亦称极差,是一组同质观察值中最大值与最小 值之差。它反映了个体差异的范围,全距大,说明变异度大;反之,全距小,说 明变异度小。用全距描述定量资料的变异度大小, 虽然计算简单, 但不足之处有: 只考虑最大值与最小值之差异, 不能反映组内其它观察值的变异度; 样本含 量越大, 抽到较大或较小观察值的可能性越大, 则全距可能越大。 因此样本含量 相差悬殊时不宜用全距比较。2四分位数间距( quartile,简记为 Q):为上四分位数 QU(即 P75)与下四 分位数 QL(即 P25)之差。四分位数间距可看成是中间 50%观

4、察值的极差,其数值 越大,变异度越大,反之,变异度越小。如例 2.7 中,已求得 QU=P75=35.82 小 时, QL=P25=15.34小时,则四分位数间距 Q= QU-QL=35.82-15.34=20.48(小时)。 由于四分位数间距不受两端个别极大值或极小值的影响, 因而四分位数间距较全 距稳定,但仍未考虑全部观察值的变异度, 常用于描述偏态频数分布以及分布的 一端或两端无确切数值资料的离散程度。3方差( variance):为了全面考虑观察值的变异情况,克服全距和四分位 数间距的缺点, 需计算总体中每个观察值 X 与总体均数 的差值 (X- ),称之 为离均 差。 由于 X(-)

5、=0 ,不 能反映 变异 度的大 小, 而用离 均 差平方和2X(- )2(sum of squares of deviations from mean反) 映之 ,同时还应考虑观察值个数 N 的影响,故用式( 2.9)即总体方差 2 表示。3.1)2 (X)2N在实际工作中,总体均数 往往是未知的,所以只能用样本均数 X 作为总22体均数 的估计值,即用 (X X)2代替 (X ) 2 ,用样本例数 n 代替 N,但再按式( 2.9)计算的结果总是比实际 2小。英国统计学家 W.S.Gosset提出用 n-1 代替 n 来校正,这就是样本方差 s2 其公式为:S22(X X)2n13.2)式

6、中的 n-1 称为自由度( degree of freedom)。4标准差( standard deviation):方差的度量单位是原度量单位的平方,将 方差开方后与原数据的度量单位相同。 标准差大,表示观察值的变异度大; 反之, 标准差小,表示观察值的变异度小。计算见公式( 2.11)和( 2.12)。2(3.3)(3.4)(X) 2n(X X)2n12离均差平方和 (X X)2 常用 SS 或 lXX 表示。数学上可以证明:( X)2SS lXX (X X)2 X 2 N , 所以,样本标准差的计算公式可写成:直接法:X 2 ( X)2S n 1 n( 3.5)fX 2 ( fX)2加权

7、法:S f (3.6)5.变异系数( coefficient of variation,简记为 CV):常用于比较度量单位不同或均数相差悬殊的两组或多组资料的变异度。其公式为CV XS 100%3.7)第二节 正态分布及其应用学时分配: 2 学时掌握内容:1、正态分布的概念、特征和标准正态分布2、正态分布的应用正态分布的概念和特征(一)、正态分布的概念由表 1.1 的频数表资料所绘制的直方图,图 3.1(1)可以看出,高峰位于中 部,左右两侧大致对称。我们设想,如果观察例数逐渐增多,组段不断分细,直 方图顶端的连线就会逐渐形成一条高峰位于中央(均数所在处) ,两侧逐渐降低 且左右对称,不与横轴

8、相交的光滑曲线图 3.1(3)。这条曲线称为频数曲线或频 率曲线,近似于数学上的正态分布 ( normal distribution)。由于频率的总和为 100% 或 1 ,故该曲线下横轴上的面积为 100%或 1。0.50.40.30.20.10(2)图 3.1 频数分布逐渐接近正态分布示意图为了应用方便,常对正态分布变量 X 作变量变换3.1)该 变换 使原 来 的 正 态分 布 转化 为标 准 正态 分 布 (standard normal distribution) ,亦称 u分布。u被称为标准正态变量或标准正态离差 (standard normal deviate)。(二)、正态分布

9、的特征: 1正态曲线( normal curve)在横轴上方均数处最高。 2正态分布以均数为中心,左右对称。3正态分布有两个参数,即均数和标准差 。 是位置参数,当 固定不变时, 越大,曲线沿横轴越向右移动;反之, 越小,则曲线沿横轴越向左 移动。 是形状参数,当 固定不变时, 越大,曲线越平阔; 越小,曲线越 尖峭。通常用 N( , 2 )表示均数为 ,方差为 2 的正态分布。用 N(0,1)表 示标准正态分布。4正态曲线下面积的分布有一定规律。 实际工作中,常需要了解正态曲线下横轴上某一区间的面积占总面积的百分 数,以便估计该区间的例数占总例数的百分数 (频数分布) 或观察值落在该区间 的

10、概率。正态曲线下一定区间的面积可以通过附表 1 求得。对于正态或近似正态 分布的资料,已知均数和标准差,就可对其频数分布作出概约估计。查附表 1应注意:表中曲线下面积为 -到 u的左侧累计面积; 当已知 、 和 X时先按式(3.1)求得 u值,再查表,当 、未知且样本含量 n足够大时, 可用样本均数 X 和标准差 S分别代替 和 ,按u (X X)/ s式求得 u 值,再 查表;曲线下对称于 0的区间面积相等,如区间( -,-1.96)与区间( 1.96,)的面积相等,曲线下横轴上的总面积为 100%或 1正态分布曲线下有三个区间的面积应用较多, 应熟记:标准正态分布时区 间( -1,1)或正

11、态分布时区间( -1, +1)的面积占总面积的 68.27%;标准 正态分布时区间( -1.96,1.96)或正态分布时区间( -1.96 , +1.9)6的面积占总 面积的 95%;标准正态分布时区间(-2.58,2.58) 或正态分布时区间 ( -2.58 , +2.5)8的面积占总面积的 99%。如图 3.2 所示。图 3.2 正态曲线与标准正态曲线的面积分布二 正态分布的应用某些医学现象,如同质群体的身高、红细胞数、血红蛋白量、胆固醇等,以 及实验中的随机误差, 呈现为正态或近似正态分布; 有些资料虽为偏态分布, 但 经数据变换后可成为正态或近似正态分布,故可按正态分布规律处理。1估计

12、正态分布资料的频数分布例 1.10 某地 1993 年抽样调查了 100 名 18 岁男大学生身高( cm ),其均数 =172.70cm,标准差 s=4.01cm,估计该地 18 岁男大学生身高在 168cm 以下者 占该地 18 岁男大学生总数的百分数; 分别求 X 1s、X 1.96s 、 X 2.58s范 围内 18 岁男大学生占该地 18岁男大学生总数的实际百分数, 并与理论百分数比 较。本例, 、 未知但样本含量 n 较大,按式( 3.1)用样本均数 X 和标准差 S分别代替 和 ,求得 u 值,u=(168-172.70)/4.01=-1.17。查附表标准正态曲线 下的面积,在

13、表的左侧找到-1.1,表的上方 找到 0.07,两者相交 处为 0.1210=12.10%。该地 18 岁男大学生身高在 168cm以下者,约占总数 12.10%。其它计算结果见表 3.1表 3.1 100 名 18 岁男大学生身高的实际分布与理论分布Xs身高范围( cm)实际分布理论分布( %)人数百分数( %)X 1s168.69176.716767.0068.27X 1.96s164.84180.569595.0095.00X 2.58s162.35183.059999.0099.002制定医学参考值范围:亦称医学正常值范围。它是指所谓“正常人 ”的解剖、生理、生化等指标的波动范围。制定

14、正常值范围时,首先要确定一批样本含 量足够大的 “正常人 ”,所谓“正常人”不是指“健康人”,而是指排除了影响所研究 指标的疾病和有关因素的同质人群; 其次需根据研究目的和使用要求选定适当的 百分界值,如 80%,90%,95%和 99%,常用 95%;根据指标的实际用途确定单 侧或双侧界值, 如白细胞计数过高过低皆属不正常须确定双侧界值, 又如肝功中 转氨酶过高属不正常须确定单侧上界, 肺活量过低属不正常须确定单侧下界。 另 外,还要根据资料的分布特点,选用恰当的计算方法。常用方法有:(1)正态分布法:适用于正态或近似正态分布的资料。双侧界值: X u S 单侧上界: X u S ,或单侧下界: X u S(2)对数正态分布法:适用于对数正态分布资料。双侧界值: lg 1(Xlgx u Slgx); 单侧上界: lg 1(Xlgx u Slgx) ,或单侧下 界: lg (Xlgx u Slg x)。常用 u 值可根据要求由表 3.2 查出。(3)百分位数法:常用于偏态分布资料以及资料中一端或两端无确切数值 的资料。双侧界值:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论