




已阅读5页,还剩85页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一篇 基本统计方法,第二章 计量资料的统计描述 桂 立 辉 新乡医学院 公共卫生学系 流行病与卫生统计学教研室,第二章 计量资料的统计描述,第一节 频数分布 第二节 集中趋势的描述 第三节 离散趋势的描述 第二节 正态分布 第五节 医学参考值范围的制定,第一节 频数分布,一、离散型定量变量的频数分布 例2-1 1998年某山区96名孕妇产前检查次数资料如下:,第一节 频数与频数分布,一、离散型定量变量的频数分布 例2-1,第一节 频数与频数分布,二、连续型定量变量的频数分布,第一节 频数与频数分布,(1)找最大值和最小值: Xmax=29.64mol/L; Xmin =7.42 mol/L (2)计算全距 (range):亦称极差,简记为R, R= XmaxXmin = 29.64-7.42 =22.22 ( mol/L) (3)确定组段数和组距:一般分为815组。 i=R/10=22.22/10=2.222 (mol/L) ,取2为组距。 第一组段应包括最小值 ,各个组段从本组段的“下限”开始,不包括本组段的上限。最末一组段应包括最大值,同时写出其下限和上限。 (4)列出频数分布表并绘制频数分布图。,第一节 频数与频数分布,第一节 频数与频数分布,第一节 频数与频数分布,第一节 频数与频数分布,频数表的用途: 1.揭示资料的分布特征和分布类型。 2.便于进一步计算统计指标和统计分析处理。 3.便于发现某些特大或特小的可疑值。,第二节 定量变量的特征值,统计描述即用恰当的统计指标描述资料的数量特征。 计量资料的统计描述分为两个方面: 集中趋势(central tendency) 离散趋势(tendency of dispersion),一、描述集中趋势的统计指标,描述计量资料集中趋势的统计指标称平均数(average)。常用的平均数有三种: 1 算术均数(arithmetic mean, ) 2 几何均数(geometric mean,G) 3 中位数(median,M) 4 众数(mode) 5 调和均数(harmonic mean ,H),1.算术均数(arithmetic mean),是n个变量值的数值平均值,即各个变量值之和除以变量值的个数。适用于对称分布资料。,例 测得5名周岁儿童的头围(cm)为:44、45、46、47、48,求其平均头围。,直接法:,加权法(weighting method): 当观察值较多时,可先编制频数表(frequency table),然后用加权法(weighting method) 计算:,1.算术均数(arithmetic mean),=2228/120 =18.57(mol/L),1.算术均数(arithmetic mean),2.几何均数(geometric mean),几何均数是n个变量值的乘积开n次方所得的积。 直接计算法,2.几何均数(geometric mean),例2-5 有5人的血清中某抗体效价分别为1:10、 1:20、 1:40、 1:80、 1:160,求其平均效价。,2.几何均数(geometric mean),加权法,2.几何均数(geometric mean),例2-6,3. 中位数(median),将一组观察值按大小依次排列,位置居中的数即中位数。,3. 中位数(median),百分位数(percentile),3. 中位数(median),百分位数计算公式的推导(示意) 百分位数计算公式的推导过程(内插法) 第x百分位数:,某地205例伤寒患者潜伏期见下表,求平均潜伏期。,(fx),(fL),(L),平均数的应用,三种平均数的应用条件比较,二、描述离散中趋势的特征数,离散趋势(tendency of dispersion) 变异(variation) 例2-11 观察比较3组数据的离散状况。 A组:26 28 30 32 34 B组:24 27 30 33 36 C组:26 29 30 31 34,1. 全距,R = XmaxXmin 全距(range,R)反映了某随机变量的变化范围。 两端的观察值不够稳定,因此全距也不稳定。 全距只考虑了最大值和最小值,其它观察值的变化对其没有影响,即R代表性较差,一般不单独应用,而常与其它变异指标结合应用。,2. 四分位数间距,四分位数间距(quartile,Q)则反映了中间50%观察值的变动范围。 因中间的观察值比较稳定,因此四分位数间距的稳定性优于全距。 全距和四分位数间距都属于点估计值,代表性差,二者常结合使用。,百分位数的计算,百分位数计算公式的推导(示意) 百分位数计算公式的推导过程(内插法) 第x百分位数:,Q=13.12-8.08=5.04(天),3. 方差,n-1称自由度(degree of freedom,),其意义是随机变量能自由取值的个数: = n - 限制条件数。,4. 标准差(standard deviation),总体标准差 样本标准差 直接法: 加权法:,例:5名周岁儿童头围(cm)见下表,试计算S。,标准差的计算直接法,标准差的计算频数表法(加权法),将有关数值代入公式得:,标准差的计算频数表法(加权法),均数相同的4组数值变量资料变异指标的比较,。,变异指标的比较,标准差的应用,1.表示变量值分布的离散程度(或称变异程度); 2.计算变异系数: 3.与均数结合,估计变量值的频数分布范围; 4.计算标准误。,5. 变异系数,CV用于比较两组单位不同或均数相差较大时变量值的变异程度大小。 标准差反映的是各观察值与均数之间平均的绝对差值,但对于不同的指标而言,相同的差值意义却不同。 例:对于一个身高170cm、足长25cm人来说,身高增加2cm与足长增加2cm的意义是大不一样的。因为身高增加2cm只是增加了1.2%,而足长增加2cm却增加了8.0%。显然,相对指标比绝对指标能更好地反映变异程度大小。,5. 变异系数,例:某地某年7岁男童身高均数为121.16cm,标准差为4.31cm;胸围均数为57.71cm,标准差2.82cm;试比较两个指标的变异程度。 身高:CV1= 4.31 / 121.76100%= 3.56% 胸围:CV2= 2.82 / 57.71 100% = 4.89%,变异指标应用条件比较,数值变量资料的统计描述,正态分布的概念和特征 正态分布曲线下面积分布规律 正态分布的应用 制定医学参考值范围 正态分布是许多统计方法的理论基础 质量控制,第四节 正态分布,一、正态分布的概念和特征,一、正态分布的概念和特征,正态分布(normal distribution)是数理统计学中最重要的理论分布。是经典统计学的最重要的理论基础。 医学中许多现象如身高、体重、血压、红细胞数等的频数分布服从正态分布,或近似于正态分布,或经过数据转换可使其符合正态分布,如平方根变换 、对数变换lgx 、平方根反正弦变换arcsin 。 对于偏态分布的资料,当样本量很大时,也可以近似地用正态分布来处理。,一、正态分布的概念和特征,如果以总频数为1,当随机变量X取值为x时的频数可用下式求得: 即随机变量X服从均数为,标准差为的正态分布,记为: XN(,2) f(x)称随机变量X的概率密度函数。,一、正态分布的概念和特征,正态分布以均数所在处频数最多,两侧逐渐减少,但永不为零,左右完全对称,其图形为近似钟形。 正态分布有两个基本参数:和2 为均数,是正态分布的位置参数; 2是方差,为变异度参数,它决定正态分布的形态。2越大,则各变量值平均的离均差越大,变量值的分布较分散,正态曲线越低平(胖); 2越小,则各变量值平均的离均差越小,变量值的分布较集中,正态曲线越瘦高。 有了这两个参数,即可绘制出正态分布的图形。,一、正态分布的概念和特征,例 设某地成年男性身高的均数为170cm,标准差为7cm,成年女性身高的均数为165cm,标准差为5cm,均符合正态分布。试绘制频数分布图并比较二者的异同。 按上式计算X取不同值时的理论频数,结果见下表。,正态分布频数计算表,一、正态分布的概念和特征,将表中频数绘制成频数分布图,一、正态分布的概念和特征,男女身高的频数分布图形的比较: 1.共同点: 男女在不同身高的频数分布均为完全对称的钟形分布,以均数所在处频数最多,两侧逐渐减少。 2.不同点: 位置不同,男性身高的均数大于女性,故图形靠右; 高低不同,男性身高的方差大于女性,故变量值更分散,图形更低平。,二、正态分布曲线下的面积,如果以曲线下的总面积为1,则随机变量X取值范围从-至x所对应的曲线下的面积可用下列积分公式求得: F(x)称随机变量X的概率分布函数,即当随机变量X取值范围为-x时所对应的正态曲线下的面积占总面积的比例,F(x)实际上反映了随机变量X取值范围为-x的概率大小。,二、正态分布曲线下的面积,例 设某地成年男性身高的均数为170cm,标准差为7cm,假设该地共有成年男性10 000人,求该地身高不超过160cm者有多少人?又该地身高在160cm180cm之间者共有多少人?,正态分布曲线下面积的计算,二、正态分布曲线下的面积,即: 身高不超过160cm的人数为: 10 0000.0764=764(人) 身高在160cm180cm之间的人数为: 10 000(0.9236-0.0764) = 10 0000.8472= 8 472(人),标准正态分布,由于不同随机变量的概率分布不同,要求得随机变量X取值范围为-至x的概率需要经过繁琐的计算,从而给实际应用带来困难。 如果将任一正态分布转化为同一个分布,则使问题大大简化。不同正态分布的差别在于其均数和标准差不同,如果把原来的随机变量值用相对数值表示,就可以解决这一问题。,标准正态分布,将各变量值的离均差与标准差比较,即离均差是标准差的多少倍,此值称标准单位(u),即该变量值在平均数之上或之下多少个标准差。 例如,如果某成年男性的身高为177cm,则离均差=177-170=7(cm),恰好等于标准差,其标准单位值为1,即超过均数1个标准差。又如某成年男性的身高为156cm,其标准单位值为-2,即低于均数2个标准差。,标准正态分布,对于任一正态分布N(,2)作下列u变换: 则u值的分布为均数为0,标准差为1的正态分布,即标准正态分布(standard normal distribution)。 由于正态分布以均数所在处频数最多,两侧逐渐减少,左右完全对称,故u值的均数为0。又由于以原变量值的标准差为单位,故u值的标准差为1,标准正态分布,如果以总频数为1,不同u值时的频数(概率)可用下式求得: 如果以曲线下的总面积为1,则从-至u的面积可用下列积分公式求得:,标准正态分布u 值所对应的概率和曲线下的面积,标准正态分布,由于标准正态分布只有唯一的1条曲线,我们可以把从-至u取不同值时所对应的曲线的面积求出,列成表格(见表9-8 标准正态分布曲线下的面积),这样我们就不需要面积的积分公式,避免了繁琐的计算过程,从而能够比较轻松地解决正态分布的问题。,标准正态分布,例 设某地成年男性身高的均数为170cm,标准差为7cm,假设该地共有成年男性10 000人,求该地身高不超过160cm者有多少人?又该地身高在160cm180cm之间者共有多少人? 对于本例的问题,采用标准正态分布来解决就简单多了。 首先,计算x1=160cm和x2=180cm时的u值:,标准正态分布曲线下面积的计算,标准正态分布,查标准正态分布曲线下的面积表得: (-1.43)=0.0764 身高不超过160cm的人数为: 10 0000.0764=764(人) 由于标准正态分布左右完全对称,因此: (u)=1-(-u) (1.43)=1-0.0764=0.9236 从u1至u2所对应的曲线下的面积=(u) -(-u) =0.8472 故身高在160cm180cm之间的人数为: 10 0000.8472=8472(人),标准正态分布,例 设某地成年女性身高的均数为165cm,标准差为5cm,假设该地共有成年女性9 000人,求该地身高身高在158cm168cm之间者共有多少人? 首先,计算x1=158cm和x2=168cm时的u值: 查表得:(-1.40)=0.0808, (-0.60)=0.2743 (0.60)=1-(-0.60)=1-0.2743=0.7257 从u1至u2所对应的曲线下的面积=0.6449 身高158cm168cm的人数:90000.6449=5804(人),标准正态分布曲线下面积的计算,2.正态分布的特征,1.正态曲线在横轴上方均数所在处最高; 2.正态分布以均数为中心,左右对称; 3.正态分布有两个参数:(位置参数)和 (变异度参数) ; 4. 正态分布曲线下的面积有一定规律。,正态分布曲线下的面积规律,对于任一正态分布XN(,2) ,在 u 范围所对应的曲线下的面积是一定的。,表2-4 100名18岁男大学生身高的实际分布与理论分布,正态分布曲线下的面积规律,正态分布曲线下的面积规律,对于正态分布XN(,2) ,以总面积为1,则在 u 范围所对应的曲线下的面积为1-。,表2-5 常用u值表,三、正态分布的应用,(一)制定医学参考值范围 正常参考值范围(normal reference ranges)是指正常人群中一些解剖、生理、生化指标及组织代谢产物含量等数据的正常波动范围 。 个体差异 生理变异,制定医学参考值范围,制定参考值的基本步骤 1.从正常人总体中随机抽样 这里的“正常人”并非是指没有任何疾病的人,只要排除那些对所研究指标有影响的疾病或有关因素的人即可。例如,制定血压正常值范围时,应将高血压病人及相关疾病的患者排除于研究对象之外,同时,研究对象在研究期间内不能有对血压有影响的因素,如情绪激动、大量运动等,也不能服用对血压有影响的药物。 另外,样本量要足够,每个人群组在100例以上。,2.控制测量误差 测量方法、仪器、试剂、精密度、操作熟练程度等应统一。 一般应选用测量结果准确、可靠,并能为大多数医疗单位采用的检测仪器或方法。 3.确定是否需要分组制定参考值范围,制定医学参考值范围,4.确定采用单侧界值还是双侧界值 如果该指标升高或降低均有病理学意义,则需要制定双侧界值,如红细胞数、白细胞数等; 如果该指标升高时有病理学意义,而降低时无意义,只需要制定一个正常值上限,如尿铅值; 如果该指标降低时有病理学意义,而升高时无意义,只需要制定一个正常值下限,如肺活量。,制定医学参考值范围,5.选定适当的百分界限 即确定发生错误的概率()。一般取=0.05,即95%正常值范围,该范围将包含95%的正常观察值,也就是说有5%的正常观察值将被排除于该范围之外。 如果临床上要求尽量减少误诊,则应取较高的百分界限,如95%或99%;如果临床上要求尽量减少漏诊,则应取较低的百分界限,如90%或80%。 6.确定资料的分布是否为正态分布 正态性检验,制定医学参考值范围,7.根据资料的类型选择适当的参考值范围的估计方法 (1) 正态分布法:如果所研究指标的总体分布符合正态分布或近似于正态分布,可根据正态分布曲线下的面积分布规律,计算包含95%的观察值范围,即为95%正常值范围。计算公式为: 95%双侧正常值范围: 95%单侧正常值上限: 95%单侧正常值下限:,制定医学参考值范围,单双侧正常值范围示意图,例 已知健康人群中血糖含量的频数分布近似于正态分布,今测定某地健康成人500名,得血糖均数为5.10 mmol/L,标准差为0.51 mmol /L,试估计该地健康成人血糖含量95%正常值范围。 本例需计算双侧正常值范围: 上限: =5.10+1.960.51= 6.10 (mmol/L) 下限: =5.10-1.960.51=4.10 (mmol/L) 即估计该地健康成人血糖含量95%正常值范围为: 4.106.10 mmol/L。,制定医学参考值范围,(2) 对数正态分布法: 95%双侧正常值范围: 95%单侧正常值上限: 95%单侧正常值下限:,制定医学参考值范围,(3) 百分位数法:对于偏态分布或开口资料,可按百分位数法计算。 计算公式为: 95%双侧正常值范围:P2.5P97.5 95%单侧正常值上限: P95 95%单侧正常值下限: P5,制定医学参考值范围,单双侧正常值范围(百分位数法)示意图,例 测得某地200名正常人尿铅含量,试计算95%正常值范围。,制定医学参考值范围,表中数据显示正常人的尿铅值频数分布呈正偏态分布,且铅为人体非必需元
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 山东省岱岳区马庄中学2024-2025学年初三二模突破冲刺化学试题(一)含解析
- 江西工业工程职业技术学院《临床综合技能训练》2023-2024学年第一学期期末试卷
- 江苏省扬州市部分校2025届初三第二次阶段性测试化学试题含解析
- 山东司法警官职业学院《文化文本分析与应用》2023-2024学年第一学期期末试卷
- 山东省济宁市曲阜市2025年初三下学期教学测试(二)数学试题含解析
- 华南农业大学珠江学院《职业生涯辅导》2023-2024学年第二学期期末试卷
- 湛江市高三年级上学期调研考试文综地理试题
- 2025年青海省格尔木市中考一模语文试题(含答案)
- 临床试验AE记录规范性
- 《2025网络文学作品版权出版合同》
- 2022年中国食品药品检定研究院招聘26人笔试历年典型考题及考点剖析附带答案详解
- DL-T+961-2020电网调度规范用语
- 电动伸缩雨棚合同范本
- NBT 47013.2-2015 承压设备无损检测 第2部分:射线检测
- 2024中国奥特莱斯行业白皮书
- 2024年巴西兽医快速诊断市场机会及渠道调研报告
- G-B-Z 25320.1003-2023 电力系统管理及其信息交换 数据和通信安全 第100-3部分:IEC 62351-3的一致性测试用例和包括TCP-IP协议集的安全通信扩展 (正式版)
- 2024年云南省中考数学试题含答案
- 小学毕业会考数学试卷附参考答案(a卷)
- 场地使用免责协议
- 急救知识科普完整版课件
评论
0/150
提交评论