




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
变量类型定量变量定性变量无序分类有序分类:如血清反应,治疗效果等二项分类:如生死,有效无效等多项分类:如血型,职业特征等连续型变量:如:身高,体重离散型变量:如子女数,脉搏数1资料辨认病例号年龄身高血型心电图尿WBC产前检查次数职业1351.65A正常-0教师2441.74B正常-3工人3261.80O正常+2职员4251.61AB正常+1农民5411.71A异常++5工人6451.58B正常++6工人7501.60O异常++3干部8281.76AB正常+++2干部9311.62O正常+3军人2统计分析的内容统计描述:是用统计表、统计图、统计指标来描述资料的分布规律及其数量特征。▲
把握资料的基本特征;▲
为统计推断打下基础。统计推断:在医学科学研究中通常应用抽样研究的方法,即对总体中随机抽取的部分观察单位(样本)进行研究,然后用样本信息推断总体特征,即统计推断。3
第四章
定量资料的统计分析
4第一节频数分布表和频数分布图
第二节
集中趋势的统计描述
第三节离散趋势的统计描述
第四节正态分布及其应用本章内容第一节频数分布表和
频数分布图一、频数分布表二、频数分布图6一、频数分布表
对一个随机现象进行重复观察,其中某变量值(随机事件)出现的次数被称作频数(frequency)。
把变量值及相对应的频数列成表格即频数分布表,简称频数表(frequencytable)。
7连续性变量的频数表的编制
例4.2在某市2005年进行的小学生体质评价研究中,测定了120名9岁男孩的肺活量(L),资料如下,根据该资料制作频数表。1.7061.3261.6321.8762.1611.6841.5331.1751.8671.6762.0911.8471.2131.2770.989
2.2351.6651.2891.7241.5481.6081.8901.7331.7961.2031.7361.4501.6331.5551.352…1.2911.7961.6471.4151.8730.9961.9361.5261.4241.5891.6701.0561.9691.4812.4062.1231.9881.5121.0301.8861.9301.7251.3741.6541.6631.4381.6451.2141.1841.735你能看出资料有什么规律?89编制步骤:①确定全距(range)
全部观察值中最大值与最小值之差,用符号R表示。又称极差。本例极差:R=2.406-0.980=1.417(L)。1.7061.3261.6321.8762.1611.6841.5331.1751.8671.6762.0911.8471.2131.2770.989
2.2351.6651.2891.7241.5481.6081.8901.7331.7961.2031.7361.4501.6331.5551.352…1.2911.7961.6471.4151.8730.9961.9361.5261.4241.5891.6701.0561.9691.4812.4062.1231.9881.5121.0301.8861.9301.7251.3741.6541.6631.4381.6451.2141.1841.735R=2.406-0.980=1.417(L)②划分组段
确定组数:观察单位及其全距定:本例11确定组距:等距分组,组距=R/组数。本例i=R=1.417/11=0.129≈0.130确定各组段上下限:每组段的起点称为该组的下限(lowlimit),终点称为上限(upperlimit)。第一组段必须包含最小值。最后一个组段上限必须包含最大值。③统计各组频数采用计算机或手工划记汇总,得到各组段相应的频数。根据这些数据编制成的频数表能显示出这组数据分布的特征11二、频数分布图
以观测变量为横轴,频数(或频率)为纵轴所作的直方图,称为频数分布图。横轴依次以等距标出各组段的起点,在各组段上方分别绘制宽度等于组距、高度等于相应频数的长方形。用途与频数表类似,但更直观、形象。
12图4.12005年某市120名9岁男孩肺活量频数分布
131)频数分布特征集中趋势(centraltendency)一组数据向某一个位置聚集或集中的倾向。例如本例,肺活量有大有小,但中等居多,此为集中趋势。离散程度(dispersion):一组数据的分散性或变异度。离“中心”位置越远,频数越小;即少数人具有较大或较小的肺活量,表现了肺活量分布的离散趋势。14集中趋势:高峰组段的位置离散趋势:观察值的分布范围152)频数分布的类型对称分布:集中位置在正中,左右两侧大体对称。偏态分布:集中位置偏向一侧,频数分布不对称。
正偏态分布*分布类型不同,采用的统计方法不同负偏态分布负偏态分布16频数分布高峰(集中位置)位于中部、两边低、左右对称。1.对称分布:实例18是否为对称分布?19图4.22004年我国麻疹患者的年龄分布2.正偏态分布:集中位置偏向数值小的一侧,高峰偏于左侧,长尾向右延伸。20表4-2115名正常成年女子血清转氨酶(mmol/L)含量分布
21图4.3某市219名乳腺癌患者术后康复期生存质量评分的分布
频数评分集中位置偏向数值大的一侧,高峰偏于右侧,长尾向左延伸。3.负偏态分布:22表4-3101名正常人的血清肌红蛋白含量分布23(三)频数分布表和频数分布图的用途1.反映频数分布的两个重要特征;集中趋势:变量值的中心数值或中心位置所在。离散趋势:变量值围绕中心数值或中心位置的分布情况。2.揭示资料的分布类型;
对称分布:频数分布高峰位于中部;偏态分布:高峰偏于一侧。3.便于发现某些特大或特小的可疑值;4.便于进一步计算指标和统计分析处理。24
4.便于进一步做统计分析和处理25第二节、集中趋势的描述
描述一组同质观察值的平均水平或中心位置的常用的指标有算术均数、几何均数、中位数等。261、算术均数,mean适用条件:单峰对称分布,特别是正态或近似正态分布的定量资料。符号:表示样本均数,希腊字母表示总体均数。27计算方法:
(1)直接法(小样本)28如:7名正常女子血清总胆固醇(mmol/L)分别为:4.21,3.32,5.35,4.17,4.14,3.58,4.34。试计算其平均数。例4.3:例4.2某市2005年120名9岁男孩的肺活量(L)的平均数29(2)频数表法(加权法)
当观察值个数较多时,可先把原始资料分组,列出频数表,计算均数时将各组频数乘以相应组的组中值,逐个相加求和,除以总例数。X1,X2,,Xk:频数表资料中各组段的组中值;f1,f2,,fk:相应组段的频数。30表4.2120名9岁男孩肺活量均数的计算肺活量组段(1)频数f(2)组中值x
(3)
fx(4)=(2)(3)0.980~51.0455.2251.110~51.1755.8751.240~71.3109.1701.370~141.43520.091.500~191.56529.735............31
均数的应用范围及条件:1.均数反映一组同质观察值的平均水平,并可作为样本的代表值与其他样本进行比较。2.均数适用于单峰对称分布,尤其是正态分布资料,这时均数位于分布的中央,能反映观察值的集中趋势,即其平均水平。也可用于近似正态分布。32适用于数据经过对数变换后呈正态分布的资料,也可用于观察值之间呈倍数或近似倍数变化(等比关系)的资料。如医学实验中的抗体滴度;食品中农药含量;疾病的潜伏期等。计算方法有:直接法和频数表法。2、几何均数,geometricmean,G33直接法由原始变量值直接计算几何均数。设变量值为X1,X2…Xn,几何均数G为:34例
有5份血清的滴度为1:4,1:8,1:16,1:32,1:64,求平均滴度?
该5份血清的平均滴度为1:16。
352.频数表法(加权法)当资料中出现相同观察值的个数较多时,或资料为频数表资料,则用加权法计算几何均数。变量及频数如下:X1,X2,…Xk
f1
,
f2,…fk
则几何平均数G为:
36应用注意事项:适用资料:①经对数变换后呈正态或近似正态分布的资料;②用于等比资料;注意:根据对数的性质:零与负数没有对数1)变量值不能有0;2)变量值不能同时有正值与负值。37一组观察值从小到大排列,位次居中的观察值即中位数,是一个位置指标。符号:P50
或M3.中位数(median)
38中位数计算方法直接法:将观察值由小到大排列,按下式计算。39例某病患者9名,其发病的潜伏期(天)为:3,4,4,5,6,7,7,9,>11,求中位数。本例n=9,为奇数,按式(4.6)得:(天)若在该例基础上再继续观察,在又发现1例患者>11天,则n=10,为偶数,按式(4.7)得:=(X5+X6)/2=(6+7)/2=6.5(天)40(2)频数表法
L为P50所在下限;i为该组的组距;fM
为该组频数;
为比该组段略小的组段的累计频数。41
百分位数示意图附:百分位数(percentile):P25P75位置参数42公式:
43P25=1.37+0.13x[(120x25%-17)/14]=1.49P75=1.76+0.13x[(120x75%-79)/15]=1.86P50=1.63+0.13x[(120x50%-50)/29]=1.6744①计算累计频数和累计频率(%);②确定M所在组段;③根据公式计算。计算步骤45评分频数累计频数累计频率(%)频率范围
0~220.910~0.9130~241.830.92~1.8340~373.201.84~3.2050~11188.223.21~8.2260~304821.928.23~21.9270~6311150.6821.93~50.6880~6017178.0850.69~78.0890~10048219100.0078.09~100.0表4.4219名乳腺癌患者康复期生存质量评分例4.8为研究乳癌患者术后康复期生存质量,某医院对219名术后康复期乳癌患者进行了生存质量测定,结果如表4.4,求平均评分。M=70+10/63(219×50%-48
)=79.76(分)
46平均数应用的注意事项
同质的资料计算平均数才有意义根据资料的分布类型选用适当的平均数均数:单峰对称分布的资料,特别是正态分布几何均数:等比级数资料、对数正态分布资料中位数:理论上可用于任何分布资料,但当资料适合计算均数或几何均数时,不宜用中位数。(偏态分布、分布不明资料、有不确定值的资料)47第三节、离散程度的描述
集中趋势是数据分布的一个重要特征,但单有集中趋势指标还不能很好地描述数据的分布规律。而且还要看数据的变异散程度。48盘编号甲乙丙14404804902460490495350050050045405105055560520510合计250025002500均数500500500例:采甲、乙、丙三人的耳垂血,然后进行红细胞计数,每人数5个计数盘,得结果如下(万/mm3)甲乙丙离散程度:反映一群变量值的变异程度或参差不齐的程度。◆离散程度大,均数的代表性差,◆离散程度小,均数的代表性好。50常用的指标(1)极差(range)(2)四分位数间距(quartileinterval)(3)方差和标准差(varianceandstandarddeviation)(4)变异系数(coefficientofvariation)511、极差/全距,range
R=Xmax-Xmin优点:简单明了缺点:1)只考虑最大值与最小值之差异,不能反映组内其它观察值的变异度2)样本含量越大,抽到较大或较小观察值的可能性越大,则全距可能越大,因此样本含量悬殊时不宜用全距。522、四分位数间距,inter-quartilerange
常用于描述偏态分布资料、两端无确切值或分布不明确资料的离散程度。
1)百分位数(percentile):是指将观察值从小到大排列后处于第x百分位置上的数值,亦是位置指标,用Px
表示。Px
表示将全部观察值分为两部分,有x%的观察值比Px
小,有(100–x)
%的观察值比Px
大。P50
即中位数。532)四分位数(quartile,Q):特定的百分位数,把一组观察值分为四等份。下四分位数:QL=P25上四分位数为:QU=P75四分位数间距:QU-QL小大P0P25
P50
P75
P100QLQUM54表4.4219名乳腺癌患者康复期生存质量评分P75=QU=80+10/60(219×75%-111)=88.88(分)Q=QU-QL=88.88-71.07=17.81P25=QL=70+10/63(219×25%-48)=71.07(分)例4.13评分频数累计频数累计频率(%)频率范围
0~220.910~0.9130~241.830.92~1.8340~373.201.84~3.2050~11188.223.21~8.2260~304821.928.23~21.9270~6311150.6821.93~50.6880~6017178.0850.69~78.0890~10048219100.0078.09~100.00M=70+10/63(219×50%-48
)=79.76(分)
55四分位数间距越大,变量值的变异程度或离散程度越大;四分位数间距比极差稳定,但仍未考虑每个观察值的变异;四分位数间距常用于描述偏态分布资料、两端无确切值或分布不明确资料的离散程度。四分位数间距的意义56例4.2在某市2005年进行的小学生体质评价研究中,测定了120名9岁男孩的肺活量(L),资料如下,根据该资料制作频数表。1.7061.3261.6321.8762.1611.6841.5331.1751.8671.6762.0911.8471.2131.2770.989
2.2351.6651.2891.7241.5481.6081.8901.7331.7961.2031.7361.4501.6331.5551.352…1.2911.7961.6471.4151.8730.9961.9361.5261.4241.5891.6701.0561.9691.4812.4062.1231.9881.5121.0301.8861.9301.7251.3741.6541.6631.4381.6451.2141.1841.735P25=1.37+0.13x[(120x25%-17)/14]=1.49P75=1.76+0.13x[(120x75%-79)/15]=1.86R=2.406-0.980=1.417(L)四分位数间距=0.37(L)R=2.406-0.980=1.417(L)四分位数间距=0.37(L)57
为了衡量每个变量值的变异,先选择一个数值作为比较标准;谁合适呢?均数最有代表性。
甲乙丙583.方差和标准差为了全面考虑每个观察值的变异情况,克服全距和四分位数间距的缺点,引入了“方差”59(1)方差,variance衡量每个观察值相对均数的偏差,构造出综合描述资料离散程度的指标。方差说明观察值的变异程度,方差越大,观察值得变异程度较大,反之,观察值得变异程度较小。60在实际工作中,总体均数μ往往是未知的,故只能用样本均数作为总体均数μ的估计值,用样本例数n代替N,这样计算的结果通常比实际的σ2低。英国统计学家提出用n-1代替n来校正,这就是样本方差s2
。式中的n-1称为自由度(degreeoffreedom)是统计学中的一个常用术语,用υ表示。
61自由度例:有一个4个数据的样本,在自由取值4、2、5三个数据后,第四个数据只能是962(2)标准差,standarddeviation因方差的度量单位是原度量单位的平方,故将方差开方,恢复成原度量单位,得总体标准差σ。标准差大,表示观察值的变异度大;标准差小,表示观察值的变异度小。63样本标准差(s):64例4-11三组同龄男孩的身高值(cm)
甲组:
65标准差的意义说明资料的离散趋势(或变异程度),标准差的值越大,说明变异程度越大,均数的代表性越差;...。标准差与原始数据的单位一致,在科技论文报告中,均数与标准差经常被同时用来描述资料的集中趋势与离散趋势。66例4.17,某年某市城区120名5岁女孩身高均数为110.15(cm),标准差为5.86(cm);体重均数为17.71(kg),标准差为1.44(kg),比较其离散程度。身高体重
674.变异系数(coefficientofvariation,CV)(1)意义:标准差与均数之比,用百分数表示。变异系数是相对数,没有单位。(2)适用条件:
①观察指标单位不同,如身高、体重;
②同单位资料,但均数相差悬殊。(3)公式:例4.17,某年某市城区120名5岁女孩身高均数为110.15(cm),标准差为5.86(cm);体重均数为17.71(kg),标准差为1.44(kg),比较其离散程度。身高体重该市
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年学前教育专业能力测评试题及答案
- 2025年医学专业基础知识考试试卷及答案
- 2025年小学数学教师资格考试真题及答案
- 2025年外语专业口语能力考核试卷及答案
- 2025年数字经济理论与实践能力考核试卷及答案
- 2025年企业财务管理基本理论测试题及答案
- 2025年气候变化与可再生能源战略师考试试题及答案
- 2025年旅游管理与市场开发知识测评试卷及答案
- 2025年金融学本科毕业考试题及答案
- 2025年计算机工程师职业资格考试试题及答案
- 智慧树知到《中国近现代史纲要(哈尔滨工程大学)》2025章节测试附答案
- 旅游公司介绍模板
- LY/T 3408-2024林下经济术语
- 2024年度无人驾驶技术课件
- 《南京中山陵》课件
- 计算机网络知到智慧树章节测试课后答案2024年秋辽宁工程技术大学
- 计算机网络(中国石油大学(华东))知到智慧树章节测试课后答案2024年秋中国石油大学(华东)
- 2024年广东省中考语文试题含答案
- DB32∕T 2127-2012 安防服务企业报警服务规范
- 妊娠预防血栓指南
- 大学体育知到智慧树章节测试课后答案2024年秋云南民族大学
评论
0/150
提交评论