版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、定量资料的统计描述定量资料的统计描述主要内容主要内容n频数分布n集中趋势n离散趋势被平均被平均n中国人公共假期每年已有115天;n中国全国家庭平均住房面积116.4;n北京平均月薪9227元;n中国男性平均身高174.2厘米;n中国人平均生育1.18个孩子;n中国家庭资产平均为121.69万元,城市家庭平均为247.60万元,农村家庭平均为37.70万元。变量和研究资料的类型变量和研究资料的类型n数值变量、定量资料、计量资料n分类变量、定性资料、计数资料n顺序变量、有序分类变量、等级资料定量资料定量资料n定量资料是指每个观察单位某个变量用测量或其他定量方法观察结果,一般有计量单位。n定量资料、
2、数值资料、计量资料(measurement data,quantitative data,numeric data)n定量资料的各个观察值之间有量的区别,没有性质的不同。连续型资料和离散型资料连续型资料和离散型资料n连续型资料(continuous data) n任何两个连续型数据之间都有无穷多个数据;n只要测量仪器足够精确,连续型数据可以精确到小数点后无限位。n离散型资料(discrete data) n是一种计数(count data),只能是0和正整数,不会是负数,也没有小数点,如心率、血小板数。n有些离散型数据的描述要参照分类资料处理,如龋齿个数、流产次数、尿失禁次数、交通事故死亡人数
3、。分类资料分类资料n分类资料、也称为定性资料、计数资料,是将观察单位按某种属性分组计数的定性观察结果。n分类资料的变量值只能代表事物的某些属性或分类,表现为无不相容的类别或属性。 n各观察单位之间没有量的区别,但有质的不同。分类资料分类资料n二分类资料n如男或女;阳性或阴性;生存或死亡等。n多分类资料n无序多分类资料n血型:A型、B型、O型和AB型;n肺癌类型:腺癌、鳞癌、未分化癌、类癌等。n有序多分类资料:即等级资料等级资料等级资料n等级资料、等级资料、也称为有序多分类资料,是介于定量资料和定性资料之间的半定量观察结果。n等级资料的各个类别之间存在着大小和程度上的不同,但是不能精确地测量相邻
4、的两个变量值之间的差别。n疗效:痊愈、有效、无效和恶化;n文化程度:小学、中学、大学和研究生;n抑郁症的程度:轻度、中度和重度。随机变量和研究资料的类型随机变量和研究资料的类型频数分布表频数分布表 n当观察值很多时,直接从原始数据很难得出概括的印象,为了解资料的分布特征,可通过资料的整理,编制频数分布表,来显示数据分布的范围、数据最集中的区间和分布的形态。定量资料的频数分布表定量资料的频数分布表n编制频数表就是把资料的取值范围分割成若干个互不相交的组段,统计每个组段内的观察值个数作为对应的频数,由各个组段的范围及其频数构成最基本的频数分布表。某地儿研所测得该地某地儿研所测得该地150名名12岁
5、健康男童体重岁健康男童体重(kg)原始数据如下,试编制频数表。原始数据如下,试编制频数表。n25.2 34.9 34.3 38.1 41.3 27.8 33.8 37.7 28.4 33.5 47.3 34.8 n30.5 36.2 51.0 38.0 43.8 40.9 37.5 36.6 33.4 47.4 36.4 41.4 n36.5 42.5 33.7 29.3 39.6 37.5 39.6 33.2 32.1 29.9 43.7 33.8 n35.1 37.8 32.4 38.5 28.2 36.5 23.4 35.8 34.1 27.6 42.6 23.1 n37.1 44.0
6、35.6 44.5 46.5 35.0 31.8 36.4 36.2 47.9 38.7 20.5 n37.1 29.2 38.2 41.1 36.2 43.5 32.8 36.3 31.8 30.6 38.5 39.6 n28.7 33.7 35.1 42.9 20.1 35.4 26.5 42.0 39.6 38.7 35.4 51.2n31.4 34.1 25.3 29.6 38.2 43.7 33.8 24.5 29.2 45.9 32.5 23.5n36.8 27.2 34.0 34.7 44.4 41.2 35.3 42.6 34.1 30.0 31.4 40.8n27.3 48.
7、6 35.8 29.7 45.6 41.8 33.0 28.3 33.3 35.1 40.6 38.2n37.6 25.5 37.3 37.5 41.5 38.4 44.2 43.2 31.5 40.2 34.5 37.4n37.8 33.4 32.2 33.4 32.4 32.8 36.8 45.7 41.2 40.9 36.5 47.9n35.7 39.3 42.2 35.3 30.1 27.2 找出最大值和最小值,计算极差。找出最大值和最小值,计算极差。n极差(R)也叫全距,它是一组变量值中最大值与最小值之差。n最大值为51.2kg,n最小值为20.1kg,n极差R=51.2-20.1=
8、31.1kg。按极差大小决定组段数和组距按极差大小决定组段数和组距n经验划分:组段数的多少一般根据观察单位的多少来确定,过多或过少均不能更好地反映资料的分布特征,以能够反映频数分布的特点为宜,一般分为815组。n本例初步确定为10个组。按极差大小决定组段数和组距按极差大小决定组段数和组距 n相邻组段下限值之差称为组距,一般分组时取组距相等。n组距极差/组数,常取整数作组距,以方便资料的整理汇总。n本例组距=31.1/10= 3.113。确定组段的上下限确定组段的上下限n每个组段的起点称“下限”,终点称“上限”;n第一组段必须包括最小值,一般取略小于最小值的整数作为第一组的下限,但是第一组的下限
9、值一般不能等于最小值;n各组段既不重叠,也不能留空隙;n最后一个组段应该包括最大值,并且封口。计算各组段的频数、频率计算各组段的频数、频率n本例最小值为20.1,故取20为第一组的下限。n第二组下限即20+3=23,余类推。 n最后一个组段为5053,包括最大值51.2。n列表划记,统计各组段频数。n计算频率与累计频率。150名名12岁男童体重(岁男童体重(kg)频数分布表)频数分布表 组段组段频数频数f频率(频率(%)累计频数累计频数累计频率(累计频率(%)2021.321.32374.796.026106.71912.7291510.03422.7322516.75939.3353523.
10、39462.7382315.311778.0411812.013590.04485.314395.34753.314898.7505321.3150100.0合计合计150100.0频数分布图频数分布图(直方图)(直方图)体重(kg)51.548.545.542.539.536.533.530.527.524.521.5Frenquency403020100频数分布的类型频数分布的类型 n频数分布分为对称分布和偏态分布两种。n对称分布:n集中位置在正中,左右两侧频数分布大体对称。n偏态分布:n正、右偏态(峰)分布:正、右偏态(峰)分布:集中位置偏于左侧,频数尾部向右侧延伸。n负、左偏态(峰)分
11、布:负、左偏态(峰)分布:集中位置偏向右侧,频数尾部向左侧延伸。链球菌感染咽炎患者潜伏期分布图链球菌感染咽炎患者潜伏期分布图(正偏峰分布)(正偏峰分布)潜伏期(小时)114.0102.090.078.066.054.042.030.018.0病例数403020100207例某恶性肿瘤患者年龄分布例某恶性肿瘤患者年龄分布(负偏峰分布)(负偏峰分布)年 龄 ( 岁 )85.075.065.055.045.035.025.015.05.0病例数6050403020100分类资料和等级资料的频数分布分类资料和等级资料的频数分布n编制频数分布表的方法是直接计算出每一个观察值的频数和频率。n分类资料的频数
12、分布图为条图(或称柱状图,Bar plot)。分类资料和等级资料的频数分布分类资料和等级资料的频数分布A组B组合计N%N%婚姻状况未婚2322.11817.341已婚8177.98682.7167孕次02524.02322.14811817.32524.04323634.63129.86731918.31615.435365.898.715频数表的用途频数表的用途 n揭示定量资料的分布特征;n描述定量资料分布的集中趋势和离散趋势。n发现资料中远离群体的某些特大或特小的可疑值。定量资料的统计描述定量资料的统计描述n集中趋势(平均水平)n离散趋势(变异程度)集中趋势集中趋势 n平均数用来描述一组变
13、量的集中趋势,常作为一组资料的代表值,使资料产生简明概括的印象,又便于组间的比较,也称为位置度量指标。n均数(mean)n几何均数(geometric mean,G)n中位数(median, M)均数均数n均数是算术均数的简称,它反映了一组观察值在数量上的平均水平。总体均数用希腊字母表示,样本均数用 表示。n均数的计算 均数的计算方法有直接法和加权法,计算机运算中多采用直接法。x均数的计算均数的计算n直接法是将所有性质相同的观察值x1,x2,x3xn,直接相加再除以观察值的个数n。例:10名12岁健康男童体重(kg)分别为39.6,33.2,32.1,29.9,43.7,33.8,35.1,3
14、7.8,32.4,38.5,求平均体重。nxnxxxxin21)(kg6 .35105 .382 .336 .3921nxnxxxxin均数的计算均数的计算n加权法n组中值组中值:该组段下限和上限的均值,或该组段下限和下一个组段下限的均值。ffxfxfxfxfxinn2211 组中值组中值组段组段组中值组中值频数频数f频率(频率(%)2021.521.32324.574.72627.5106.72930.51510.03233.52516.73536.53523.33839.52315.34142.51812.04445.585.34748.553.3505351.521.3合计合计15010
15、0.0均数的计算均数的计算kgffxfxfxfxfxinn3 .3615054452725 .5125 .2475 .2122211均数的应用均数的应用 n描述呈对称分布的资料,特别是正态分布正态分布或者近似正态分布或者近似正态分布的资料的平均水平,此时均数位于分布的中心,最能反映分布的集中趋势。几何均数(几何均数(G)n用于描述等比级数资料和对数正态分布资料等的平均水平。n几何均数常适用于右偏态分布资料。几何均数的计算几何均数的计算n直接法:是将n个观察值x1,x2,x3xn的乘积开n次方所得的根。n加权法:)lg(lg121nxxxxGnn)lg(lg1fxfG几何均数应用的注意事项几何均
16、数应用的注意事项n观察值不能为0。因为0不能取对数,也不能与任何其它数呈对数关系。可以把所有的变量值均加上一个较小的常数,如加0.001。n观察值不能同时有正值和负值。若全是负值,计算时可把负号去掉,得出结果后再加上负号。中位数(中位数(M)n中位数是将一组观察值从小到大按顺序排列,位次居中的数值对应的观察值就是中位数。n全部观察值中,大于和小于中位数的观察值的个数相等。直接法计算中位数直接法计算中位数 n将原始观察值按大小顺序排列:nn为奇数时, nn为偶数时, n例:n临床观察7名某病患者,其潜伏期(天)分别为:2,3,3,5,6,9,16,求其平均潜伏天数。 M5n临床观察8名某病患者,
17、其潜伏期(天)分别为:2,3,3,5,6,9,16,20 求其平均潜伏天数。 M(5+6)/25.52/)12()2()21(nnnxxMxM百分位数法计算中位数百分位数法计算中位数 n以第50位百分位数(X50)作为中位数。n百分位数(percentile)是指把一组资料的全部观测值分为两部分,理论上讲,有x%的观测值比它小,有(100-x)%的观测值比它大。百分位数的计算百分位数的计算n nL:该百分位数所在组段的下限;nfp:该百分位数所在组段的频数;ni: 该百分位数所在组段的组距;nfL:小于L各组段的累计频数。%(%)ppLiXLnpff某医师检测某医师检测120例链球菌感染咽炎患
18、者咽痛至发热出现的例链球菌感染咽炎患者咽痛至发热出现的时间(小时)时间(小时) ,试计算中位数、第,试计算中位数、第25、75百分位数。百分位数。潜伏期 病例数累计频数累计频率(%)12- 221.724-202218.336-365848.3 48-288671.760-109680.072-810486.784-811293.396-411696.7108-4120100.0 合计120中位数所中位数所在组段在组段X25所在组段所在组段X75所在组段所在组段某医师检测某医师检测120例链球菌感染咽炎患者咽痛至发热出现的例链球菌感染咽炎患者咽痛至发热出现的时间(小时)时间(小时) ,试计算中
19、位数、第,试计算中位数、第25、75百分位数。百分位数。2512X36(120 25%22)38.736小时小时48.958)%50120(281248M7512X60(120 75%86)64.810小时四分位数(四分位数(quartile)nX25:第一四分位数(Q1)、下四分位数(QL);nX50:第二四分位数(Q2)、中四分位数(M);nX75:第三四分位数(Q3)、上四分位数(QU);中位数的应用中位数的应用n中位数只受居中变量值波动的影响,不受两端特小值和特大值的影响。n中位数常用于描述偏态分布或末端无确定数据时中位数常用于描述偏态分布或末端无确定数据时资料的平均水平。资料的平均水
20、平。n当数据呈对称分布时,中位数和均数相近。n当数据呈右偏态分布时,均数大于中位数。n当数据呈左偏态分布时,均数小于中位数。百分位数的应用百分位数的应用 n百分位数用于描述样本或总体观察值序列在某百分位置水平,多个百分位数结合应用时,可更全面地描述总体或样本的分布特征,可用来确定医学参考值范围。n由于位于中部的百分位数比较稳定,所以最常用的百分位数是四分位数,它有较好的代表性。离散程度指标离散程度指标n三组同性别、同年龄儿童的体重(kg)如下,分析其集中趋势与离散趋势。甲组甲组 26 28 30 32 34 Mean=30kg R=8 S=3.16乙组乙组 24 27 30 33 36 Mea
21、n =30kg R=12 S=4.74丙组丙组 26 29 30 31 34 Mean =30kg R=8 S=2.91 哪一组数值的均数更具代表性?离散程度指标离散程度指标n离散趋势即个体值之间的变异程度,数据越分散,变异程度越高。n极差n四分位数间距n方差n标准差n变异系数极差极差(range,R)n极差也叫全距,最大值与最小值之差,反映个体差异的范围。n缺点:n由于计算极差时只采用了最大值和最小值,未考虑组内其它数据的变异程度,因此用极差反映变异度不够全面,稳定性差;n当样本例数增大时,得到较大或较小观察值的机会可能会变大,所以极差也可能更大。 四分位数间距(四分位数间距(quartile range ,QR)nQR=Q3-Q1=X75X25n四分位数间距是居中的半数观测值的全距,不受最大值和最小值的影响,比极差稳定。n实际工作中,常与中位数结合使用,描述偏偏态分布资料态分布资料的分布特征。 n缺点:不能全面地反映所有观察值的变异程度。离散趋势指标离散趋势指标n极差Rn离均差(xi-) 离均差总和(xi)=0 n离均差平方和(xi)2 n 均方(方差)2=(xi)2/N n 标准差2()ixN四分位数间距QR样本方差与样本标准差样本方差与样本标准差n实际工作中,用 代替,得到样本方差s和样本标准差s2,样本方差s2是总体方差2的无偏估计。n
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 山西省吕梁市(2024年-2025年小学六年级语文)统编版阶段练习(上学期)试卷及答案
- 山东省莱芜市(2024年-2025年小学六年级语文)部编版开学考试(上学期)试卷及答案
- 商业航天产业发展现状与趋势
- 2024年集装箱租赁运输框架协议
- 2024年简化版离婚合同范本版B版
- 2024智能家居产品采购与技术服务合同
- 2024年股权转让合同标的及转让价格
- 2024水利风景区建设与经营合同
- 2024年度物联网支付担保合同3篇
- 2024年装饰工程咨询合同3篇
- 部编人教版四年级数学上册期末考试卷(可打印)
- 一例阿尔茨海默病患者的护理查房
- 农贸市场安全生产工作方案
- 咸阳租房合同
- 《钢筋保护层检测》课件
- YJ-T 27-2024 应急指挥通信保障能力建设规范
- 合伙人协议书决策机制
- 西藏畜牧兽医知识培训课件
- 护理专业人才培养方案论证报告
- 我的家乡武汉
- 眼镜制造业灌胶机市场前景与机遇分析
评论
0/150
提交评论