版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二章定量资料的统计描述3定量资料统计描述第一节频数与频数分布
(frequencydistribution)
频数分布表,又称频数表,是对样本量较大的资料进行统计描述的常用方法。通过频数表可以显示数据分布的范围与形态。3定量资料统计描述例:某地用随机抽样方法检查140名成年男子的红细胞数5.953.82一、连续型定量变量的频数分布3定量资料统计描述频数表(frequencytable)的编制:求极差(range):R=Max-Min=5.95-3.82=2.13确定组段数、组距和组段1.确定组段数(k):通常10-15个。2.确定组距(i):相邻两组段的最小值(下限)之差,一般用等距。i=R/k,一般取整取偶数。3.确定组限:界限分明,每个组段的起点称下限,终点称上限。最末一行应同时写出下限和上限。
4.列表划记:得到各组段的观察单位数。3定量资料统计描述3定量资料统计描述红细胞数组中值频数频率(%)3.80~3.9021.44.00~4.1064.34.20~4.30117.94.40~4.502517.94.60~4.703222.94.80~4.902719.35.00~5.101712.15.20~5.30139.35.40~5.5042.95.60~5.7021.45.80~6.005.9010.7某地140名正常男子红细胞数频数表3定量资料统计描述直方图3定量资料统计描述频数分布表的用途可以替代繁琐的原始资料,便于进一步分析;便于观察数据的分布类型;便于发现资料中某些远离群体的特大或特小的可疑值;样本含量较大时,可用各组段的频率作为概率的估计值。3定量资料统计描述频数分布的类型对称分布偏态分布正偏态:负偏态:3定量资料统计描述二、离散型定量变量的频数分布例2-1:1998年某山区96名孕妇产前检查次数资料如下:0,3,2,0,1,5,6,3,2,4,1,0,6,5,1,3,3,……….,4,7。表2-1是96名妇女产前检查次数分布的频数表3定量资料统计描述表2-11998年某地96名妇女产前检查次数分布检查次数频数频率(%)累计人数累计频率
044.244.2177.31111.521111.52222.931313.53536.542627.16163.552324.08487.5
>51212.596100.0
合计961003定量资料统计描述3定量资料统计描述第二节集中趋势指标集中趋势指标用于描述一组同质计量资料的集中趋势或反映一组观察值的平均水平。常用的平均数有算术均数、几何均数及中位数三种。3定量资料统计描述一、算术均数(mean)算术均数简称平均数或均数。X表示变量X的样本均数,
(希腊字母)表示总体均数。均数适用于对称分布资料,正态或近似正态分布资料。3定量资料统计描述计算方法直接法:当样本含量n较小时,可选用此法。设有n个观察值,分别为X1,X2
……,Xn,均数的计算公式为:3定量资料统计描述例1.10名12岁男孩身高(cm)分别为125.5,126.0,127.0,128.5,147.0,131.0,132.0,141.5.122.5,140.0。求平均数。3定量资料统计描述加权法:当样本含量n较大时,一般将观察值分组,列出频数表,再用加权法计算均数。其计算公式为:式中f为各组的频数,x为各组的组中值。3定量资料统计描述3定量资料统计描述1.编制频数表(1)求全距:R=183.5-162.9=20.6(cm)(2)求组段和组距:20.6÷10=2.06,取整数2.0cm为组距;第一组段的下限为162(3)列出频数表:表7-1中第3列为组中值X,计算方法是将本组下限和下组下限相加除以2,如第一组X1=(162+164)/2=163,余此类推。第4列fX是频数f和组中值X的乘积。3定量资料统计描述3定量资料统计描述2.根据公式计算110名20岁健康男大学生的身高均数为172.73cm。3定量资料统计描述二、几何均数
(geometricmean,G)几何均数用G表示。适用于对数正态分布资料或等比资料,例如抗体的平均滴度和平均效价。计算方法:直接法:样本含量n较小时,选用此法。有n个观察值X1,X2,……Xn,几何均数的计算公式为:3定量资料统计描述上式计算时需作连乘,还要开n次方,比较麻烦,一般采用对数形式计算。3定量资料统计描述例.6份血清抗体滴度为:1:2,1:4,1:8,1:8,1:16,1:32,求平均数。几何平均滴度为1:8
3定量资料统计描述102名健康人的钩端螺旋体血清抗体平均滴度抗体滴度(1)人数f(2)滴度倒数X
(3)lgX(4)flgX(5)=(2)(4)1︰10071002.00014.0001︰200192002.30143.7191︰400344002.60288.4681︰800298002.90384.1871︰16001316003.20441.652
合计102272.0263定量资料统计描述三、中位数(median,M)将一组观察值从小到大按顺序排列,位次居中的观察值就称中位数。用M表示。中位数适用于任何一种分布的计量数据,一般多用于描述偏态分布或数据一端无界资料的集中趋势。3定量资料统计描述计算方法直接法:样本含量n较小时,可根据下式计算:n为奇数时n为偶数时3定量资料统计描述某病患者5人潜伏期分别为2,4,6,7,20,求中位数。本例n=5,为奇数天若上例在第25天又发现一例患者,患者数增加为6名3定量资料统计描述频数表法:样本含量n较大时计算中位数可用频数表法。将观察资料归纳成频数表,计算累计频数,按下式计算。L为本组(中位数所在组)下限,i为本组组距,f为本组频数,ΣfL为上一组的累计频数。本组位置可根据累计频数的数值来判断。当某一组的累计频数首先超过n/2时或累计频率首先超过50%时,即定为本组。3定量资料统计描述107名正常人尿铅含量分布尿铅(mg/l)例数f累计频数ΣfL累计频率(%)0~141413.14~223633.68~296560.712~188377.616~159891.620~610497.124~110598.128~2107100.03定量资料统计描述附:百分位数(PX)百分位数是一种位置指标,用PX表示。对总体来说,它表示总体中数值小于PX的个体恰有X%;对样本来说,它表示按照升序排列的数列里小于PX的个体恰占X%百分位数是一个有序数列百等分的分割值。第50百分位数(P50)也就是中位数,中位数是一个特定的百分位数。计算公式:3定量资料统计描述对上例的资料计算P25,P75。求P25,由第4栏可见,第2组的累计频率超25%,该组即P25所在组。求P75,同理P75在第4组段内3定量资料统计描述第三节离散趋势指标两组计量数据如下,分析其分布特征。甲组:98,99,100,101,102乙组:80,90,100,110,1203定量资料统计描述两组数据的均数都是100,说明集中趋势相同。但两组数据的分布特征不尽相同,5个数据间的参差不齐的程度不一样。甲组数据的变化范围较小,而乙组数据的变化范围较大,即两组的离散度不同,离散度是一个非常重要的统计指标。3定量资料统计描述一、全距(range,R)亦称极差,用R表示,是一组观察值中最大值与最小值之差,反映个体差异的范围。全距大,说明变异度大;反之,说明变异度小。如上例中甲组全距为4,乙组全距为40,表明乙组变异度大。但全距除了最大值和最小值之外,不能反映组内其它数据的变异度;易受个别数据的影响,稳定性较差,抽样误差较大,而且还受n大小的影响,平均起来,n越大,全距越大。3定量资料统计描述二、四分位数间距
(quartilerange,Q)四分位数间距是两个特定的百分位数之差,用Q表示Q=QU-QL=P75-P25适用于任何分布的计量资料,尤其适用于偏态分布的资料(不宜用标准差表示离散度)四分位数间距比全距稳定,但仍然未考虑到每个观察值的变异。3定量资料统计描述三、方差与标准差为克服全距的缺点,应全面考虑组内每个观察值的离散情况。可考虑以总体中每个变量值X与总体平均数之差,称为离均差X-
。由于离均差有正有负,其和为0,这样仍不能反映变异度的大小。故将离均差平方后再相加,称离均差平方和3定量资料统计描述3定量资料统计描述为了消除观察值的总个数N的影响,将离均差平方和除以N,这就是总体方差,用σ2表示。方差的单位是原度量单位(如kg)的平方,把总体方差开平方,这就是总体标准差,度量单位与原始观察值一致,即方差(variance)标准差(standarddeviation)3定量资料统计描述实际工作中经常得到的是样本资料,总体均数
是未知的,只能用样本均数X代替。这样用代替,用样本含量n代替N,所得的结果比σ偏小。英国统计学家W.S.Gosset提出用n-1代替n,求得样本标准差更接近总体标准差σ,样本标准差用S表示,公式为:上式n-1称为自由度(ν)。样本标准差计算也可用直接法或加权法。n较小时,选择直接法,n较大,选择加权法3定量资料统计描述直接法:由于标准差的计算公式可改写为:3定量资料统计描述3定量资料统计描述计算两组数据的标准差甲组:n=5,ΣX=98+99+100+101+102=500ΣX2=982+992+1002+1012+1022=50010乙组:n=5,ΣX=500,ΣX2
=51000甲组:98,99,100,101,102
乙组:80,90,100,110,1203定量资料统计描述加权法3定量资料统计描述例:求表P7-1中110名20岁男大学生身高的标准差。3定量资料统计描述已知Σf=110,ΣfX=19000,需要在该表中增加fx2栏,由第(3)、(4)栏相乘,再将该栏数据相加,将ΣfX2=代入公式3定量资料统计描述四、变异系数
(coefficientofvariation,CV)适用:(1)比较度量单位不同的多组资料的变异度(2)比较均数相差悬殊的多组资料变异度计算公式为:3定量资料统计描述例:某地20岁男子100人,其身高均数为166.06cm,标准差为4.95cm,其体重均数为53.72kg,标准差为4.96kg。请比较何者变异度较大。由于两者度量单位不同,不能直接比较标准差,而应比较变异系数。身高体重3定量资料统计描述运用离散指标的注意事项:1.离散指标表示变量值的变异情况,常与集中指标(如均数)结合运用。2.离散指标种类虽多,但一般其值大表示变异大,数值较分散;值小表示变异小,数值较集中。比较两个或几个同类事物的变异,要用
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五版铝合金复合材料研发与应用合同12篇
- 2025版企业设备更新改造贷款合同样本3篇
- 二零二五年度市政绿化带维护承包合同4篇
- 二零二五年度太空探索聘用员工合同
- 2025版土石方居间服务与施工质量协议3篇
- 2025年茅勤离婚协议书婚姻债务清偿标准范本
- 2025年度私人车辆转让与年度租赁服务及维修合同
- 2025年度个人艺术品拍卖居间服务协议4篇
- 二手货车买卖双方权责明确不过户协议版B版
- 二零二五年度印刷材料环保认证合同3篇
- 台儿庄介绍课件
- 疥疮病人的护理
- 人工智能算法与实践-第16章 LSTM神经网络
- 17个岗位安全操作规程手册
- 2025年山东省济南市第一中学高三下学期期末统一考试物理试题含解析
- 中学安全办2024-2025学年工作计划
- 网络安全保障服务方案(网络安全运维、重保服务)
- 2024年乡村振兴(产业、文化、生态)等实施战略知识考试题库与答案
- 现代科学技术概论智慧树知到期末考试答案章节答案2024年成都师范学院
- 软件模块化设计与开发标准与规范
- 2024年辽宁铁道职业技术学院高职单招(英语/数学/语文)笔试历年参考题库含答案解析
评论
0/150
提交评论