定量的统计描述中英.ppt_第1页
定量的统计描述中英.ppt_第2页
定量的统计描述中英.ppt_第3页
定量的统计描述中英.ppt_第4页
定量的统计描述中英.ppt_第5页
已阅读5页,还剩129页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

定量资料的统计描述中英,1、统计工作的基本步骤:designcollectionsortinganalysis2、基本的概念:homogeneityandvariation、populationandsample、parameterandstatistic、samplingerror、variableandvariablevalue、probabilityandfrequencysmallprobabilityeventthesmallprobabilityprinciple3、资料类型quantitativedataqulititativedatarankeddata,review,分析资料(Dataanalysis)统计指标统计描述分布统计图表统计分析参数估计统计推断假设检验,第一章定量资料的统计描述Chapter1Descriptionofquantitivedata,Forexample,某市2005年进行学生体质评价,抽样调查了102名高中男生引体向上完成次数的情况,资料如下:329356532855674565firstthinkabouttwoquestionswhattypedataisit?andhowtodescribethepopulation?,第一节频数分布表section1frequencydistributiontable,一、频数分布表离散型定量变量的频数分布表连续型定量变量的频数分布表二、频数分布表(图)的用途,基本概念,频数:不同组别观察单位的个数。频数分布表(frequencydistributiontable):将分组的标志和相应的频数列表。(简称为频数表)频率分布表(简称为频率表),一、频数分布表的编制,Example1:某市2005年进行学生体质评价,抽样调查了102名高中男生引体向上完成次数的情况,资料如下:3293565328556565试编制完成次数的频数分布表。,资料类型:离散型定量变量资料,表12005年某市102名高中男生引体向上完成次数的频数分布,频数分布图,图12005年某市102名高中男生引体向上完成次数的频数分布,资料类型:连续型定量变量资料,Example2(page7)某年某市120名12岁健康男孩身高资料:142.3156.6142.7145.7138.2141.6.154.0147.7152.3146.6139.2139.9试描述数据的分布-频数分布表,频数分布表的编制(5个步骤)(1)计算全距(极差,range)R=最大值-最小值(2)确定组数与组距(classinterval)组距i=全距/组数,(组中值)确定各组组段的上、下限(不能重叠)第一组组段包括最小值最后一组组段包括最大值,(3)划分组段每个组段的起点称组下限,终点称组上限。最后一个组段应包括最大变量值。(4)统计频数(5)频率与累计频率,频数(率)分布表表1-2某年某市120名12岁健康男孩身高(cm)的频数分布,频数分布图(直方图histogram),图2-1某年某市120名12岁健康男孩身高(cm)的频数分布,图x238名正常人发汞值(g/g),二、频数分布表(图)的用途,(1)揭示资料的分布类型;(2)描述分布的集中趋势和离散趋势;(3)便于发现某些特大和特小的可疑值;(4)便于进一步计算指标和统计分析。,第二节集中趋势的描述Section2descriptionofcentraltendency,平均数(average)常用于描述一组变量值的集中趋势,是反映同质资料的平均水平或集中位置的特征值。,一、算术均数arithmeticmean,简称均数(mean)1、表示符号:populationmeansamplemean2、适用条件:对称分布,尤其是正态、近似正态分布资料3、计算方法:直接法加权法(频数表),表1-4某年某市120名12岁健康男孩身高(cm)的频数分布,4、均数的应用,(1)均数反映一组同质观察值的平均水平,并可作为样本的代表值与其他样本资料进行比较;(2)均数适用于单峰对称分布资料,特别是正态分布或近似正态分布资料,不适于偏态分布;(3),二、几何均数(geometricmean),1、表示符号:G2、适用条件:成等比关系的数据,正偏态分布,以上资料一般呈对数正态分布资料3、计算方法:直接法频数表法(又称加权法),表xxxx抗体滴度频数分布表,几何均数直接法,例1-46人的血清滴度为1:2,1:4,1:8,1:16,1:32,1:64。求平均滴度。,将原始数据取对数,然后利用下面公式求平均滴度。,几何均数加权法表1-5儿童麻疹疫苗接种后血凝抑制抗体滴度几何均数计算表,计算结果如下:,3、几何均数的应用,几何均数常用于变量值间呈倍数关系的偏态分布资料,特别是变量经过对数变换后呈正态分布或近似正态分布的资料。注意:(1)不能有0,若有,加一常数(2)同时有正负值,加一常数,1、定义:将一组变量值从小到大或从大到小按顺序排列,位次居中的变量值称为中位数(median),表示符号:M。2、计算方法:直接法频数表法,三、中位数(median),中位数直接法,例1-6某病患者7人的潜伏期(天)分别为5,6,6,7,9,10,20,求中位数。,中位数(组中值、频数表法)表1-6145例食物中毒病人潜伏期分布表,中位数频数表法表1-6145例食物中毒病人潜伏期分布表,中位数频数表法,3、中位数的应用(1)中位数不受极端值的影响;(2)可用于各种分布资料,,百分位数频数表法,百分位数的使用条件同中位数一样。主要用途为:描述一组资料在某百分位置上的水平;用于确定正常值范围;计算四分位数间距。,四、众数(mode),表示符号:Mo,定义:出现次数最多的数值。例如:数据较少时2453841468频数分布表,众数(频数表法)表x219名乳腺癌患者康复期生存质量评分,小结:集中趋势的描述,常用平均数(average)反映同质资料的平均水平或集中位置的特征值。,GroupA:88910111212GroupB:56810121415GroupC:12510151819,example,三组的平均数都是10,但极差,A组=12-8=4,B组=15-5=10,C组=19-1=18为了说明数据的分布不仅要有集中指标,而且还要用离散指标,必须两者结合。,全距(极差)常用变异指标方差与标准差变异系数四分位数间距,第三节离散趋势的描述Section3descriptionofdiscretetrend,描述变量值的离散趋势用变异指标(又称为离散指标),一、极差(或全距range,R),R=最大值最小值反映变量值总的变异范围各种类型资料都可应用,但只作参考资料,为什么呢?计算简单,不稳定,不全面,易变化;极易受特大、特小值的影响,不能反映所有变量值的离散情况,A组:1014202630B组:1018202230,例:,两组的平均数都是20,极差也都是10,但其内部变化不同。为了说明离散趋势,就要用其他离散指标。,四分位数间距为特定的百分位数,可看作为中间1/2变量值的全距。Q=QuQLQu=P75(upperquartile)QL=P25(lowerquartile),二、四分位数间距QQuartileintervalInter-quartilerange,特点:比极差稳定,也只反映中间两端值的差异。与极差一样,不能反映所有变量值的离散情况。,四分位数间距常用于:描述偏态分布资料、两端无确切值或分布形态不明资料的离散程度。与中位数一起描述变量值的集中趋势和离散趋势。,对于服从正态分布的数据,为了反映每个变量值的离散程度大小,以均数作为比较标准,每个变量值与均数之差,说明离散度大小。Xi差越小,说明变量值离均数越近,离散度越小;反之,越远,离散度越大。为反映全体变量值离散度大小,可计算总体中,每个变量值与总体均数差的和,(Xi),绝对值平方(Xi)2A组:0510B组:333333357777777A组的离散度:(0-5)2+(10-5)2+(5-5)2=50B组的离散度:(3-5)27+(7-5)27+(5-5)2=56,绝对值平方(Xi)2消除例数n的影响,就得到一个表达式:,三、方差(Variance)和标准差(Standarddeviation),为总体标准差s为样本标准差,?,自由度(degreeoffreedom)的概念,n-1是自由度,用希腊小写字母表示,读作nju:。定义:在N维或N度空间中能够自由选择的维数或度数。(描述在X不变的情况下,n个变量值中能自由变动的变量值的个数)例:X=15,例数n=5,可以任意变动的个数为n-1=5-1=4例如:1、3、5、2,第五个数一定是40、1、2、4,8,标准差直接法:用于数据比较少时,例1-12例1-2中7名正常男子红细胞数(1012/L)如下:4.67,4.74,4.77,4.88,4.76,4.72,4.92,计算其标准差。本例n=7,加权法:用于已知频数表情况下表1-4120名12岁健康男孩身高频数分布,加权法:标准差计算实例:,在表中已算得fx=17168,fx2=2460040,代入公式根据频数分布表,可知:频数与组中值,方差的特点,适用正态分布资料,充分反映每个数据间的离散状况,意义深刻,指标稳定,应用广泛;方差的单位与原数据不同,有时使用时不太方便;,标准差的特点,意义同方差,是方差的开平方;标准差的单位与原数据相同,使用方便,意义深刻,应用广泛;故一般已作为医学生物学领域中反映变异的标准,故称标准差。能更完善的反映全体数据资料的分布情况,标准差用途:1.表示同质变量值的离散程度2.与均数结合,表示均数的代表性(xs),描述对称分布,特别是正态分布或近似正态分布的特征3.与均数结合,计算变异系数CV4.与样本含量(n)结合,计算标准误,注意,对于对称分布,特别是正态分布,标准差的大小反映了变量值的绝对离散度。但当两组或多组变量值的单位不同或均数相差较大时,就不能用两个或多个标准差的大小来比较离散程度的大小。为什么呢?我们可以从一个实例与标准差的公式来看一下原因。,例1-14某地20岁男子160人,身高均数为166.06cm,标准差为4.95cm;体重均数为53.72kg,标准差为4.96kg。试比较身高与体重的变异程度。从实际情况考虑,从标准差公式考虑,example,引入一个新的离散指标:变异系数,标准差的公式,S的大小不仅与差有关系,而且还有其数值的大小有关。,三、变异系数(Coefficientofvariation,CV)适用条件:对称分布,特别是正态分布,从上式可以看出:1)cv无量纲单位,可比较不同单位指标间的变异度;2)cv消除了均数大小的影响,可以比较均数相差较大指标间的变异度。所以cv的用途就是:1)比较多组单位不同资料的变异度2)比较多组均数相差较大资料的变异度,例1-14某地20岁男子160人,身高均数为166.06cm,标准差为4.95cm;体重均数为53.72kg,标准差为4.96kg。试比较身高与体重的变异程度。,身高,体重,补充:数据分布性状偏度,1、偏度(skewness)又称偏态系数1)定义:描述数据分布非对称性的统计量,记为2)特点:分布对称正偏或右偏负偏或左偏,2、峰度(kurtosis)又称峰态系数1)定义:描述数据分布平峰或尖峰程度的统计量,记为:2)特点:与标准正态分布相比较,标准正态分布,Normaldistributioncurve,第四节正态分布Normaldistribution一、正态分布的概念和特征正态分布是以均数为中心呈对称的钟型分布,平时,很少有人会去关心小球下落位置的规律性,人们可能不相信它是有规律的。一旦试验次数增多并且注意观察的话,你就会发现,最后我们得到的竟是一条优美的曲线。,演示:高尔顿钉板试验,高尔顿钉板试验,这条曲线就近似我们将要介绍的正态分布的密度曲线。,在十九世纪前叶由德国数学家Gauss率先将其应用于天文学研究,故又称高斯分布。,棣莫佛,首先由德国的数学家和天文学家DeMoivre于1733年首次提出。,高斯,正态分布是应用最广泛的一种连续型分布。,1、whatisthenormaldistribution?,对于连续型随机变量,一般是给出它的概率密度函数。,若x的概率密度为,f(x)所确定的曲线叫作正态分布曲线。,其中和都是常数,则称x服从参数为和的正态分布。,正态分布曲线thecurveofnormaldistribution,连续型随机变量唯一地由它的密度函数所描述,我们来看看正态分布的密度函数有什么特点。,2、thecharacteristicsofthenoramldistribution,位置参数,形状参数,正态曲线下的面积分布规律,F(X),f(x),通过积分求一定面积,(7)正态曲线下面积分布规律,通过积分求一定面积。,无论取什么值,正态曲线与横轴间的面积总等于1,面积总等于1,熟记下列常用的曲线下面积分布规律:,1,2,3,请同学们想一想,具有这些特点的随机变量有哪些呢?,人的身高高低不等,但中等身材的占大多数,特高和特矮的只是少数,而且较高和较矮的人数大致相近,这从一个方面反映了服从正态分布的随机变量的特点。,除了身高外,在正常条件下我们的体重、胸围、血红蛋白含量等生理指标、实验中的随机误差等等,都服从或近似服从正态分布。,为了应用方便,令,Z服从均数为0、标准差为1的正态分布,Standardnormaldistribution,Z变换,z=(x-)/即x=+z,一般正态分布,标准正态分布或Z分布,Z0,二、标准正态分布(Z-distribution)服从均数为0,标准差为1,即N(0,12)的正态分布其转换公式为:Z=(x)/,0Z,(z),(z),查附表2(p)标准正态分布曲线下面积表时注意:,1、表中曲线下面积为-到z的左侧累计面积2、当已知、和x时,先按公式求得z值,再查表;z=(x-)/未知、时,可用样本均数x和标准差s分别代替。3、曲线下横轴上的总面积为100%或1,标准正态分布曲线下的面积,三、正态分布的应用application,(一)频数(率)估计,(二)制定医学参考值范围,(三)质量控制,(四)正态分布是许多统计方法的理论基础,(一)估计总体变量值的频率分布,例已知120名9岁男孩的肺活量均数为1.672L,S=0.298L,试估计该市肺活量介于1.2001.500L范围内的9岁男孩的比例。分析:(1)统计推断:样本信息推断总体特征,(2)肺活量服从正态分布;(3)曲线下面积为1,面积=概率或频率;(4)一般正态分布转化到标准正态分布,求这部分面积,N(0,12),标准正态分布,对应到标准正态分布中是这部分面积,查表确定标准正态分布曲线下的面积时必须注意:,(1)当,和X已知时,先按Z变换公式求得Z值,再用Z值查表;,当,未知时,用样本均数和样本标准差S代替,再求Z值。,(2)查表时,可以利用标准正态分布的两个特征:,欲估计肺活量界于1.200-1.500L范围内的9岁男孩的比例及人数。,N(0,12),标准正态分布,对应到标准正态分布中是这部分面积,-0.58,-1.58,(Z1)=(-1.58)=0.0571,(Z2)=(-0.58)=0.2810,(Z2)-(Z1)=0.2810-0.0571=0.2239=22.39%,即肺活量界于1.200-1.500L范围内的9岁男孩比例为22.39%。人数?,查标准正态分布曲线下面积表,找出Z1与Z2对应的左侧尾部面积(概率或频率),(二)制定医学参考值范围,1、医学参考值范围意义:医学参考值范围(亦称为正常值范围)是指绝大多数正常人的人体形态、功能和代谢产物等各种生理及生化指标观察值的波动范围。它主要用于划分正常与异常的界限。,2、医学参考值范围制定的原则(总述),(2)对选定的正常人使用统一而准确的测定方法,(3)考虑是否应按性别、年龄、职业等因素分组确定医学参考值范围,(4)确定取单侧还是双侧医学参考值范围,(5)选定适当的百分界限,(6)选择适当制定方法,(1)抽取足够数量的“正常人”作为调查对象,2、医学参考值范围制定的一般原则:(1)抽取足够数量的“正常人”作为调查对象,“正常人”不是指任何一点小病都没有的人,而是指排除影响被研究指标的疾病和因素的人。,例如:制定SGPT(谷丙转氨酶)正常值范围,“正常人”的条件是:,医学参考值范围制定所需的样本例数一般要求n100,(2)对选定的正常人进行统一而准确的测定:测定的方法、仪器、试剂,操作的熟练程度,方法的精确度均要统一;要尽量与应用医学参考值范围时的实际情况一致。,(3)考虑是否应按性别、年龄、职业等因素分组确定医学参考值范围。,原则上,组间差别明显,并有实际意义,应分开制定,否则应合并。,考察组间差别最简便而有效的方法是:从频数分布表,直接比较各组的分布范围,高峰位置,分布趋势等是否相近,如相近就合并,如差异明显,就分组。或做两样本均数的假设检验,有差别就分组,无差别就合并。,(4)确定取单侧还是双侧医学参考值范围。,白细胞数过高和过低均属于异常,需制定下限(最小值)和上限(最大值),称双侧医学参考值范围。,肺活量只过低为异常,只需制定医学参考值范围的下限;尿铅只过高为异常,只需制定医学参考值范围的上限;均称单侧医学参考值范围。,(5)选定适当的百分界限。,正常值范围的意思:绝大多数正常人的某项观察值均在该范围之内。这个绝大多,习惯上指正常人的80、90、95、99(最常用是95)。,根据所选定的百分界限,会造成假阳性或/和假阴性。,如何选定百分位数,以平衡假阳性和假阴性:,当正常人和病人观测指标的数值分布没有重叠时,诊断值很明确。这时只要求减少假阳性,则取99较为理想。,正常人,病人,诊断界值,当正常人分布与病人分布有重叠时,(6)选择适当制定方法。,制定医学参考值范围常用方法:正态分布法百分位数法,951.64S992.33S,951.64S992.33S,单侧,正态分布法适用范围:(近似)正态分布或对数正态分布资料计算公式:ZS,下限,上限,百分位数法,适用范围:,a.偏态分布资料b.分布不清资料c.开口资料,计算公式:,(三)质量控制,2S,3S,上控制线,下控制线,警戒线,警戒

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论