




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
计量资料的统计描述
statisticaldescription计量资料的统计描述
statisticaldescrip1本次课内容一、计量资料的频数分布二、集中趋势指标三、离散趋势指标四、正态分布本次课内容2计量资料(复习)统计描述(statisticaldescription):对资料的属性、特点进行的有关叙述、显示、计算等,是统计推断的基础。描述必须基于资料的分布(distribution)类型,主要是资料的分布特征。分布类型不同,统计指标不同。计量资料(复习)3分布:数值在所研究样本(或总体)中的存在状态,通常用频数(frequency)来表示。频数:某变量值出现的次数(某现象发生的次数)。分布:数值在所研究样本(或总体)中的存在状态,通常用频数(f4某市1995年110名7岁男童的身高(cm)频数表某市1995年110名7岁男童的身高(cm)频数表5身高(cm)某市1995年110名7岁男童的身高分布直方图身高(cm)6频数表揭示频数的两个重要特征:集中趋势(centraltendency):数值高低不等,但中等水平的人数最多。离散趋势(tendencyofdispersion):数值之间参差不齐;逐渐变大(或变小)的人数渐少。向两端分散。两方面含义:数值大小和位置。频数表揭示频数的两个重要特征:7集中趋势centraltendency平均数(average):用于描述数值变量资料的集中趋势(平均水平)。特点:简明概括,便于比较。包括:算术平均数,几何平均数,中位数,百分位数集中趋势centraltendency平均数(averag81、算术平均数(arithmeticmean)一组变量值之和除以变量值个数所得的商,简称均数。总体均数µ,样本均数表示。适用条件:资料成正态分布(或近似正态,或对称分布)。计算方法:直接法,加权法1、算术平均数(arithmeticmean)9直接法:当样本的观察值个数不多时,将各观察值X1,X2,……,Xn相加再除以观察值的个数n(样本含量)即得均数。公式:直接法:当样本的观察值个数不多时,将各观察值X1,X2,……10加权法weightedmethod当观察值个数较多时,可先将各观察值分组归纳成频数表,用加权法求均数。利用频数表,计算组中值(为本组段的下限与相邻较大组段的下限的均值),各组段频数与组中值的乘积,近似等于该组变量值之和,各乘积之和除以总频数,所得的商,就是均数。加权法weightedmethod11加权法计算算数均数的公式加权法计算算数均数的公式12例题:计算算术均数直接法:略例题:计算算术均数直接法:略13加权法加权法14均数的两个重要属性:(1)各离均差(各观察值与均数之差)的总和等于零。(2)离均差的平方和小于各个观察值X与任何数a()之差的平方和。均数是一组观察值理想的代表值。均数的两个重要属性:15均数的应用:(1)只能在合理分布的基础上,对同质事物求均数才有意义,才能反映事物的特性。(2)均数最适用于对称分布,尤其是正态分布资料。此时,均数位于分布的中央,能反映观察值的集中趋势。均数的应用:162、几何均数geometricmeanG将n个观察值的乘积再开n次方的方根(或各观察值对数值均值的反对数)。适用条件:(1)观察值为非对称分布,差距较大,用算术均数表示其平均水平会受少数特大或特小值影响;2、几何均数geometricmeanG17(2)数值按大小顺序排列后,各观察值呈倍数关系或近似倍数关系。如:抗体滴度,药物效价等几何均数是算数均数的近似值。(2)数值按大小顺序排列后,各观察值呈倍数关系或近似倍数关系18直接法:当观察例数不多时采用。加权法:观察例数多时采用。直接法:当观察例数不多时采用。19为什么滴度资料的几何均数需校正?假设有13人接种疫苗后抗体滴度为:1/20,1/20,1/40,1/40,1/40,1/80,1/80,1/80,1/80,1/80,1/80,1/160,1/320可以证明,这种取下限值的计算,会使得到的几何均数偏小,即:几何均数在取反对数之前偏小半个组距(在作d倍稀释时就是1/2lgd)。为什么滴度资料的几何均数需校正?假设有13人接种疫苗后抗体滴20几何均数的应用:(1)常用于等比级数资料,滴度,效价,卫生事业平均发展速度,人口几何增长,对数正态分布资料;(2)观察值不能有0;(3)观察值不能同时有正值和负值。(4)同一组资料求得的几何均数小于算术均数。几何均数的应用:21几何均数的计算3,4,5,6,17,算数均数:几何均数:几何均数的计算3,4,5,6,17,223、中位数(median,M):位于中间位置上的数值。把一组观察值,按大小顺序排列,位置居中的变量值(奇数个)或位置居中的两个变量值的均值(偶数个)。是位置指标,以中位数为界,将观察值分为两半,有一半比它大,一般比它小。3、中位数(median,M):23中位数适用于:(1)资料偏态分布;(2)两端无确定数值;(3)资料分布不清楚;潜伏期,毒物测定值等用中位数表示其集中趋势。中位数适用于:24中位数的算法:未分组资料,依变量个数定。
中位数的算法:未分组资料,依变量个数定。
25分组资料,用下公式。L:中位数所在组的下限W:中位数所在组的宽度f:中位数所在组的频数(例数)n:总频数C:中位数所在组的前一组的累计频数分组资料,用下公式。26中位数常用于描述偏态分布资料的集中趋势,它反映居中位置的变量值的大小。不受特大,特小值的影响,只受位置居中的观察值的影响,因而不够敏感。
而均数,几何均数是由全部观察值综合计算出的,敏感性好。理论上,中位数等于算术均数。中位数常用于描述偏态分布资料的集中趋势,它反映居中位置的27例题:
中位数的计算P24
例题:
中位数的计算P24
284、百分位数(percentile,P):位于某个百分位置上的数值。把一组数据从小到大排列,分成100等份,各等份含1%的观察值,处在分割界线上的数值,就是百分位数,Pr表示。4、百分位数(percentile,P):29百分位数将总体或样本的全部观察值分为两部分,理论上有r%的观察值比它小,有(100-r)%的观察值比它大。如含量为n的样本,P5即表示:理论上有n5%个观察值比P5小,有n95%个观察值比P5大。常用的百分位数:5,25,75,95分位数。百分位数将总体或样本的全部观察值分为两部分,理论上有r%的观30百分位数频数表法计算:Pr:百分位数;L:该百分位数所在组段的下限;W:组距;f:该百分位数所在组段的频数;C:小于L的各组段的累积频数;n:样本数中位数是特殊的百分位数。百分位数频数表法计算:31平均数标准差课件32图解法计算百分位数也可用图解法:横轴:变量值;纵轴:累计百分数p25图解法计算百分位数也可用图解法:横轴:变量值;纵轴:累计百分33百分位数常用于描述一组资料在某百分位置上的水平和分布特征。多个百分位数结合使用,可更全面地描述总体或样本的分布特征,包括位置大小和变异度。百分位数常用于描述一组资料在某百分位置上的水平和分布特征34例题:百分位数的计算,P25例题:百分位数的计算,P2535百分位数常用于确定医学正常值范围(normalrange)。医学正常值范围,不用样本观察值的极差,习惯上用包括95%正常人的界值,百分位数是数列的百分界值。如:白细胞数的确定,过高,过低都属异常,故计算P2.5,P97.5,为双侧的正常值范围。百分位数常用于确定医学正常值范围(normalrange)36如:肺活量95%正常值范围,只有过低算异常,故计算P5.如:尿铅,过高为异常,故计算P95.如:肺活量95%正常值范围,只有过低算异常,故计算P5.37一般地说,分布中部的百分位数相当稳定,具有较好代表性,靠近两端的百分位数,只在样本含量足够大时,才稳定,故样本量不够大时,不应取太近两端的百分位数。以上是集中趋势指标。一般地说,分布中部的百分位数相当稳定,具有较好代表性38脑筋急转弯:
请看下面数据,有问题吗?A:89101112B:37101317两组均数都为10,但离散程度不同,B组较大。均数只反映平均水平,不能反映离散度。脑筋急转弯:
请看下面数据,有问题吗?A:891039离散趋势tendencyofdispersion全距,四分位数间距,方差,标准差,变异系数。全距(Range):极大与极小值之差。全距大,资料离散程度大,但易受极端值大小的影响。样本量越大,抽到极端值的可能性越大,全距可能会越大。故:全距不宜单独使用。离散趋势tendencyofdispersion全距,四40
四分位数间距(quartileintervalQ):将一组资料分为四等份,上四分位数P75和下四分位数P25之差,叫四分位数间距。意义:Q越大,离散程度越大,通常用于描述偏态分布资料的离散程度。四分位数间距(quartileintervalQ)41优点:比全距稳定;若资料一端或两端无确切数值,只能选择Q作为离散指标。
缺点:未考虑全部观察值,不能全面反映资料离散趋势。优点:比全距稳定;若资料一端或两端无确切数值,只能选择Q作为42方差(variance)和标准差(standarddeviationSD)对总体而言,为了克服极差和四分位数间距的缺点,要描述资料的离散趋势,必须考虑到各个观察值,离均差的平方和是最好的指标,
方差(variance)和标准差(standarddevi43总体方差:样本方差:为了消除例数的影响,其取均值,就是方差。总体方差:44标准差:方差的平方根的正值。总体的标准差:样本的标准差:自由度=n-1标准差:方差的平方根的正值。45自由度:一组数据中可以自由取值的数据的个数。当样本数据的个数为n时,若样本均值x确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值。自由度:一组数据中可以自由取值的数据的个数。46样本方差除以自由度,从实际应用角度看,在抽样估计中,当用样本方差去估计总体方差σ2时,它是σ2的无偏估计量.样本方差除以自由度,从实际应用角度看,在抽样估计中,当用47样本的标准差:样本的标准差:48平均数标准差课件49xx21181392412214884989604104108161221488412214884686(合计)78996(合计)血红蛋白数据标准差的计算:xx211813924122148849896041041050分组资料的标准差计算分组资料的标准差计算51方差,标准差意义:方差,标准差越大,变异程度越大。其值越小,观察值的离散度越小,用均数反映平均水平的代表性越好。方差,标准差意义:52了解一下:离均差平方和是表示某变量总变异的一种形式,即:了解一下:离均差平方和是表示某变量总变异的一种形式,即:53关于离均差平方和的三条规则1、原始数据加(减)一个数,离均差平方和或积和不变。2、原始数据除以一个数,则简化计算出的离均差平方和要乘上该数的平方。3、如将两变量之一除以一个数,则离均差积和要乘以该数;如同时另一变量也除以一个数,则离均差积和要同时乘上该两数。关于离均差平方和的三条规则1、原始数据加(减)一个数,离均差54标准差应用(1)反映一组观察值的离散程度:
直接比较标准差:数值单位相同;计算变异系数:数值单位不同;标准差应用(1)反映一组观察值的离散程度:55变异系数(coefficientofvariation,CV)也称离散系数(coefficientofdispersion)标准差与均数之比用百分数表示。公式:变异系数(coefficientofvariation,56常用于比较度量单位不同或均数相差悬殊的资料的变异。同时考虑了均数和标准差,更客观。比如:身高,体重的变异比较;常用于比较度量单位不同或均数相差悬殊的资料的变异。同时考虑了57(2)估计变量值的频数分布正态曲线,正态分布normaldistribution正态分布标准正态分布面积(或概率)μ-1σ~μ+1σ-1~+168.27%μ–1.96σ~μ+1.96σ-1.96~+1.9695.00%μ–2.58σ~μ+2.58σ-2.58~+2.5899.00%正态分布标准正态分布面积μ-1σ~μ+1σ-1~58(3)计算标准误(4)估计医学正常值范围:双侧:均数±1.96倍标准差单侧:均数±1.645倍标准差(3)计算标准误59概念:又称高斯分布。频数分布以均数为中心,左右两侧基本对称,靠近均数两侧频数较多,离均数愈远,频数愈少,形成一个中间多,两侧逐渐减少,基本对称的分布。是一种连续型分布。正态分布(normaldistribution)概念:又称高斯分布。正态分布(normaldistrib60当样本量扩大,组段分细,频数分布图中的直条变窄,表现出中间高,两侧逐渐降低,并完全对称的特点;如果将各直条顶端的中点连线,就接近于一条光滑的曲线,称为正态曲线。用N(µ,)表示,其位置与均数有关,形状与标准差有关。当样本量扩大,组段分细,频数分布图中的直条变窄,表现出中间高61医学现象许多呈正态分布,或近似正态分布。如:正常人的生理,生化指标变量,等。医学现象许多呈正态分布,或近似正态分布。62高斯(JohannCarlFriedrichGauss)生于1777年4月30日于不伦瑞克,卒于1855年2月23日于哥廷根,德国著名数学家、天文学家、大地测量学家、物理学家。被认为是最重要的数学家,并有数学王子的美誉。高斯(JohannCarlFriedrichGauss63平均数标准差课件64对称分布正(右)偏分布负(左)偏分布几种常见的频数分布对称分布正(右)偏分布负(左)偏分布几种常见的频数分布65正态分布之所以重要,原因很多,三个主要的原因:1.正态分布在分析上较易处理。2.正态分布之p.d.f.的图形为钟形曲线(bell-shapedcurve),再加上对称性,使得很适合当做不少事件之机率模式。3.正态分布可当做不少大样本的近似分布。概率密度函数(p.d.f.,probabilitydensityfunction)描述了随机变量的机率分布,为累积分布函数的导函数。
正态分布之所以重要,原因很多,三个主要的原因:66概率密度函数(p.d.f.,probabilitydensityfunction)对于一维实随机变量X,任何一个满足下列条件的函数fX(x)都可以被定义为其概率密度函数:
随机变量X在区间上的概率可以由其概率密度函数的定积分表示:而是X的累积分布函数,显然概率密度函数是它的导函数。概率密度函数(p.d.f.,probabilitydens67从直方图到正态曲线的过渡从直方图到正态曲线的过渡68正态分布的两个参数:µ,决定了曲线的形状和位置正态分布的两个参数:µ,决定了曲线的形状和位置69平均数标准差课件70正态分布的密度函数(概率密度函数probabilitydensityfunction,p.d.f):式中μ为均数;σ为标准差;π为圆周率;е为自然对数的底,即2.71828。以上均为常数,仅x为变量。正态分布的密度函数(概率密度函数probabilityd71标准正态分布:为了应用方便,常将式进行变量变换,u变换,u变换后,μ=0,σ=1,使原来的正态分布变换为标准正态分布(SND,standardnormaldistribution)亦称u分布。标准正态分布:72标准正态分布的概率密度函数:正态分布曲线的模拟标准正态分布的概率密度函数:正态分布曲线的模拟73正态分布的特征和分布规律:(1)曲线在x轴的上方,与x轴不相交,当x=μ时,曲线位于最高点。(2)曲线关于直线x=μ左右对称。(3)正态分布有两个参数:均数,标准差;标准正态的参数分别为:0,1(4)正态曲线在1σ,标准正态曲线在1处各有一个拐点,(5)正态分布的面积分布有一定规律。正态分布的特征和分布规律:74正态曲线下面积的分布规律正态曲线下,横轴上一定区间的面积,等于该区间的频数发生的概率。面积可用积分求得。F(x)为正态变量X的累计分布函数,反映正态曲线下,自-到x的面积,即左侧累计面积。正态曲线下面积的分布规律75平均数标准差课件76统计学家已经按(4)编成了附表,标准正态分布曲线下的面积。应用时注意:(1)当总体μ,σ已知时,先计算u值,再用u值查表,得出所求区间面积占总面积的比例。如果未知,常分别用样本均数和样本标准差来估计。(2)曲线下对称于0的区间,面积相等。如:区间(,-2.58)与区间(2.58,)的面积相等。(3)曲线下横轴上的总面积为100%或为1。根据后两个特征,可计算右侧累计面积。正态分布表的用法P545统计学家已经按(4)编成了附表,标准正态分布曲线下的面积。应77单侧,双侧的概念:以均数为对称轴,只考虑低于(或高于)某值,为单侧;若关心数值可高,可低,为双侧。单侧,双侧的概念:以均数为对称轴,只考虑低于(或高于)某值,78正态分布标准正态分布面积(或概率)μ-1σ__μ+1σ-1__+168.27%μ–1.96σ__μ+1.96σ-1.96__+1.9695.00%μ–2.58σ__μ+2.58σ-2.58__+2.5899.00%正态分布和标准正态分布曲线下面积分布规律正态分布标准正态分布面积μ-1σ__μ+1σ-1__+79标准正态曲线下任意区间的面积有规律标准正态曲线下任意区间的面积有规律80(-1,1),68.27%(-1.96,1.96),95%(-2.58,2.58),99%双侧概率(-1,1),68.27%(-1.96,1.96),95%(81单侧概率单侧概率82正态曲线下面积的分布规律的应用:一、确定医学参考值范围意义:是正常人指标测定值的波动范围,可用于划分正常,或异常。步骤:1、抽样2、控制测量误差3、取单侧或双侧4、选定合适的百分界限5、资料正态性检验6、进行参考值估计正态曲线下面积的分布规律的应用:83确定医学参考值范围常用方法:正态分布法对数正态分布法百分位数法确定医学参考值范围常用方法:正态分布法8495%正常值范围的估计适用对象双侧界限单侧上界单侧下界正态分布法正态、近似正态对数正态法对数正态、近似正态百分位数法偏态95%正常值范围的估计适用对象双侧界限单侧上界单侧下界正态分85正常值范围的上下限单侧下限单侧上限正常值范围的上下限单侧下限单侧上限86双侧界限双侧界限87例:用正态分布法求血糖值95%的参考值范围。解:1、求样本的均数4.653、标准差0.401。2、按照双侧95%范围,确定参考值范围为:3、将样本的均数、标准差数值代入计算,得出范围。例:用正态分布法求血糖值95%的参考值范围。88二、确定概率分布:例:某市2000年110名7岁男童身高,已知均数=119.95厘米,标准差S=4.72厘米,估计:该地7岁男童身高在110厘米以下者占该地7岁男童总数的百分数。按:求u值,查表(p545):找到-2.1,上方找到0.01,二者相交处为0.0174,概率为0.0174=1.74%,即该地7岁男童身高在110厘米以下者,估计占1.74%,不到2%。二、确定概率分布:89三、质量控制:实验中,常以作为上下警戒值,以作为上下控制值。正态分布是很多统计方法的理论基础三、质量控制:90本次课程结束,谢谢!本次课程结束,谢谢!91计量资料的统计描述
statisticaldescription计量资料的统计描述
statisticaldescrip92本次课内容一、计量资料的频数分布二、集中趋势指标三、离散趋势指标四、正态分布本次课内容93计量资料(复习)统计描述(statisticaldescription):对资料的属性、特点进行的有关叙述、显示、计算等,是统计推断的基础。描述必须基于资料的分布(distribution)类型,主要是资料的分布特征。分布类型不同,统计指标不同。计量资料(复习)94分布:数值在所研究样本(或总体)中的存在状态,通常用频数(frequency)来表示。频数:某变量值出现的次数(某现象发生的次数)。分布:数值在所研究样本(或总体)中的存在状态,通常用频数(f95某市1995年110名7岁男童的身高(cm)频数表某市1995年110名7岁男童的身高(cm)频数表96身高(cm)某市1995年110名7岁男童的身高分布直方图身高(cm)97频数表揭示频数的两个重要特征:集中趋势(centraltendency):数值高低不等,但中等水平的人数最多。离散趋势(tendencyofdispersion):数值之间参差不齐;逐渐变大(或变小)的人数渐少。向两端分散。两方面含义:数值大小和位置。频数表揭示频数的两个重要特征:98集中趋势centraltendency平均数(average):用于描述数值变量资料的集中趋势(平均水平)。特点:简明概括,便于比较。包括:算术平均数,几何平均数,中位数,百分位数集中趋势centraltendency平均数(averag991、算术平均数(arithmeticmean)一组变量值之和除以变量值个数所得的商,简称均数。总体均数µ,样本均数表示。适用条件:资料成正态分布(或近似正态,或对称分布)。计算方法:直接法,加权法1、算术平均数(arithmeticmean)100直接法:当样本的观察值个数不多时,将各观察值X1,X2,……,Xn相加再除以观察值的个数n(样本含量)即得均数。公式:直接法:当样本的观察值个数不多时,将各观察值X1,X2,……101加权法weightedmethod当观察值个数较多时,可先将各观察值分组归纳成频数表,用加权法求均数。利用频数表,计算组中值(为本组段的下限与相邻较大组段的下限的均值),各组段频数与组中值的乘积,近似等于该组变量值之和,各乘积之和除以总频数,所得的商,就是均数。加权法weightedmethod102加权法计算算数均数的公式加权法计算算数均数的公式103例题:计算算术均数直接法:略例题:计算算术均数直接法:略104加权法加权法105均数的两个重要属性:(1)各离均差(各观察值与均数之差)的总和等于零。(2)离均差的平方和小于各个观察值X与任何数a()之差的平方和。均数是一组观察值理想的代表值。均数的两个重要属性:106均数的应用:(1)只能在合理分布的基础上,对同质事物求均数才有意义,才能反映事物的特性。(2)均数最适用于对称分布,尤其是正态分布资料。此时,均数位于分布的中央,能反映观察值的集中趋势。均数的应用:1072、几何均数geometricmeanG将n个观察值的乘积再开n次方的方根(或各观察值对数值均值的反对数)。适用条件:(1)观察值为非对称分布,差距较大,用算术均数表示其平均水平会受少数特大或特小值影响;2、几何均数geometricmeanG108(2)数值按大小顺序排列后,各观察值呈倍数关系或近似倍数关系。如:抗体滴度,药物效价等几何均数是算数均数的近似值。(2)数值按大小顺序排列后,各观察值呈倍数关系或近似倍数关系109直接法:当观察例数不多时采用。加权法:观察例数多时采用。直接法:当观察例数不多时采用。110为什么滴度资料的几何均数需校正?假设有13人接种疫苗后抗体滴度为:1/20,1/20,1/40,1/40,1/40,1/80,1/80,1/80,1/80,1/80,1/80,1/160,1/320可以证明,这种取下限值的计算,会使得到的几何均数偏小,即:几何均数在取反对数之前偏小半个组距(在作d倍稀释时就是1/2lgd)。为什么滴度资料的几何均数需校正?假设有13人接种疫苗后抗体滴111几何均数的应用:(1)常用于等比级数资料,滴度,效价,卫生事业平均发展速度,人口几何增长,对数正态分布资料;(2)观察值不能有0;(3)观察值不能同时有正值和负值。(4)同一组资料求得的几何均数小于算术均数。几何均数的应用:112几何均数的计算3,4,5,6,17,算数均数:几何均数:几何均数的计算3,4,5,6,17,1133、中位数(median,M):位于中间位置上的数值。把一组观察值,按大小顺序排列,位置居中的变量值(奇数个)或位置居中的两个变量值的均值(偶数个)。是位置指标,以中位数为界,将观察值分为两半,有一半比它大,一般比它小。3、中位数(median,M):114中位数适用于:(1)资料偏态分布;(2)两端无确定数值;(3)资料分布不清楚;潜伏期,毒物测定值等用中位数表示其集中趋势。中位数适用于:115中位数的算法:未分组资料,依变量个数定。
中位数的算法:未分组资料,依变量个数定。
116分组资料,用下公式。L:中位数所在组的下限W:中位数所在组的宽度f:中位数所在组的频数(例数)n:总频数C:中位数所在组的前一组的累计频数分组资料,用下公式。117中位数常用于描述偏态分布资料的集中趋势,它反映居中位置的变量值的大小。不受特大,特小值的影响,只受位置居中的观察值的影响,因而不够敏感。
而均数,几何均数是由全部观察值综合计算出的,敏感性好。理论上,中位数等于算术均数。中位数常用于描述偏态分布资料的集中趋势,它反映居中位置的118例题:
中位数的计算P24
例题:
中位数的计算P24
1194、百分位数(percentile,P):位于某个百分位置上的数值。把一组数据从小到大排列,分成100等份,各等份含1%的观察值,处在分割界线上的数值,就是百分位数,Pr表示。4、百分位数(percentile,P):120百分位数将总体或样本的全部观察值分为两部分,理论上有r%的观察值比它小,有(100-r)%的观察值比它大。如含量为n的样本,P5即表示:理论上有n5%个观察值比P5小,有n95%个观察值比P5大。常用的百分位数:5,25,75,95分位数。百分位数将总体或样本的全部观察值分为两部分,理论上有r%的观121百分位数频数表法计算:Pr:百分位数;L:该百分位数所在组段的下限;W:组距;f:该百分位数所在组段的频数;C:小于L的各组段的累积频数;n:样本数中位数是特殊的百分位数。百分位数频数表法计算:122平均数标准差课件123图解法计算百分位数也可用图解法:横轴:变量值;纵轴:累计百分数p25图解法计算百分位数也可用图解法:横轴:变量值;纵轴:累计百分124百分位数常用于描述一组资料在某百分位置上的水平和分布特征。多个百分位数结合使用,可更全面地描述总体或样本的分布特征,包括位置大小和变异度。百分位数常用于描述一组资料在某百分位置上的水平和分布特征125例题:百分位数的计算,P25例题:百分位数的计算,P25126百分位数常用于确定医学正常值范围(normalrange)。医学正常值范围,不用样本观察值的极差,习惯上用包括95%正常人的界值,百分位数是数列的百分界值。如:白细胞数的确定,过高,过低都属异常,故计算P2.5,P97.5,为双侧的正常值范围。百分位数常用于确定医学正常值范围(normalrange)127如:肺活量95%正常值范围,只有过低算异常,故计算P5.如:尿铅,过高为异常,故计算P95.如:肺活量95%正常值范围,只有过低算异常,故计算P5.128一般地说,分布中部的百分位数相当稳定,具有较好代表性,靠近两端的百分位数,只在样本含量足够大时,才稳定,故样本量不够大时,不应取太近两端的百分位数。以上是集中趋势指标。一般地说,分布中部的百分位数相当稳定,具有较好代表性129脑筋急转弯:
请看下面数据,有问题吗?A:89101112B:37101317两组均数都为10,但离散程度不同,B组较大。均数只反映平均水平,不能反映离散度。脑筋急转弯:
请看下面数据,有问题吗?A:8910130离散趋势tendencyofdispersion全距,四分位数间距,方差,标准差,变异系数。全距(Range):极大与极小值之差。全距大,资料离散程度大,但易受极端值大小的影响。样本量越大,抽到极端值的可能性越大,全距可能会越大。故:全距不宜单独使用。离散趋势tendencyofdispersion全距,四131
四分位数间距(quartileintervalQ):将一组资料分为四等份,上四分位数P75和下四分位数P25之差,叫四分位数间距。意义:Q越大,离散程度越大,通常用于描述偏态分布资料的离散程度。四分位数间距(quartileintervalQ)132优点:比全距稳定;若资料一端或两端无确切数值,只能选择Q作为离散指标。
缺点:未考虑全部观察值,不能全面反映资料离散趋势。优点:比全距稳定;若资料一端或两端无确切数值,只能选择Q作为133方差(variance)和标准差(standarddeviationSD)对总体而言,为了克服极差和四分位数间距的缺点,要描述资料的离散趋势,必须考虑到各个观察值,离均差的平方和是最好的指标,
方差(variance)和标准差(standarddevi134总体方差:样本方差:为了消除例数的影响,其取均值,就是方差。总体方差:135标准差:方差的平方根的正值。总体的标准差:样本的标准差:自由度=n-1标准差:方差的平方根的正值。136自由度:一组数据中可以自由取值的数据的个数。当样本数据的个数为n时,若样本均值x确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值。自由度:一组数据中可以自由取值的数据的个数。137样本方差除以自由度,从实际应用角度看,在抽样估计中,当用样本方差去估计总体方差σ2时,它是σ2的无偏估计量.样本方差除以自由度,从实际应用角度看,在抽样估计中,当用138样本的标准差:样本的标准差:139平均数标准差课件140xx21181392412214884989604104108161221488412214884686(合计)78996(合计)血红蛋白数据标准差的计算:xx2118139241221488498960410410141分组资料的标准差计算分组资料的标准差计算142方差,标准差意义:方差,标准差越大,变异程度越大。其值越小,观察值的离散度越小,用均数反映平均水平的代表性越好。方差,标准差意义:143了解一下:离均差平方和是表示某变量总变异的一种形式,即:了解一下:离均差平方和是表示某变量总变异的一种形式,即:144关于离均差平方和的三条规则1、原始数据加(减)一个数,离均差平方和或积和不变。2、原始数据除以一个数,则简化计算出的离均差平方和要乘上该数的平方。3、如将两变量之一除以一个数,则离均差积和要乘以该数;如同时另一变量也除以一个数,则离均差积和要同时乘上该两数。关于离均差平方和的三条规则1、原始数据加(减)一个数,离均差145标准差应用(1)反映一组观察值的离散程度:
直接比较标准差:数值单位相同;计算变异系数:数值单位不同;标准差应用(1)反映一组观察值的离散程度:146变异系数(coefficientofvariation,CV)也称离散系数(coefficientofdispersion)标准差与均数之比用百分数表示。公式:变异系数(coefficientofvariation,147常用于比较度量单位不同或均数相差悬殊的资料的变异。同时考虑了均数和标准差,更客观。比如:身高,体重的变异比较;常用于比较度量单位不同或均数相差悬殊的资料的变异。同时考虑了148(2)估计变量值的频数分布正态曲线,正态分布normaldistribution正态分布标准正态分布面积(或概率)μ-1σ~μ+1σ-1~+168.27%μ–1.96σ~μ+1.96σ-1.96~+1.9695.00%μ–2.58σ~μ+2.58σ-2.58~+2.5899.00%正态分布标准正态分布面积μ-1σ~μ+1σ-1~149(3)计算标准误(4)估计医学正常值范围:双侧:均数±1.96倍标准差单侧:均数±1.645倍标准差(3)计算标准误150概念:又称高斯分布。频数分布以均数为中心,左右两侧基本对称,靠近均数两侧频数较多,离均数愈远,频数愈少,形成一个中间多,两侧逐渐减少,基本对称的分布。是一种连续型分布。正态分布(normaldistribution)概念:又称高斯分布。正态分布(normaldistrib151当样本量扩大,组段分细,频数分布图中的直条变窄,表现出中间高,两侧逐渐降低,并完全对称的特点;如果将各直条顶端的中点连线,就接近于一条光滑的曲线,称为正态曲线。用N(µ,)表示,其位置与均数有关,形状与标准差有关。当样本量扩大,组段分细,频数分布图中的直条变窄,表现出中间高152医学现象许多呈正态分布,或近似正态分布。如:正常人的生理,生化指标变量,等。医学现象许多呈正态分布,或近似正态分布。153高斯(JohannCarlFriedrichGauss)生于1777年4月30日于不伦瑞克,卒于1855年2月23日于哥廷根,德国著名数学家、天文学家、大地测量学家、物理学家。被认为是最重要的数学家,并有数学王子的美誉。高斯(JohannCarlFriedrichGauss154平均数标准差课件155对称分布正(右)偏分布负(左)偏分布几种常见的频数分布对称分布正(右)偏分布负(左)偏分布几种常见的频数分布156正态分布之所以重要,原因很多,三个主要的原因:1.正态分布在分析上较易处理。2.正态分布之p.d.f.的图形为钟形曲线(bell-shapedcurve),再加上对称性,使得很适合当做不少事件之机率模式。3.正态分布可当做不少大样本的近似分布。概率密度函数(p.d.f.,probabilitydensityfunction)描述了随机变量的机率分布,为累积分布函数的导函数。
正态分布之所以重要,原因很多,三个主要的原因:157概率密度函数(p.d.f.,probabilitydensityfunction)对于一维实随机变量X,任何一个满足下列条件的函数fX(x)都可以被定义为其概率密度函数:
随机变量X在区间上的概率可以由其概率密度函数的定积分表示:而是X的累积分布函数,显然概率密度函数是它的导函数。概率密度函数(p.d.f.,probabilitydens158从直方图到正态曲线的过渡从直方图到正态曲线的过渡159正态分布的两个参数:µ,决定了曲线的形状和位置正态分布的两个参数:µ,决定了曲线的形状和位置160平均数标准差课件161正态分布的密度函数(概率密度函数probabilitydensityfunction,p.d.f):式中μ为均数;σ为标准差;π为圆周率;е为自然对数的底,即2.71828。以上均为常数,仅x为变量。正态分布的密度函数(概率密度函数probabilityd162标准正态分布:为了应用方便,常将式进行变量变换,u变换,u变换后,μ=0,σ=1,使原来的正态分布变换为标准正态分布(SND,standardnormaldistribution)亦称u分布。标准正态分布:163标准正态分布的概率密度函数:正态分布曲线的模拟标准正态分布的概率密度函数:正态分布曲线的模拟164正态分布的特征和分布规律:(1)曲线在x轴的上方,与x轴不相交,当x
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 文化遗产保护中的地理因素分析试题及答案
- 2025版权许可合同简化版(合同范本)
- 执行力强的人力资源管理师试题及答案
- 2024人力资源管理师考试智能化备考试题及答案
- 全面准备2024年计算机二级考试试题及答案
- 城市生态与环境保护试题及答案
- 互动答疑2024年计算机二级考试试题及答案
- 工程项目整改管理试题及答案总结
- 2024年计算机网络安全试题及答案
- 2024年基金从业资格考试讲解试题及答案
- 医院危化品知识培训课件
- 儿童营养及营养性疾病
- 专业设置可行性报告
- QC080000培训讲义课件
- 病历书写规范细则(2024年版)
- 华南理工大学《统计学》2022-2023学年第一学期期末试卷
- GB/T 29468-2024洁净室及相关受控环境围护结构夹芯板
- 炉衬材料与结构的改进
- DB11-238-2021 车用汽油环保技术要求
- 2024年湖南省高考化学试卷真题(含答案解析)
- 《永久基本农田调整划定工作方案》
评论
0/150
提交评论