卫生统计学的基本概念课件_第1页
卫生统计学的基本概念课件_第2页
卫生统计学的基本概念课件_第3页
卫生统计学的基本概念课件_第4页
卫生统计学的基本概念课件_第5页
已阅读5页,还剩82页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

马林茂

中国疾病预防控制中心公共卫生监测与信息服务中心卫生统计研究室卫生统计学的基本概念和基本统计检验

医学科学院防预国中一、卫生统计学的意义

卫生统计学的定义

卫生统计是用统计学的原理和方法研究医药卫生领域中数据的搜集、整理与分析的一门应用性学科。2.卫生统计学的主要内容

(1)卫生统计学的基本原理和方法,包括研究设计和数据处理的理论和方法。

(2)健康统计、医学人口统计、疾病统计和生长发育统计。(3)卫生服务统计。3.学习卫生统计学应注意的问题

要以掌握卫生统计学的基本知识、基本概念、基本原理和使用各种基本方法的注意事项和适用条件为主。要理解计算公式的统计思想。在学习各种统计方法时,不必深究公式的推导,应该把精力放在联系实际,应用卫生统计学的知识、方法和解决本专业的实际问题上。二、统计工作的步骤卫生统计工作的步骤包括:统计研究设计、搜集资料。整理资料和分析资料。统计研究设计的内容包括:资料搜集、整理和分析的全过程。资料来源包括:1.卫生统计报表2.经常性工作记录3.专题调查或实验研究整理资料是净化原始数据,使其系统化、条理化。分析资料即通过计算统计指标,反映数据的综合特征。统计分析可分为统计描述和统计推断两个部分。三、统计学中的几个基本概念

1

观察单位是获得数据的最小单位。观察单位可以是人、标本、家庭、国家等。2变异是统计工作的前提。统计研究的就是有变异性的事物,没有变异当然就无所谓统计,然而在任何相同条件下,个体间始终存在着一定的差异。3.

变量和变量值变量是观察单位的某项特征。4.

变量类型根据观察值的性质不同可以把变量分为数值变量和分类变量。1)数值变量(又称定量变量):是以计量方式所得到的观察结果,一般都带有度量衡单位。2)分类变量(又称定性变量或字符变量):分类变量的变量值是代表互不相容类别或属性的字符。5.总体与样本1)总体:是根据研究目的确定的性质相同的所有观察单位某种变量值的集合体2)样本:是总体内随机抽取的一部分。在理解这一概念时要注意样本是为研究总体时而抽取的。因此为了使样本具有一定的代表性,抽取样本时必须遵循随机化原则从总体中抽取总体单位,构成样本,这样样本才具有代表性。

6.概率概率是事件发生的可能性大小的量度,通常以符号P表示,当某实际事件肯定发生时称为必然事件,其概率P=1;当某事件不可能发生时称为不可能事件,其概率P=0;当某事件在一定条件下可能发生也不可能发生时称为随机事件,其概率在0<P<1的范围内。

7.误差误差是指测得值与真值之差或样本指标与总体指标之差,从误差的性质来看,可以分为两大类,即偶然误差和系统误差。1)偶然误差(又称随机误差):包括抽样误差和随机测量误差。抽样误差是指由于抽样造成样本指标与总体指标之差,这是由于总体内各观察单位存在着个体差异,在这种偶然因素的影响下,不可避免地会出现样本结构不同于总体结构,因而样本指标也就不会等于总体指标,但是当不断增加样本含量时,可以缩小抽样误差。2)系统误差:是指由确定的原因引起的观察值与真值之间或样本指标与总体指标之间的偏差。8.参数和统计量总体的指标称为参数,样本的指标称为统计量。9.统计推断根据样本资料所提供的信息,对总体的特征作出推断,称为统计推断。统计推断包括两个方面:(1)参数估计参数估计是根据样本资料所提供的信息,对总体指标的大小或所在范围作出估计。这种估计又分为点估计和区问估计两种。①点估计:是对总体指标作出一个定值的估计,虽然能给人一个明确的数量概念,但这只是一个近似值,常常不能满足实际工作的需要。②区间估计:是估计总体参数所在的范围以及在这个范围内包含总体参数的可能性的大小。(2)假设检验首先对总体指标作出一个假设,然后根据样本资料所提供的信息及有关统计量分布理论,对这个假设作出拒绝或不拒绝的判断。假设检验有许多种,根据其所计算的统计量不同而命名,如t检验、U检验。F检验、2检验等。四、数值资料的统计描述1频数分布表

首先应编制频数分布表以了解其分布状况,频数就是观察值的个数。频数分布就是观察值在其所取值的范围内分布的情况。2频数分布类型

数值资料常见的频数分布类型有三种,如何区分关键是看分布高峰的位置。

1)正态分布型频数分布的高峰位于中央,图形左右对称。正态分布属于此类型。2)正偏态分布型频数分布的高峰偏左,图形左右不对称,即观察值较小的一端集中了较多的频数。3)负偏态分布型频数分布的高峰偏右,图形左右不对称,即观察值较大的一端集中了较多的频数。3集中趋势指标集中趋势指标又称平均数,它反映了观察值的集中位置或平均水平,是观察值的典型水平或代表值。常用的集中趋势指标有算术均数(均数)、几何均数和中位数等。现把各种平均指标的应用条件归纳如下表各平均指标的应用条件指标适用条件计算公式算术平均数

常用于描述对称型分布,尤其是正态分布资料的集中趋势

几何均数常用于描述对数正态分布资料和观察值呈等比数列资料的集中趋势

中位数常用于描述偏态分布资料、一端或两端无界的资料、频数分布类型不清楚的集中趋势五、离散程度指标

离散程度指标又称变异程度指标。它反映观察值之间参差不齐的程度。常用的离散程度指标有极差、标准差和变异系数等。现将离散程度指标、计算公式及主要优缺点归纳在下表中。指标计算公式主要优缺点极差R=Xmax-Xmin计算简单,易理解:反映了观察值的变异,离均差平方和反映变量值间的变异,难理解,受观察值个数影响不利比较方差反映变量值间的变异,不受观察值个数影响单位是原单位的平方,不易理解标准差反映变量值间的变异,不受观察值个数影响,单位与原单位相同,是常用的离散程度指标之一,在多组资料比较时,受到单位不同和均数相差较大时的影响变异系数两组和多组资料比较变异程度,如均数相差过大或观察单位不同时用变异系数比较六、正态分布曲线的特征及规律正态分布曲线是一条高峰位于中央即均数所在处)两侧逐渐下降并完全对称,两端永远不与横轴相交的钟型曲线。正态曲线的特征是整个曲线都在横轴的上方,均数处最高;以均数为中心,左右对称。正态分布曲线有两个重要参数,即和,决定曲线的位置,决定曲线的形状。七、正态分布曲线下面积分布规律:1.一般正态分布

。范围内的面积占总面积的68.27%

1.96范围内的面积占总面积的95.00%

2.58范围内的面积占总面积的99.00%2.标准正态分布(标准正态分布中=0,=1)-1~1(0土1)之间的面积占总面积的68.27%-1.96~1.96(0土1.96)之间的面积占总面积的95.00%-2.58~2.58(0土12.58)之间的面积占总面积的99.00%八、正态性检验 医学上有许多资料是近似正态分布的,但也有不少与正态分布相差较大。判断原始数据是否偏离正态分布,可用正态性检验。正态性检验方法有多种,下面列出几种常用的方法:1)正态概率纸法 这是一种粗略而简便的方法,它既适用于样本含量较小时,也可适用于样本含量较大或分组资料的正态性检验。2)偏度与峰度检验 正态分布有一定的峰度(Kurtosis),且理论上是左右对称的。来自正态分布总体的样本资料峰度不应过高或过低,偏度(Skewness)也不应太大。通常以g1表示偏度,g2表示峰度,我们可以计算出g1与g2及其标准误

及,然后作u检验。g1、g2、、和u的计算公式为:

式中X为变量值,f为相同X的个数,n为样本例数。上式无论n的大小均适用。

理论上,总体偏度系数1=0为对称,1>0为正偏态,1<0为负偏态;总体峰度系数2=0为正态峰,2>0为尖峰态,2<0为平阔峰。g1及g2为统计量,有抽样误差,其标准误的计算法如下:g1和g2的抽样分布近似正态分布,故在算得及后,可按下式计算检验统计量u值,用u检验推断资料的正态性。偏度:峰度:u值服从正态分布,因而按u=1.96与2.58进行判断,,p<0.01,3)W检验(3n50) 如果不需知道偏离正态分布的类型,且样本含量在50以下时,可用W检验。查统计量w的p分位数表。4)D检验 如果不需知道偏离正态分布的类型,且样本含量在50以上时,可用D检验。D检验的计算公式如下:九、标准差的应用

标准差用来描述观察值间的变异程度(离散程度),用于正态或近似正态分布资料,标准差结合均数描述分布特征。标准差主要用来衡量观察值间的离散(或变异)程度。标准差还还可以用于计算变异系数,变异系数又称离散系数,它是标准差对均数的相对百分数,故又有相对标准差之称。十、总体均数的可信区间的估计1.小样本均数可信区间的估计通式:总体均数的可信区间为:,=1-P。P 为可信度又称置信概率,如总体均数95%的可信区间P=0.95,则=1-P=0.05,为自由度,t是自由度等于时的t的界值。常用的可信区间公式:

95%的可信区问:

99%的可信区间:计算时特别注意公式中的标准误而不是标准差。2.大样本均数可信区间的估计

95%的可信区间:

99%的可信区间:十一、两种检验与两类错误1)单侧检验与双侧检验 在进行t检验时,如果其目的在于检验两个总体均数是相等(即1=2)还是不相等(即12),例如检验某种新降压药与常用的降压药效力是否相同?就是说:新药效力比旧药好,或新药效力比旧药差以及新药和旧药效力相同,都有可能。在这种情况下,只要t的绝对值大于t0.05(),即可认为均数差别有统计意义,统计上称这种检验为双侧检验( Two-tailedtest)(或双尾检验)。 如果我们已知新药效力不可能低于旧药效力,这时无效假设H0:1=2,备择假设为H1:1>2。因而,t0.05的界值只需考虑一侧的界限即可,统计上称为单侧检验(或单尾检验)(Onetailedtest)。2)第一类错误与第二类错误我们根据t检验或其他统计检验结果作出的判断,并不是百分之百正确的。有两种可能的错误存在;一为假阳性错误( falsepositiveerror),统计上称为第一类错误(TypeIerror)就是无效假设(H0;

1=2)原本是正确的,但被拒绝接受,误判为有差别。与此相反,是假阴性错误(falsenegativeerror),统计上称为第二类错误(typeIIerorr)。就是:无效假设(如H0:=0)原本是不正确的(实际上应是H0:=1),但所算得的统计量t没有超过t0.05的水平从而接受了无效假设,错误地得出无差别的结论。

十二、t检验的意义

t检验主要用于两个均数的比较,它能够判断进行比较的均数的差别是由于抽样误差引起,还是总体就有差别。十三、t检验的步骤1)建立假设和确定检验水准H0(无效假设):假设比较指标的差别是由于抽样误差引起的。H1(备择假设):假设比较指标的差别是总体的差别。2)计算t值根据统计资料的类型、适用条件、分析目的计算适当的统计量t值。3)确定P值P值是H0存在的概率,根据自由度与P值确定相对应的t界值,比较所得t值大于相应的界值时,P小于相应的概率P。4)判断结果P拒绝H0,可以认为比较指标的差别是总体的差别;P>接受H0,可以认为比较指标的差别是抽样误差引起。十三、常用的t检验1)进行t检验时首先应正确认识资料的类型和t检验的适用条件,t检验是数值资料的假设检验方法,应用于样本均数与总体均数的比较及两样本均数间的比较,所以要进行t检验需检查资料是否符合以下条件:①资料是数值资料;②分析目的是对两均数进行比较;③具备t检验的应用条件,即资料具有正态性,如两样本均数比较还需要两样本方差具有齐同性。2)正确选择具体公式,计算t值如以上三条资料均具备,就说明可以进行t检验,然后进一步选择具体的t检验方法。其具体方法有:(l)样本均数与总体均数比较的t检验,资料中有一个,另一个是0。

(2)配对比较的t检验,资料常见的有以下三种:①配对资料,常将条件基本相同的受试对象配成对子,每对中的两个受试对象分别给予不同的处理,比较不同处理的差别。②同一批对象试验前后对比资料,是对一批观察对象分别测定试验前后某项指标的数值进行比较,目的是看该处理(试验)有无作用。③对同一批样本中的每一个样本分别用不同方法处理,比较不同方法有无差别。以上三种资料假设检验都是用配对t检验。配对t检验实际也是单一样本均数(差数的样本均数)与总体均数(差数的总体均数)比较,所以它和样本均数比较的t检验一样,只要求资料具有正态性。(3)两小样本均数比较的t检验,两小样本比较的t检验,既要求资料具有正态性,又要求两样本方差具有齐同性。(4)两样本均数比较的u检验,两样本均数比较时,如n1和n2均大于100,可用u检验。

u检验的唯一条件是样本含量足够大。不要求正态性和方差齐性。十四、进行t检验时应注意的问题1)正确理解差别的统计意义差别有统计意义,是说从统计的角度看,差别可能是总体的差别;差别无统计意义时是说从统计的角度看差别可能是抽样误差引起的。差别有无统计意义与差别大小不同,不能认为差别有统计意义就是差别大,无统计意义就是差别小。2)对比资料应有可比性对比资料除对比因素不同外,其它凡影响比较指标的一切因素应尽可能齐同,这样资料才有可比性。3)要满足t检验的应用条件t检验要求资料具有正态性,样本间方差要有齐同性。配对和样本与总体比较的t检验,因是单一样本,只要求资料具有正态性。两小样本的t检验,两个条件均应达到才能进行t检验。必要时应做正态性检验和方差齐性检验。4)正确计算统计量t值根据资料的类型、特征和统计分析目的,正确选择t检验的具体方法,计算t值。5)正确理解t检验结论的概率性t检验结论不管拒绝还是接受H0都不是100%正确的,t检验常出现二种错误,一是H0是正确的,根据P≤α拒绝了它,称第Ⅰ类错误,第Ⅰ类错误的概率用α表示,α取决于检验水准。二是H0是不正确的,而P>α接受了它,称第Ⅱ类错误,第Ⅱ类错误的概率用β表示,其β值不易确定,但α越大,β越小,增加样本含量可同时减少α和β。6.正确地确定单侧和双侧检验根据专业知识,在统计分析前就应确定用单侧检验还是用双侧检验。十四、方差分析1、方差分析的应用范围

方差分析是一个把平方之和划分为各项与已经承认的变差来源相关联的分离的算术过程,在所有各种研究领域中,只要数据是定量测得的,都可以根据具体情况选择这种方法。方差分析主要应用于:①两个或多个样本均数的比较;②分离各有关因素并分别估计其对变异的影响;③分析两因素或多因素的交互作用;④方差齐性检验等。方差分析主要包括:①完全随机设计的方差分析:实验研究资料的方差分析;调查研究资料的方差分析;已知样本均数和标准差的方差分析。②随机区组(配伍组)设计资料的方差分析③均数间的两两比较。学习时应正确掌握各种不同情况下的方差分析方法的不同点和共同点。

2、完全随机设计资料的方差分析

方差分析的关键是把资料中数据间的变异(总变异)根据设计时的要求,分离成各种不同因素的变异,完全随机设计资料则是把总变异分离为组间变异和组内变异,然后对组间变异和组内变异进行比较,鉴于可比性的要求,把组间变异和组内变异用组间均方和组内均方表示。总变异的离均差平方和:

组间变异的离均差平方和:组内变异的离均差平方和:SS组内=SS总-SS组间完全随机设计资料的分析步骤如下:1)建立假设和确定检验水准:H0:1=2=3==kH1:123k=0.05(双侧)。2)求F值F值是方差之比,方差等于离均差平方和除以自由度,因此求F值要先求离均差平方和及自由度。3)计算

①计算离均差平方和;计算组间变异的离均差平方和;计算组内变异的离均差平方和。②计算自由度、均方和F值(1)计算自由度总自由度:总=N-1组间自由度:组间=k-1组内自由度:组内=N-k(2)计算均方:样本的方差又称均方,以符号MS表示,是离均差平方和除以自由度所得。组间均方:MS组间=SS组内/组间组内均方:MS组内=SS组内/组内(3)计算F值F=MS组间/MS组内结果见下表。变异来源MSF总变异N-1组间变异K-1组内变异SS组内=SS总-SS组间N-K③确定P值根据自由度1和2查F界值表,将F值与所查得的F界值作比较,确定P值。④判断结果按=0.05水准,作出拒绝H0或接受H1的判断。在计算F值时,我们把组间均方作为分子,而把组内均方作为分母,如果组间均方略小于组内均方,则F值就小于1,此时不必查F界值表就可以确定P>0.05;如果组间均方远小于组内均方,则F值就远小于1,这是异常情况,应从实验设计或实验数据的搜集及具体计算等方面查明原因。

随机区组(配伍组)设计资料的方差分析

随机区组设计资料的方差分析不同于完全随机设计资料的方差分析,是由于其设计“时,把受试对象进行了区组(配伍组)设计,每个区组内的受试对象除了接受的处理不同外,其他条件都是基本一致的,因此,其总变异就可以分离为处理组间变异、区组间变异和误差变异,而完全随机设计的组内变异相当于区组间变异和误差变异,两者不能分离。由于采用了区组设计,可以进一步把误差分解,所以区组设计的资料其实验效应比完全随机设计的试验效应更容易显现出来。其变异的表示形式仍然是以均方的形式表现的。随机区组设计资料的方差分析步骤与完全随机基本相同,具体计算内容如下表:变异来源SSMSF总变异N-1处理组间变异K-1区组间变异b-1误差SS组内=SS总-SS组间(k-1)(b-1)

多个均数间的两两比较

方差分析的结论是对整体而言的。经方差分析,如果各个均数之间差别无统计意义,则无需作进一步统计处理。如果各个均数间差别有统计意义,并非意味着任何两个均数间的差别都有统计意义。如欲了解任何两个均数间的差别是否都有统计意义,还应作进一步分析。这种分析称为两两比较或多重比较。两两比较有多种方法。(-)q检验法检验步骤如下:1).建立假设和确定检验水准H0:任何两个均数相同,即A=B。H1:任何两个均数不相同或不全相同。=0.05(双侧)2).计算q值

其中:各组观察值个数相等各组观察值个数不等3)根据误差自由度及组数。查q界值表,确定P值。4)判断结果随机区组设计资料的方差分析,在判断处理组间和区组间均数的差别有统计意义后,也可按上述方法做处理组间和区组间均数的两两比较在实际工作中,人们可能会问,既然方差分析后还要做两两比较,何不直接用多个两组间均数之差的t检验,来代替方差分析及其两两比较?回答是否定的。因为这样做与原整体设计思想不符,不能充分利用由总变异与总剩余误差所提供的信息,降低了检验效率,有可能把本来有统计意义的差别判断为无统计意义的差别。另一方面,由于做多次t检验,检验水准被提高了,增加了犯Ⅰ类错误的概率,即有可能把本来没有统计意义的差别判断为有统计意义的差别。(二)q’检验以上介绍的两两比较是任意两组的比较,有时只需了解各处理组与同一对照组样本均数间的差别有无统计意义,而对于处理组之间的两两比较不感兴趣,这时可采用Dunnettt检验法(或称q’检验法),其检验统计量Dunnettt按下式计算。式中、 为任一处理组及对照组C的样本均数MS误差为方差分析中误差的均方,nA、nC为任意处理组A及对照组C的样本含量方差分析的基本条件与数据变换(-)方差分析的基本条件用来作方差分析的资料必须满足一定的条件。1)方差齐性2)正态性方差分析资料必须满足以上条件。如果资料不能满足上述要求,则进行方差分析就失去理论依据。在这种情况下,虽然方差分析的计算照样可以进行,但所得结论是不可信的(二)方差齐性检验在方差分析之前,要作多个样本方差齐性检验,有关两个样本方差的齐性检验参见t检验。多个样本方差齐性检验,常用即Bartlett2检验。

变量变换当资料不能满足方差分析基本条件时(如方差不齐、偏态等),可将变量经适当方式变换,变换后的新数据若满足了方差分析的基本条件,就可用这些新数据作方差分析。1)对数变换当多个样本均数作比较时,若方差不齐,特别是各样本标准差随均数增大而增大,致使各样本变异系数很接近时,可采用对数变换法变换原始数据。2)百分数平方根反正弦变换在医学和卫生学研究中,常以百分数资料(如患病率、感染率、检出率等)作t检验或方差分析这时可采用百分数平方很反正弦变换,变换的方法是将各组中每一个百分数开方,然后求其反正弦函数,即将P变换为,经过这样变换,新的变量可能成为或接近正态分布并达到方差齐性。卡方(2)检验

2检验是一种对分类资料进行假设检验的重要方法之一。它常用于两个或多个样本率(或构成比)的比较、列联表资料的相关分析及频数分布拟合优度的检验。

2检验最常用于作样本率或构成比的比较,按照资料设计类型不同,可将这—类假设检验分为:四格表资料2检验;行列表资料2检验;配对资料2检验等。1、四格表资料2检验检验步骤如下:1)建立假设和确定检验水准2)计算2值(1)计算2值的基本公式:(2)计算2值的专用公式:

(3)计算2值的校正公式:2、行×列表资料2检验2×2表是最简单的行×列表,习惯上把行数>2和(或)列数>2的表称为行×列表。实际工作中行×列表又可分为R×2表,2×C表和R×C表。行×列表资料2检验方法上述三种行×列表资料的2检验均可用基本公式计算2值,也可用下列专用公式计算2值,后者较简便。

式中:n为总例数,A为实际数,nRnc为与实际数对应的行合计数与列合计数。行×列表2检验的注意事项1)作行×列表资料2检验时,允许有1/5以下的格子理论数小于5,如果有1/5以上的格子理论数小于5或有理论数小于1时,需将邻近组合并,使理论数增大。合并时应注意合并是否合理。2)行×列表资料2检验结果,如果有统计意义,并不表示任何两组之间差别都有统计意义。3)配对资料2检验和数值资料一样,分类资料也有成组与配对之分,前面是对两组或多组的资料进行2

检验。配对分类资料是将观察单位一一配对,对每一对观察单位分别观察某分类变量的表现,或对每一观察单位给予不同的处理,观察其结果,或同一观察单位先后给予两种不同的处理。(1)建立假设和确定检验水准H0:b=c(因a和d为结果完全相同的部分,不必考虑)。H1:b≠C=0.05(2)计算2值

如果b+C<40,则用下面的校正公式计算:4)分类资料分层分析------MH2检验MH2检验是由Mantel-haenszel提出,用于处理分层资料,以便控制混杂因素干扰的一种合并时2检验方法。MH2检验的值,可采用下式计算。5)四格表资料的确切概率法四格表资料在下列情况:①四格表资料中有任何一个格子的理数T<1,N<40;②四格表资料2检验时,所得p值十分邻近检验水准的界值,可以直接计算其概率作出判断。四格表资料确切概率的计算公式为:作单侧检验时,单侧概率P大于为无统计意义,不拒绝H0,单侧检验P小于为有统计意义,拒绝H0,接受H1;作双侧检验时,还应计算另一侧概率P,以两侧概率之和与比较,作出判断。如前所述,作单侧检验还是作双侧检验,应根据专业知识并在检验之前确定。直线相关与回归

一、直线相关(-)直线相关的概念直线相关又称简单相关,它是从数量上研究两变量间相互关系密切程度的一种统计方法。直线相关研究的是现象间数量上的相关关系。相关关系是指现象的变量间存在着一定的依存关系,但与函数关系不同,它不能由一个变量的数值去精确地求出另一个变量的数值。(二)相关系数的意义和计算1)相关系数的意义相关系数是线性相关条件下用来说明两个变量间相关关系的密切程度和方向的一个统计指标。相关系数没有单位,用r表示样本相关系数,ρ表示总体相关系数,r是ρ的估计值,相关系数的数值范围为-1≤r≤1,r值为正表示正相关,r值为负表示负相关,r值等于零为零相关,在相关系数具有统计意义的前提下,|r|愈接近1,表示相关程度愈密切,|r|等于1为完全相关。2)相关系数的计算积差法相关系数的计算公式为:计算步骤:(1)作散点图据原始资料作散点图,如基本上呈直线趋势,则可作直线相关分析。(2)计算∑X、∑Y、∑X2、∑Y2、∑XY。(3)计算X、Y的离均差平方和及离均差积之和lXX、lYY、IXY。(4)计算相关系数按积差法相关系数计算公式计算r。建立假设和确定检验水准HO:X、Y两变量之间无直线相关关系,即ρ=0。H1:X、Y两变量之间存在直线相关关系,即ρ≠0。

=0.05。等级相关等级相关分析是一种非参数统计分析方法,它适用于下列资料:①X或Y变量中的一个或两个不服从正态分布;②X或Y变量中一个或两个为未知分布的变量;③X或Y变量中一个或两个具有半定量性质。Spearman等级相关法为等级相关分析最常用的方法。等级相关系数rs的计算式中:d为每对观察值X、Y的秩次之差,n为对子数,rs为等级相关系数。

直线回归

(-)直线回归的概念直线回归又称简单回归,它是描述与分析两变量间线性依存关系的一种统计方法。直线回归以直线方程描述两变量间的线性依存关系,但与数学上完全确定的函数关系不同,这种直线方程具有某种不确定性,称为直线回归方程。用下式表示:(二)直线回归方程的求法回归方程的求法实际上就是a、b的求法。常用最小二乘法原理,使估计误差平方和(剩余平方和)最小。计算公式如下:由最小二乘法导出的回归方程有两个性质,第一,由此方程决定的回归直线,各实测的Y值与Y的估计值之差(即实测点至回归直线的纵向距离)的平方和为最小;第二,该回归线一定通过Y和X的均数的交点。回归系数假设检验样本回归系数也有一个抽样误差的问题。因此当样本回归系数不等于0时,就应考虑到这个不等于0的回归系数是否有可能因抽样误差而获得的。这就是说要对样本回归系数作假设检验。但是对于同一资料已经进行了相关系数假设检验,表明X、Y两变量间存在相关关系,就可不进行回归系数的假设检验。方差分析法是作回归系数假设检验常用的方法。方差分析法作回归系数假设检验,统计量F值的计算公式:

SS回为回归平方和;是在Y总平方和中,由于X与Y的直线关系,使Y的变异减少的部分。SS回越大,回归的效果越好。SS剩为剩余平方和,它反映除X对Y的线性影响之外,其他一切可以对Y发生影响的因素对于Y变异的作用,即无法用X的影响来解释的Y的变异。通常是指随机误差所造成的Y的变异。SS剩越小,X与Y的线性关系越好,其估计误差越小。根据因变量Y的平方和划分的原理,SS剩=SS总-SS回作相关与回归分析时应注意的问题

1)不要把相关关系都说成是因果关系相关系数用来描述变量间的密切程度和方向,但不能说明相关的实质。两事物间存在相关关系,可能是因果关系,也可能是伴随关系。要确认事物间的因果关系必须通过深入调查和实验研究,从专业理论方面加以论证。在临床医学、卫生学中,许多因果关系正是在相关关系所提供线索的基础上,经过深入研究后才确定的。2)不要把相关的显著性程度误解为密切程度相关的显著性程度(即统计意义的程度)和相关的密切程度是两个不同的概念。变量间相关的显著性程度高(例如P<0.01),是指在判断事物间具有相关关系时,犯第I类错误的可能性小。而相关的密切程度的高低,是在相关系数具有显著性意义的前提下,根据相关系数的绝对值的大小来判断两变量的密切程度。3)相关分析前应大致了解两变量的分布情况相关分析前,应通过散点图或相关表等大致了解两变量是否直线相关、是否均呈正态分布,否则不应作积差法相关分析,可进行等级相关分析。

4)作回归分析时应恰当确定自变量与因变量进行回归分析时,首先应确定自变量和因变量,一般情况下应把变异程度小的或易测的变量作为自变量X,变异程度较大的或难测的变量作为因变量Y。

5)不要任意延长回归直线直线回归方程反映自变量X一定范围内,与因变量Y之间的直线关系,超出了自变量取值的范围,X与Y之间未必一定是直线关系。因此,在使用直线回归方程进行预测时,自变量X的取值,不应超出建立方程时X取值的范围。

6)回归方程的使用有一定的条件回归方程是在一定的条件下(时间、地点、方法、测量仪器等等)建立的,当条件发生变化时,原回归方程则不宜继续使用,而应建立新的回归方程以代之。

7)注意相关分析与回归分析的联系与区别相关分析与回归分析都是分析两变量间关系的统计方法,两者的意义和计算方法上有密切联系。但它们的任务不同。相关分析主要分析变量间相互关系的密切程度,而回归分析主要是分析两变量间定量的依存关系,应正确选择使用。统计表统计表是用来表达数据资料和统计分析结果的一种表格。一个编制合理的统计表可以代替冗长的文字叙述,便于对指标的计算、分析和对比。统计表的基本结构及制表要求1.统计表的基本结构包括标题、标目(横标目、纵标目)、线条和数字。2.编制统计表

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论