版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
直线相关与回归
Linearcorrelationandregression直线相关与回归
Linearcorrelationa1直线相关与回归
前面介绍的统计方法都只涉及单一变量,即或进行两组或多组比较,所比较的仍然是同一变量,而且是以讨论各组间该变量的相差是否显著为中心环节。医学领域里常可在一个统一体中遇到两个或多个变量之间存在着相互联系、相互制约的情况.如:同一批水样的浊度与透光率,同一批人的年龄与血压以及身长、体重与胸围等。直线相关与回归前面介绍的统计方法都只涉及单一变量,2如何研究变量之间的关系?在统计方法中通常是用相关与回归的方法来研究不同变量之间的这种相互依存和互为消长的关系。相关与回归即有区别又有联系,表达事物或现象间的在数量方面相互关系的密切程度用相关系数;说明一变量依另一变量的消长而变动的规律用回归方程。如何研究变量之间的关系?在统计方法中通常是用相关与回归的方法3数量关系的特点?函数关系:确定。例如园周长与半径:y=2πr。一一对应关系。回归关系:不确定。例如血压和年龄的关系。
具有相同年龄的人,血压不一定相同。但在一定年龄范围内的人,其血压会在一定范围内波动。年龄与血压之间有一定的趋势。数量关系的特点?函数关系:确定。例如园周长与半径:y=2π4直线相关linearcorrelation直线相关linearcorrelation5相关----变量间的互依关系直线相关(linearcorrelation)也叫简单相关(simplecorrelation),用于双变量正态分布资料。为判断两事物数量间有无相关,可先将两组变量中一对对数值在普通方格纸上作散点图相关----变量间的互依关系6各种相关关系示意图Positivecorrelation,Perfectpositivecorrelation,Negativecorrelation,Perfectnegativecorrelation,6.7.Zerocorrelation,8.Non-linearcorrelation各种相关关系示意图Positivecorrelation,7一、直线相关系数r相关分析是用相关系数(r)来表示两个变量间相互的直线关系,并判断其密切程度的统计方法。又称积差相关系数(coefficientofproduct–momentcorrelation),或Pearson相关系数(软件中常用此名称)说明相关的密切程度和方向的指标。r--样本相关系数ρ--总体相关系数相关系数linearcorrelationcoefficient一、直线相关系数r相关系数linearcorrelat8相关系数的意义相关系数:说明具有直线关系的两变量间,相关方向与密切程度的统计指标。相关系数r没有单位,在-1~+1范围变动,符号表示相关的方向,大小表示相关的程度。r>0,正相关;r<0,负相关;r=1,-1,完全相关;r=0,零相关(无直线关系),但不能表达直线以外的关系(如各种曲线)。相关系数的意义相关系数:说明具有直线关系的两变量间,相关方向9正相关——见图1,各点分布呈椭圆形,Y随X的增加而增加,X亦随Y的增加而增加,此时1>r>0。椭圆范围内各点的排列愈接近其长轴,相关愈密切,当所有点都在长轴上时,r=1(见图2),称为完全正相关。负相关——见图3,各点分布亦呈椭圆形,Y随X的增加而减少,X也随Y的增加而减少,此时0>r>-1。各点排列愈接近其长轴,相关愈密切,当所有点都在长轴上时,r=1(见图4),称为完全负相关。生物现象中,完全正相关或完全负相关甚为少见。正相关——见图1,各点分布呈椭圆形,Y随X的增加而增加,X亦10无相关——见图5、6和7,X不论增加或减少,Y的大小不受其影响;反之亦然。此时r=0。另外,须注意有时虽然各点密集于一条直线,但该直线与X轴或Y轴平行,即X与Y的消长互不影响,这种情况仍为无相关。非线性相关——见图8,图中各点的排列不呈直线趋势,呈某种曲线形状,此时r≈0,称为非线性相关。|r|>=0.7,高度相关;0.4<=|r|<0.7,中度相关;|r|<0.4,低度相关;无相关——见图5、6和7,X不论增加或减少,Y的大小不受其影11X的离均差平方和Y的离均差平方和X与Y的离均差乘积之和,相关系数的计算X的离均差平方和相关系数的计算12举例:
测定15名健康成人血液的凝血酶浓度(单位/毫升)及血液的凝固时间(秒),测定结果记录于表第(2)、(3)栏,问血凝时间与凝血酶浓度间有无相关?举例:测定15名健康成人血液的凝血酶浓度(单位/毫升)及血131.绘图,将第(2)、(3)栏各对数据绘成散点图。1.绘图,将第(2)、(3)栏各对数据绘成散点图。142.求出∑X、∑Y、∑X2、∑Y2、∑XY∑X=15.1∑Y=222
∑XY=221.7
∑X2=15.41∑Y2=33043.代入公式,求出r值。r=-0.9070负值表示血凝时间随凝血酶浓度的增高而缩短;绝对值∣-0.9070∣表示这一关系的密切程度。此相关系数是否显著,则要经过下面的分析。2.求出∑X、∑Y、∑X2、∑Y2、∑XY15虽然样本相关系数r可作为总体相关系数ρ的估计值,但从相关系数ρ=0的总体中抽出的样本,计算其相关系数r,因为有抽样误差,故不一定是0,要判断不等于0的r值是来自ρ=0的总体还是来自ρ≠0的总体,必须进行显著性检验。
r≠0原因:①由于抽样误差引起,ρ=0 ②存在相关关系,ρ≠0相关系数的假设检验
虽然样本相关系数r可作为总体相关系数ρ的估计值,但从相关16相关系数假设检验的过程(一)t检验由于来自ρ=0的总体的所有样本相关系数呈对称分布,故r的显著性可用t检验来进行。υ=n-2Sr----相关系数的标准误
公式相关系数假设检验的过程(一)t检验υ=n-2Sr----相17
零假设:ρ=0,备择假设:ρ≠0r与0的差别是否显著要按该样本来自ρ=0总体的概率而定。如果从ρ=0的总体中取得某r值的概率P>0.05,就接受假设,认为此r很可能是从此总体中取得的。因此判断两变量间无显著关系;如果取得r值的概率P≤0.05或P≤0.01,就在α=0.05或α=0.01水准上拒绝检验假设,认为该r不是来自ρ=0的总体,而来自ρ≠0的另一个总体,因此判断两变量间有显著关系。对r值检验的判断零假设:ρ=0,备择假设:ρ≠0对r值检验的判断181.建立检验假设,H0:ρ=0,H1:ρ≠0,α=0.052.计算相关系数的r的t值:1.建立检验假设,H0:ρ=0,H1:ρ≠0,193.查t值表作结论ν=n-2=15-2=13根据专业知识知道凝血酶浓度与凝血时间之间不会呈正相关,故宜用单侧界限,查t值表得t0.01,13=2.650今∣tr∣>t0.01,13,P<0.01,在α=0.01水准上拒绝H0,接受H1,故可认为凝血时间的长短与血液中酶浓度有负相关。3.查t值表作结论20(二)查表法:为简化tr检验的计算过程,数理统计工作者根据t分配表,已把不同自由度时r的临界值求出,并列成相关系数界值表(见附表13-1)。故只需查表就可知道该r值是否显著,不必再计算tr值。rα,ν,>|r|----P>α
----相关不显著;rα,ν,
≤|r|----α
≥P----在α水准上相关显著;(二)查表法:21今:r=-0.9070,ν=15-2=13,查附表界值,得:r0.05,13=0.441r0.01,13=0.592现∣r∣>r0.01,13,P<0.01,按α=0.01水准,拒绝HO,接受H1。认为ρ≠0,说明凝血时间的长短与血液中凝血酶浓度有负相关。结论与计算所得一致。相关系数的显著性与自由度的大小有关,如n=3,ν=1时,虽r=-0.9070,却为不显著;若ν=400时,即使r=0.1000,亦为显著。因此不能只看r的值,不考虑ν就下结论。今:r=-0.9070,ν=15-2=13,查附表界值22相关分析应注意的问题1.相关分析一定要有实际意义。X,Y来自正态总体,随机变量。2.相关分析前,先绘制散点图。散点有线性趋势,再进行相关分析。3.样本量足够大,可以根据r值大小推断两变量间的相关程度。小样本时,即使检验有显著性,也仅能对两变量间的直线关系作判断,相关的强度不可靠。尤其当r有统计学意义,但r2较小,结论要慎重。相关分析应注意的问题1.相关分析一定要有实际意义。X,234.相关可以是因果关系,也可以只是伴随关系。相关显著只说明两现象间的数量间存在直线关系,但不能证明事物间的内在联系。当事物间的内在联系尚未被认识前,相关分析能从数量上给理论研究提供线索。4.相关可以是因果关系,也可以只是伴随关系。相关显著只说24计算出相关系数后,如果r显著,需要进一步了解两变量中一个变量依另一个变量而变动的规律时,可进行回归分析。直线回归linearregression
计算出相关系数后,如果r显著,需要进一步了解两变量中一个变量25直线回归的概念反映两变量间的依存变化的数量关系。应变量(dependentvariable)Y随自变量(independentvariable)X变化而变化,以直线回归方程(linearregressionequation)表示。与数学上的函数关系不同,回归关系具有不确定性。
如:成年人年龄和血压的关系,大量调查发现平均收缩压随年龄的增长而增高,且呈直线趋势,但各点并非恰好都在直线上。为强调这一区别,统计上称这是血压在年龄上的“回归”。直线回归的概念反映两变量间的依存变化的数量关系。26建立一个描述应变量依自变量而变化的直线方程,并要求各点与该直线纵向距离的平方和为最小。按这个要求计算回归方程的方法称为最小平方法或最小二乘法。建立的方程是一个二元一次方程式。直线回归分析的任务建立一个描述应变量依自变量而变化的直线方程,并要求各点与该直27直线回归方程的标准形式
a:截距(intercept),直线与Y轴交点的纵坐标。b:斜率(slope),回归系数(regressioncoefficient)。
意义:X每改变一个单位,Y平均改变b个单位。
b>0,Y随X的增大而增大(减少而减少)——斜上;
b<0,Y随X的增大而减小(减少而增加)——斜下;
b=0,Y与X无直线关系——水平。
|b|越大,表示Y随X变化越快,直线越陡峭。直线回归方程的标准形式a:截距(intercept),直线28直线回归方程的计算
最小二乘法原则(leastsquaresmethod):使各散点到直线的纵向距离的平方和最小。即:最小。因为直线一定经过“均数”点直线回归方程的计算最小二乘法原则(leastsquar29根据前面的相关分析以及医学上有关凝血的机理,可知凝血时间依凝血酶浓度而异,且有密切的关系。因此可进一步作由凝血酶浓度(X)推算凝血时间(Y)的回归方程。步骤如下:1.列回归计算表,计算∑X、∑Y、∑X2、∑Y2、∑XY。2.计算、、∑(X-X)2、∑(X-X)(Y-Y)=∑X/n=15.1/15=1.01=∑Y/n=222/15=14.80∑(X-)2=∑X2-(∑X)2/n=0.2093∑(X-)(Y-)=∑XY-∑X·∑Y/n=-1.7800举例根据前面的相关分析以及医学上有关凝血的机理,可知凝血时间依凝303.计算回归系数b和截距a。
本例b=-1.7800/0.2093=-8.5045a=14.80-(-8.5045)(1.01)=23.38954.列出回归方程,绘制回归直线3.计算回归系数b和截距a。31在凝血酶浓度的实测范围内,即X=0.8到X=1.2之间,任选两个X值(一般选相距较远且直角坐标系上容易读出者),代入此回归方程,即得相应的两个Y值,就可画出该直线。须注意回归直线必通过()点,并穿过观察点群,直线上下各有一些点散布着,否则计算有误。在凝血酶浓度的实测范围内,即X=0.8到X=1.2之间,任选32直线回归方程的统计推断总体回归系数的估计:例题216页样本回归系数的标准误剩余标准差参差平方和直线回归方程的统计推断总体回归系数的估计:例题216页样本回33为何进行总体回归系数的估计?1.由于抽样误差的存在,每次抽样所得到的样本回归系数有所不同。那么,用它来估计总体回归系数也会不同。为了说明回归方程的稳定性,要对总体的回归系数进行估计。2.可信度相同时,回归系数的标准误越小,可信区间就越小,回归方程就稳定。为何进行总体回归系数的估计?1.由于抽样误差的存在,每次抽34(一)样本回归系数的假设检验b≠0原因:①由于抽样误差引起,总体回归系数β=0②存在回归关系,总体回归系数β≠0直线回归方程的假设检验样本回归系数的假设检验亦用t检验。H0:β=0即Y的变化与X无关;H1:β≠0即Y的变化与X有关;(一)样本回归系数的假设检验直线回归方程的假设检验样本回归35分母Sb是样本回归系数b的标准误,计算公式为:Sy.x为各观察值Y距回归线的标准差(剩余标准差),即当X的影响被扣去以后Y方面的变异,
分母Sb是样本回归系数b的标准误,计算公式为:36根据数理统计的理论,同一批资料计算所得tr与tb是相同的,即tr=tb。处理资料时可用检验相关显著性代替其回归显著性。由于
r在α=0.01水准上显著,故可判断样本回归系数-8.5045与0的相差有显著性,说明存在凝血时间随凝血酶浓度变化而变化的回归关系。根据数理统计的理论,同一批资料计算所得tr与tb是相同的,即37(二)两样本回归系数相差的假设检验若有两个可以比较的样本,它们的回归系数分别为b1与b2,经检验都为显著,回归系数的标准误分别为Sb1和Sb2。b1与b2相差的显著性也可用t检验法检验,其计算公式为:(二)两样本回归系数相差的假设检验38S2C为两样本回归系数的合并方差S2C为两样本回归系数的合并方差39实例:两样本回归系数t检验的步骤。同一批白蛋白于38℃与25℃条件下,不同时间(分)的凝固百分比,问由此而得的两样本回归系数相差是否显著?白蛋白在两种温度下各不同时间的凝固百分比实例:两样本回归系数t检验的步骤。401.H0:β1-β2=0H1:β1-β2≠0α=0.012.计算t值1.H0:β1-β2=041r1=0.998(P<0.01)b1=3.389∑(Y1-1)2=5.7927n1=6r2=0.996(P<0.01)b2=4.424∑(Y2-2)2=24.5857n2=6∑(X1-1)2=∑(X2-2)2=157.5000r1=0.998(P<0.01)b1=3.389423.查t值表作结论:以ν=6+6-4=8查t值表,t0.01,8=2.355,今∣t∣>t0.01,8,故P<0.01。
4.判断结果:按α=0.01水准,拒绝H0,接受H1,故两个回归系数差别显著。说明两条回归直线的斜率不同,两条回归直线中X对Y的影响规律不一致。现b2>b1,说明随着时间的增加,蛋白质在38℃时凝固百分比的增加量比在25℃时高。3.查t值表作结论:以ν=6+6-4=8查t值表,t0.0143直线回归方程的应用1.描述两变量间的依存变化的数量关系。2.利用回归方程进行预测预报。3.用易得指标估计不易得指标。4.利用回归方程进行统计控制(逆估计)。直线回归方程的应用1.描述两变量间的依存变化的数量关系。441.作回归分析要有实际意义:不要把毫无关联的两个事物或现象用来作回归分析。如儿童身高的增长与小树的增长,作相关分析是没有实际意义的;由儿童身高推算小树高的回归方程则更无实际意义,即使算得的r、b是显著的。直线回归分析的注意事项
1.作回归分析要有实际意义:直线回归分析的注意事项452.对相关分析的作用要正确理解。相关分析只是以相关系数来描述两个变量间相互关系的密切程度和方向,并不能阐明两事物或现象间存在联系的本质。而且相关并不一定就是因果关系,切不可单纯依靠相关系数或回归系数的显著性“证明”因果关系之存在。要证明两事物间的因果关系,必须凭籍专业知识从理论上加以阐明。2.对相关分析的作用要正确理解。463.相关与回归的区别和联系:(1)相关表示两变量间的相互关系,是双方向的。而回归则表示Y随X而变化,这种关系是单方向的。一般地,先求出相关系数r并对其进行假设检验,如果r显著并有进行回归分析之必要,再建立回归方程。(2)回归系数与相关系数的正负号都由两变量离均差积之和的符号决定,所以同一资料的b与其r的符号相同。假设检验等价:tr=tb3.相关与回归的区别和联系:47(3)回归系数有单位,形式为应变量单位/自变量单位;相关系数没有单位。(4)相关系数的范围在-1~+1之间,回归系数无限制。(5)用回归解释相关:决定系数(coefficientofdetermination)(3)回归系数有单位,形式为应变量单位/自变量单位;相关系数484.适合作相关和回归分析的资料有两种:(1)变量X是选定的,变量Y是从正态分布的总体中随机抽取的,宜作回归分析。(2)两变量X、Y(或X1、X2)都是从正态分布的总体中随机抽取的,即是正态双变量中的随机样本。若需要由一个变量推算另一个变量可作回归分析;若只需说明两变量间的相互关系可作相关分析。如果变量(一个或两个)呈明显偏态时,须经过适当的变量代换(如对数代换等),使资料接近正态分布后再做相关与回归分析;或采用秩相关法;4.适合作相关和回归分析的资料有两种:495.在回归分析中,由X推算Y与由Y推算X的回归方程是不同的,不可混淆。必须正确选定自变量与应变量。一般说,事物的原因作自变量X,当事物的因果关系不很明确时,选误差较小的即个体变异小的变量作自变量X,以推算应变量Y。6.回归方程的适用范围有其限度,一般仅适用于自变量X的原数据范围内,而不能任意外推。在这些观察值的范围之外,两变量间是否也呈同样的直线关系?5.在回归分析中,由X推算Y与由Y推算X的回归方程是不同的,50谢谢!谢谢!51直线相关与回归
Linearcorrelationandregression直线相关与回归
Linearcorrelationa52直线相关与回归
前面介绍的统计方法都只涉及单一变量,即或进行两组或多组比较,所比较的仍然是同一变量,而且是以讨论各组间该变量的相差是否显著为中心环节。医学领域里常可在一个统一体中遇到两个或多个变量之间存在着相互联系、相互制约的情况.如:同一批水样的浊度与透光率,同一批人的年龄与血压以及身长、体重与胸围等。直线相关与回归前面介绍的统计方法都只涉及单一变量,53如何研究变量之间的关系?在统计方法中通常是用相关与回归的方法来研究不同变量之间的这种相互依存和互为消长的关系。相关与回归即有区别又有联系,表达事物或现象间的在数量方面相互关系的密切程度用相关系数;说明一变量依另一变量的消长而变动的规律用回归方程。如何研究变量之间的关系?在统计方法中通常是用相关与回归的方法54数量关系的特点?函数关系:确定。例如园周长与半径:y=2πr。一一对应关系。回归关系:不确定。例如血压和年龄的关系。
具有相同年龄的人,血压不一定相同。但在一定年龄范围内的人,其血压会在一定范围内波动。年龄与血压之间有一定的趋势。数量关系的特点?函数关系:确定。例如园周长与半径:y=2π55直线相关linearcorrelation直线相关linearcorrelation56相关----变量间的互依关系直线相关(linearcorrelation)也叫简单相关(simplecorrelation),用于双变量正态分布资料。为判断两事物数量间有无相关,可先将两组变量中一对对数值在普通方格纸上作散点图相关----变量间的互依关系57各种相关关系示意图Positivecorrelation,Perfectpositivecorrelation,Negativecorrelation,Perfectnegativecorrelation,6.7.Zerocorrelation,8.Non-linearcorrelation各种相关关系示意图Positivecorrelation,58一、直线相关系数r相关分析是用相关系数(r)来表示两个变量间相互的直线关系,并判断其密切程度的统计方法。又称积差相关系数(coefficientofproduct–momentcorrelation),或Pearson相关系数(软件中常用此名称)说明相关的密切程度和方向的指标。r--样本相关系数ρ--总体相关系数相关系数linearcorrelationcoefficient一、直线相关系数r相关系数linearcorrelat59相关系数的意义相关系数:说明具有直线关系的两变量间,相关方向与密切程度的统计指标。相关系数r没有单位,在-1~+1范围变动,符号表示相关的方向,大小表示相关的程度。r>0,正相关;r<0,负相关;r=1,-1,完全相关;r=0,零相关(无直线关系),但不能表达直线以外的关系(如各种曲线)。相关系数的意义相关系数:说明具有直线关系的两变量间,相关方向60正相关——见图1,各点分布呈椭圆形,Y随X的增加而增加,X亦随Y的增加而增加,此时1>r>0。椭圆范围内各点的排列愈接近其长轴,相关愈密切,当所有点都在长轴上时,r=1(见图2),称为完全正相关。负相关——见图3,各点分布亦呈椭圆形,Y随X的增加而减少,X也随Y的增加而减少,此时0>r>-1。各点排列愈接近其长轴,相关愈密切,当所有点都在长轴上时,r=1(见图4),称为完全负相关。生物现象中,完全正相关或完全负相关甚为少见。正相关——见图1,各点分布呈椭圆形,Y随X的增加而增加,X亦61无相关——见图5、6和7,X不论增加或减少,Y的大小不受其影响;反之亦然。此时r=0。另外,须注意有时虽然各点密集于一条直线,但该直线与X轴或Y轴平行,即X与Y的消长互不影响,这种情况仍为无相关。非线性相关——见图8,图中各点的排列不呈直线趋势,呈某种曲线形状,此时r≈0,称为非线性相关。|r|>=0.7,高度相关;0.4<=|r|<0.7,中度相关;|r|<0.4,低度相关;无相关——见图5、6和7,X不论增加或减少,Y的大小不受其影62X的离均差平方和Y的离均差平方和X与Y的离均差乘积之和,相关系数的计算X的离均差平方和相关系数的计算63举例:
测定15名健康成人血液的凝血酶浓度(单位/毫升)及血液的凝固时间(秒),测定结果记录于表第(2)、(3)栏,问血凝时间与凝血酶浓度间有无相关?举例:测定15名健康成人血液的凝血酶浓度(单位/毫升)及血641.绘图,将第(2)、(3)栏各对数据绘成散点图。1.绘图,将第(2)、(3)栏各对数据绘成散点图。652.求出∑X、∑Y、∑X2、∑Y2、∑XY∑X=15.1∑Y=222
∑XY=221.7
∑X2=15.41∑Y2=33043.代入公式,求出r值。r=-0.9070负值表示血凝时间随凝血酶浓度的增高而缩短;绝对值∣-0.9070∣表示这一关系的密切程度。此相关系数是否显著,则要经过下面的分析。2.求出∑X、∑Y、∑X2、∑Y2、∑XY66虽然样本相关系数r可作为总体相关系数ρ的估计值,但从相关系数ρ=0的总体中抽出的样本,计算其相关系数r,因为有抽样误差,故不一定是0,要判断不等于0的r值是来自ρ=0的总体还是来自ρ≠0的总体,必须进行显著性检验。
r≠0原因:①由于抽样误差引起,ρ=0 ②存在相关关系,ρ≠0相关系数的假设检验
虽然样本相关系数r可作为总体相关系数ρ的估计值,但从相关67相关系数假设检验的过程(一)t检验由于来自ρ=0的总体的所有样本相关系数呈对称分布,故r的显著性可用t检验来进行。υ=n-2Sr----相关系数的标准误
公式相关系数假设检验的过程(一)t检验υ=n-2Sr----相68
零假设:ρ=0,备择假设:ρ≠0r与0的差别是否显著要按该样本来自ρ=0总体的概率而定。如果从ρ=0的总体中取得某r值的概率P>0.05,就接受假设,认为此r很可能是从此总体中取得的。因此判断两变量间无显著关系;如果取得r值的概率P≤0.05或P≤0.01,就在α=0.05或α=0.01水准上拒绝检验假设,认为该r不是来自ρ=0的总体,而来自ρ≠0的另一个总体,因此判断两变量间有显著关系。对r值检验的判断零假设:ρ=0,备择假设:ρ≠0对r值检验的判断691.建立检验假设,H0:ρ=0,H1:ρ≠0,α=0.052.计算相关系数的r的t值:1.建立检验假设,H0:ρ=0,H1:ρ≠0,703.查t值表作结论ν=n-2=15-2=13根据专业知识知道凝血酶浓度与凝血时间之间不会呈正相关,故宜用单侧界限,查t值表得t0.01,13=2.650今∣tr∣>t0.01,13,P<0.01,在α=0.01水准上拒绝H0,接受H1,故可认为凝血时间的长短与血液中酶浓度有负相关。3.查t值表作结论71(二)查表法:为简化tr检验的计算过程,数理统计工作者根据t分配表,已把不同自由度时r的临界值求出,并列成相关系数界值表(见附表13-1)。故只需查表就可知道该r值是否显著,不必再计算tr值。rα,ν,>|r|----P>α
----相关不显著;rα,ν,
≤|r|----α
≥P----在α水准上相关显著;(二)查表法:72今:r=-0.9070,ν=15-2=13,查附表界值,得:r0.05,13=0.441r0.01,13=0.592现∣r∣>r0.01,13,P<0.01,按α=0.01水准,拒绝HO,接受H1。认为ρ≠0,说明凝血时间的长短与血液中凝血酶浓度有负相关。结论与计算所得一致。相关系数的显著性与自由度的大小有关,如n=3,ν=1时,虽r=-0.9070,却为不显著;若ν=400时,即使r=0.1000,亦为显著。因此不能只看r的值,不考虑ν就下结论。今:r=-0.9070,ν=15-2=13,查附表界值73相关分析应注意的问题1.相关分析一定要有实际意义。X,Y来自正态总体,随机变量。2.相关分析前,先绘制散点图。散点有线性趋势,再进行相关分析。3.样本量足够大,可以根据r值大小推断两变量间的相关程度。小样本时,即使检验有显著性,也仅能对两变量间的直线关系作判断,相关的强度不可靠。尤其当r有统计学意义,但r2较小,结论要慎重。相关分析应注意的问题1.相关分析一定要有实际意义。X,744.相关可以是因果关系,也可以只是伴随关系。相关显著只说明两现象间的数量间存在直线关系,但不能证明事物间的内在联系。当事物间的内在联系尚未被认识前,相关分析能从数量上给理论研究提供线索。4.相关可以是因果关系,也可以只是伴随关系。相关显著只说75计算出相关系数后,如果r显著,需要进一步了解两变量中一个变量依另一个变量而变动的规律时,可进行回归分析。直线回归linearregression
计算出相关系数后,如果r显著,需要进一步了解两变量中一个变量76直线回归的概念反映两变量间的依存变化的数量关系。应变量(dependentvariable)Y随自变量(independentvariable)X变化而变化,以直线回归方程(linearregressionequation)表示。与数学上的函数关系不同,回归关系具有不确定性。
如:成年人年龄和血压的关系,大量调查发现平均收缩压随年龄的增长而增高,且呈直线趋势,但各点并非恰好都在直线上。为强调这一区别,统计上称这是血压在年龄上的“回归”。直线回归的概念反映两变量间的依存变化的数量关系。77建立一个描述应变量依自变量而变化的直线方程,并要求各点与该直线纵向距离的平方和为最小。按这个要求计算回归方程的方法称为最小平方法或最小二乘法。建立的方程是一个二元一次方程式。直线回归分析的任务建立一个描述应变量依自变量而变化的直线方程,并要求各点与该直78直线回归方程的标准形式
a:截距(intercept),直线与Y轴交点的纵坐标。b:斜率(slope),回归系数(regressioncoefficient)。
意义:X每改变一个单位,Y平均改变b个单位。
b>0,Y随X的增大而增大(减少而减少)——斜上;
b<0,Y随X的增大而减小(减少而增加)——斜下;
b=0,Y与X无直线关系——水平。
|b|越大,表示Y随X变化越快,直线越陡峭。直线回归方程的标准形式a:截距(intercept),直线79直线回归方程的计算
最小二乘法原则(leastsquaresmethod):使各散点到直线的纵向距离的平方和最小。即:最小。因为直线一定经过“均数”点直线回归方程的计算最小二乘法原则(leastsquar80根据前面的相关分析以及医学上有关凝血的机理,可知凝血时间依凝血酶浓度而异,且有密切的关系。因此可进一步作由凝血酶浓度(X)推算凝血时间(Y)的回归方程。步骤如下:1.列回归计算表,计算∑X、∑Y、∑X2、∑Y2、∑XY。2.计算、、∑(X-X)2、∑(X-X)(Y-Y)=∑X/n=15.1/15=1.01=∑Y/n=222/15=14.80∑(X-)2=∑X2-(∑X)2/n=0.2093∑(X-)(Y-)=∑XY-∑X·∑Y/n=-1.7800举例根据前面的相关分析以及医学上有关凝血的机理,可知凝血时间依凝813.计算回归系数b和截距a。
本例b=-1.7800/0.2093=-8.5045a=14.80-(-8.5045)(1.01)=23.38954.列出回归方程,绘制回归直线3.计算回归系数b和截距a。82在凝血酶浓度的实测范围内,即X=0.8到X=1.2之间,任选两个X值(一般选相距较远且直角坐标系上容易读出者),代入此回归方程,即得相应的两个Y值,就可画出该直线。须注意回归直线必通过()点,并穿过观察点群,直线上下各有一些点散布着,否则计算有误。在凝血酶浓度的实测范围内,即X=0.8到X=1.2之间,任选83直线回归方程的统计推断总体回归系数的估计:例题216页样本回归系数的标准误剩余标准差参差平方和直线回归方程的统计推断总体回归系数的估计:例题216页样本回84为何进行总体回归系数的估计?1.由于抽样误差的存在,每次抽样所得到的样本回归系数有所不同。那么,用它来估计总体回归系数也会不同。为了说明回归方程的稳定性,要对总体的回归系数进行估计。2.可信度相同时,回归系数的标准误越小,可信区间就越小,回归方程就稳定。为何进行总体回归系数的估计?1.由于抽样误差的存在,每次抽85(一)样本回归系数的假设检验b≠0原因:①由于抽样误差引起,总体回归系数β=0②存在回归关系,总体回归系数β≠0直线回归方程的假设检验样本回归系数的假设检验亦用t检验。H0:β=0即Y的变化与X无关;H1:β≠0即Y的变化与X有关;(一)样本回归系数的假设检验直线回归方程的假设检验样本回归86分母Sb是样本回归系数b的标准误,计算公式为:Sy.x为各观察值Y距回归线的标准差(剩余标准差),即当X的影响被扣去以后Y方面的变异,
分母Sb是样本回归系数b的标准误,计算公式为:87根据数理统计的理论,同一批资料计算所得tr与tb是相同的,即tr=tb。处理资料时可用检验相关显著性代替其回归显著性。由于
r在α=0.01水准上显著,故可判断样本回归系数-8.5045与0的相差有显著性,说明存在凝血时间随凝血酶浓度变化而变化的回归关系。根据数理统计的理论,同一批资料计算所得tr与tb是相同的,即88(二)两样本回归系数相差的假设检验若有两个可以比较的样本,它们的回归系数分别为b1与b2,经检验都为显著,回归系数的标准误分别为Sb1和Sb2。b1与b2相差的显著性也可用t检验法检验,其计算公式为:(二)两样本回归系数相差的假设检验89S2C为两样本回归系数的合并方差S2C为两样本回归系数的合并方差90实例:两样本回归系数t检验的步骤。同一批白蛋白于38℃与25℃条件下,不同时间(分)的凝固百分比,问由此而得的两样本回归系数相差是否显著?白蛋白在两种温度下各不同时间的凝固百分比实例:两样本回归系数t检验的步骤。911.H0:β1-β2=0H1:β1-β2≠0α=0.012.计算t值1.H0:β1-β2=092r1=0.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 淮阴师范学院《生态学》2021-2022学年第一学期期末试卷
- 淮阴师范学院《近代物理实验》2022-2023学年第一学期期末试卷
- 淮阴师范学院《中学数学学科课程标准与教材分析》2022-2023学年第一学期期末试卷
- 淮阴师范学院《电子商务法律与法规》2023-2024学年第一学期期末试卷
- 淮阴师范学院《电气控制与PLC》2022-2023学年期末试卷
- DB3304T028-2024机关事务管理 保洁服务规范
- DB 1502-T 026-2024多晶硅生产企业能源管理规范
- 文书模板-《老年人观赏类活动策划方案》
- 搪瓷制品在环保行业中的应用与发展趋势考核试卷
- 低温仓储的网络与信息安全管理考核试卷
- 汽车外覆盖件
- 公共政策课件 swot分析与美国西南航空公司的成功
- 西方经济学十大原理
- 函数的奇偶性(第二课时) (知识精讲+备课精研) 高一数学 课件(苏教版2019必修第一册)
- xx学校“无废校园”创建推进工作总结
- GB/T 23704-2017二维条码符号印制质量的检验
- GB 10205-2001磷酸一铵、磷酸二铵
- 红色消防安全知识宣传培训课件PPT模板
- 招标投标法实务讲座
- 《乡土中国》《家族 》《男女有别》联读 【备课精讲精研】 高中语文
- 项目进度管理培训(-)课件
评论
0/150
提交评论