直线相关与回归Linearcorrelationandregression_第1页
直线相关与回归Linearcorrelationandregression_第2页
直线相关与回归Linearcorrelationandregression_第3页
直线相关与回归Linearcorrelationandregression_第4页
直线相关与回归Linearcorrelationandregression_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

直线相关与回归Linearcorrelationandregression直线相关与回归

前面介绍的统计方法都只涉及,即或进行两组或多组比较,所比较的仍然是同一变量,而且是以讨论各组间该变量的相差是否显著为中心环节。医学领域里常可在一个统一体中遇到两个或多个变量之间存在着相互联系、相互制约的情况.如:同一批水样的浊度与透光率,同一批人的与血压以及身长、体重与胸围等。如何研究变量之间的关系?在统计方法中通常是用相关与回归的方法来研究不同变量之间的这种相互依存和互为消长的关系。相关与回归即有区别又有联系,表达事物或现象间的在数量方面相互关系的密切程度用相关系数;说明一变量依另一变量的消长而变动的规律用回归方程。数量关系的特点?函数关系:确定。例如园周长与半径:y=2πr。一一对应关系。回归关系:不确定。例如血压和年龄的关系。

具有相同年龄的人,血压不一定相同。但在一定年龄范围内的人,其血压会在一定范围内波动。年龄与血压之间有一定的趋势。直线相关linearcorrelation相关----变量间的互依关系直线相关(linearcorrelation)也叫简单相关(simplecorrelation),用于双变量正态分布资料。为判断两事物数量间有无相关,可先将两组变量中一对对数值在普通方格纸上作散点图各种相关关系示意图Positivecorrelation,Perfectpositivecorrelation,Negativecorrelation,Perfectnegativecorrelation,6.7.Zerocorrelation,8.Non-linearcorrelation一、直线相关系数

r相关分析是用相关系数(r)来表示两个变量间相互的直线关系,并判断其密切程度的统计方法。又称积差相关系数(coefficientofproduct–momentcorrelation),或Pearson相关系数(软件中常用此名称)说明相关的密切程度和方向的指标。

r--样本相关系数ρ--总体相关系数相关系数linearcorrelationcoefficient相关系数的意义相关系数:说明具有直线关系的两变量间,相关方向与密切程度的统计指标。相关系数r没有单位,在-1~+1范围变动,符号表示相关的方向,大小表示相关的程度。r>0,正相关;r<0,负相关;r=1,-1,完全相关;r=0,零相关(无直线关系),但不能表达直线以外的关系(如各种曲线)。正相关——见图1,各点分布呈椭圆形,Y随X的增加而增加,X亦随Y的增加而增加,此时1>r>0。椭圆范围内各点的排列愈接近其长轴,相关愈密切,当所有点都在长轴上时,r=1(见图2),称为完全正相关。负相关——见图3,各点分布亦呈椭圆形,Y随X的增加而减少,X也随Y的增加而减少,此时0>r>-1。各点排列愈接近其长轴,相关愈密切,当所有点都在长轴上时,r=1(见图4),称为完全负相关。生物现象中,完全正相关或完全负相关甚为少见。无相关——见图5、6和7,X不论增加或减少,Y的大小不受其影响;反之亦然。此时r=0。另外,须注意有时虽然各点密集于一条直线,但该直线与X轴或Y轴平行,即X与Y的消长互不影响,这种情况仍为无相关。非线性相关——见图8,图中各点的排列不呈直线趋势,呈某种曲线形状,此时r≈0,称为非线性相关。

|r|>=0.7,高度相关;

0.4<=|r|<0.7,中度相关;

|r|<0.4,低度相关;X的离均差平方和Y的离均差平方和X与Y的离均差乘积之和,相关系数的计算举例:

测定15名健康成人血液的凝血酶浓度(单位/毫升)及血液的凝固时间(秒),测定结果记录于表第(2)、(3)栏,问血凝时间与凝血酶浓度间有无相关?1.绘图,将第(2)、(3)栏各对数据绘成散点图。2.求出∑X、∑Y、∑X2、∑Y2、∑XY∑X=15.1∑Y=222

∑XY=221.7

∑X2=15.41∑Y2=33043.代入公式,求出r值。r=-0.9070负值表示血凝时间随凝血酶浓度的增高而缩短;绝对值∣-0.9070∣表示这一关系的密切程度。此相关系数是否显著,则要经过下面的分析。

虽然样本相关系数r可作为总体相关系数ρ的估计值,但从相关系数ρ=0的总体中抽出的样本,计算其相关系数r,因为有抽样误差,故不一定是0,要判断不等于0的r值是来自ρ=0的总体还是来自ρ≠0的总体,必须进行显著性检验。

r≠0原因:①由于抽样误差引起,ρ=0 ②存在相关关系,ρ≠0相关系数的假设检验

相关系数假设检验的过程(一)t检验由于来自ρ=0的总体的所有样本相关系数呈对称分布,故r的显著性可用t检验来进行。υ=n-2Sr----相关系数的标准误

公式

零假设:ρ=0,备择假设:ρ≠0r与0的差别是否显著要按该样本来自ρ=0总体的概率而定。如果从ρ=0的总体中取得某r值的概率P>0.05,就接受假设,认为此r很可能是从此总体中取得的。因此判断两变量间无显著关系;如果取得r值的概率P≤0.05或P≤0.01,就在α=0.05或α=0.01水准上拒绝检验假设,认为该r不是来自ρ=0的总体,而来自ρ≠0的另一个总体,因此判断两变量间有显著关系。对r值检验的判断1.建立检验假设,H0:ρ=0,H1:ρ≠0,

α=0.052.计算相关系数的r的t值:3.查t值表作结论

ν=n-2=15-2=13根据专业知识知道凝血酶浓度与凝血时间之间不会呈正相关,故宜用单侧界限,查t值表得

t0.01,13=2.650今∣tr∣>t0.01,13,P<0.01,在α=0.01水准上拒绝H0,接受H1,故可认为凝血时间的长短与血液中酶浓度有负相关。(二)查表法:为简化tr检验的计算过程,数理统计工作者根据t分配表,已把不同自由度时r的临界值求出,并列成相关系数界值表(见附表13-1)。故只需查表就可知道该r值是否显著,不必再计算tr值。

rα,ν,>|r|----P>α

----相关不显著;

rα,ν,

≤|r|----α

≥P----在α水准上相关显著;今:r=-0.9070,ν=15-2=13,查附表界值,得:r0.05,13=0.441r0.01,13=0.592

现∣r∣>r0.01,13,P<0.01,按α=0.01水准,拒绝HO,接受H1。认为ρ≠0,说明凝血时间的长短与血液中凝血酶浓度有负相关。结论与计算所得一致。相关系数的显著性与自由度的大小有关,如n=3,ν=1时,虽r=-0.9070,却为不显著;若ν=400时,即使r=0.1000,亦为显著。因此不能只看r的值,不考虑ν就下结论。相关分析应注意的问题1.相关分析一定要有实际意义。X,Y来自正态总体,随机变量。2.相关分析前,先绘制散点图。散点有线性趋势,再进行相关分析。3.样本量足够大,可以根据r值大小推断两变量间的相关程度。小样本时,即使检验有显著性,也仅能对两变量间的直线关系作判断,相关的强度不可靠。尤其当r有统计学意义,但r2较小,结论要慎重。4.相关可以是因果关系,也可以只是伴随关系。相关显著只说明两现象间的数量间存在直线关系,但不能证明事物间的内在联系。当事物间的内在联系尚未被认识前,相关分析能从数量上给理论研究提供线索。计算出相关系数后,如果r显著,需要进一步了解两变量中一个变量依另一个变量而变动的规律时,可进行回归分析。直线回归linearregression

直线回归的概念反映两变量间的依存变化的数量关系。应变量(dependentvariable)Y随自变量(independentvariable)X变化而变化,以直线回归方程(linearregressionequation)表示。与数学上的函数关系不同,回归关系具有不确定性。

如:成年人年龄和血压的关系,大量调查发现平均收缩压随年龄的增长而增高,且呈直线趋势,但各点并非恰好都在直线上。为强调这一区别,统计上称这是血压在年龄上的“回归”。建立一个描述应变量依自变量而变化的直线方程,并要求各点与该直线纵向距离的平方和为最小。按这个要求计算回归方程的方法称为最小平方法或最小二乘法。建立的方程是一个二元一次方程式。直线回归分析的任务直线回归方程的标准形式

a:截距(intercept),直线与Y轴交点的纵坐标。b:斜率(slope),回归系数(regressioncoefficient)。

意义:X每改变一个单位,Y平均改变b个单位。

b>0,Y随X的增大而增大(减少而减少)——斜上;

b<0,Y随X的增大而减小(减少而增加)——斜下;

b=0,Y与X无直线关系——水平。|b|越大,表示Y随X变化越快,直线越陡峭。直线回归方程的计算

最小二乘法原则(leastsquaresmethod):使各散点到直线的纵向距离的平方和最小。即:最小。因为直线一定经过“均数”点根据前面的相关分析以及医学上有关凝血的机理,可知凝血时间依凝血酶浓度而异,且有密切的关系。因此可进一步作由凝血酶浓度(X)推算凝血时间(Y)的回归方程。步骤如下:1.列回归计算表,计算∑X、∑Y、∑X2、∑Y2、∑XY。2.计算、、∑(X-X)2、∑(X-X)(Y-Y)

=∑X/n=15.1/15=1.01

=∑Y/n=222/15=14.80∑(X-)2=∑X2-(∑X)2/n=0.2093∑(X-)(Y-)=∑XY-∑X·∑Y/n=-1.7800举例3.计算回归系数b和截距a。

本例b=-1.7800/0.2093=-8.5045

a=14.80-(-8.5045)(1.01)=23.38954.列出回归方程,绘制回归直线在凝血酶浓度的实测范围内,即X=0.8到X=1.2之间,任选两个X值(一般选相距较远且直角坐标系上容易读出者),代入此回归方程,即得相应的两个Y值,就可画出该直线。须注意回归直线必通过()点,并穿过观察点群,直线上下各有一些点散布着,否则计算有误。直线回归方程的统计推断总体回归系数的估计:例题216页样本回归系数的标准误剩余标准差参差平方和为何进行总体回归系数的估计?1.由于抽样误差的存在,每次抽样所得到的样本回归系数有所不同。那么,用它来估计总体回归系数也会不同。为了说明回归方程的稳定性,要对总体的回归系数进行估计。2.可信度相同时,回归系数的标准误越小,可信区间就越小,回归方程就稳定。(一)样本回归系数的假设检验

b≠0原因:①由于抽样误差引起,总体回归系数β=0②存在回归关系,总体回归系数β≠0直线回归方程的假设检验样本回归系数的假设检验亦用t检验。

H0:β=0即Y的变化与X无关;

H1:β≠0即Y的变化与X有关;分母Sb是样本回归系数b的标准误,计算公式为:Sy.x为各观察值Y距回归线的标准差(剩余标准差),即当X的影响被扣去以后Y方面的变异,

根据数理统计的理论,同一批资料计算所得tr与tb是相同的,即tr=tb。处理资料时可用检验相关显著性代替其回归显著性。由于r在α=0.01水准上显著,故可判断样本回归系数-8.5045与0的相差有显著性,说明存在凝血时间随凝血酶浓度变化而变化的回归关系。(二)两样本回归系数相差的假设检验若有两个可以比较的样本,它们的回归系数分别为b1与b2,经检验都为显著,回归系数的标准误分别为Sb1和Sb2。b1与b2相差的显著性也可用t检验法检验,其计算公式为:S2C为两样本回归系数的合并方差实例:两样本回归系数t检验的步骤。同一批白蛋白于38℃与25℃条件下,不同时间(分)的凝固百分比,问由此而得的两样本回归系数相差是否显著?白蛋白在两种温度下各不同时间的凝固百分比1.H0:β1-β2=0

H1:β1-β2≠0

α=0.012.计算t值r1=0.998(P<0.01)b1=3.389∑(Y1-1)2=5.7927n1=6r2=0.996(P<0.01)b2=4.424∑(Y2-2)2=24.5857n2=6∑(X1-1)2=∑(X2-2)2=157.50003.查t值表作结论:以ν=6+6-4=8查t值表,t0.01,8=2.355,今∣t∣>t0.01,8,故P<0.01。

4.判断结果:按α=0.01水准,拒绝H0,接受H1,故两个回归系数差别显著。说明两条回归直线的斜率不同,两条回归直线中X对Y的影响规律不一致。现b2>b1,说明随着时间的增加,蛋白质在38℃时凝固百分比的增加量比在25℃时高。直线回归方程的应用1.描述两变量间的依存变化的数量关系。2.利用回归方程进行预测预报。3.用易得指标估计不易得指标。4.利用回归方程进行统计控制(逆估计)。1.作回归分析要有实际意义:不要把毫无关联的两个事物或现象用来作回归分析。如儿童身高的增长与小树的增长,作相关分析是没有实际意义的;由儿童身高推算小树高的回归方程则更无实际意义,即使算得的r、b是显著的。直线回归分析的注意事项

2.对相关分析的作用要正确理解。相关分析只是以相关系数来描述两个变量间相互关系的密切程度和方向,并不能阐明两事物或现象间存在联系的本质。而且相关并不一定就是因果关系,切不可单纯依靠相关系数或回归系数的显著性“证明”因果关系之存在。要证明两事物间的因果关系,必须凭籍专业知识从理论上加以阐明。3.相关与回归的区别和联系:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论