k第十一章 回归及相关分析.ppt_第1页
k第十一章 回归及相关分析.ppt_第2页
k第十一章 回归及相关分析.ppt_第3页
k第十一章 回归及相关分析.ppt_第4页
k第十一章 回归及相关分析.ppt_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第十一章 相关及回归分析,1 相关与回归的意义,一、相关( correlation analysis) 1定义:研究两种或两种以上变数(事物)的相关变异的程度叫相关。,2意义:相关分析只能研究两事物或两个以上事物之间相互关系及其相互影响的程度。而不能说明它们之间具有因素或依存关系。,3相关分析的种类,二、回归分析(regression analysis),1定义:研究一种变数受一种或一种以上变种的影响程度的统计分析方法。,2意义:回归分析不仅研究事物间的关系,而且研 究事物之间的依存关系。因而可用一种事物(自变量x)去推测另一种事物(依变量)的变异规律。,3回归分析的种类 直线回归 ; 曲线回

2、归。(一元回归);(多元回归),四、回归相关分析中几个注意的问题,1变数间是否存在相关,及在什么条件下发生什么样的相关,必须由各具体学科本身来决定。 2研究一个事物(y)和另一个事物(x)的相关或回归关系,则要求其余事物的均匀性必须得到尽可能的严格控制 3两个变数的成对观察值尽可能多一些,并且x取值范围尽可能大一些,一般应在10对以上观察值。,Sr:相关系数标准误,Sy/x:回归标准误,2 直线回归,一、直线回归方程的建立,对于两个相关变量,一个变量用x表示,另一个变量用y表示,如果通过试验或调查获得两个变量的n对观测值(x1,y1),(x2,y2),(xn,yn),x变量和y 变量散点图,从

3、上图中可以看出:,散点图直观地、定性地表示了两个变量之间的关系。 、两个变量间有关或无关;若有关,两个变量间关系类型,是直线型还是曲线型; 、两个变量间直线关系的性质(是正相关还是负相关)和程度(是相关密切还是不密切),1、直线回归方程:,在x、y直角坐标平面上可以作出无数 条直线,我们把所有直线中最接近散点图中全部散点的直线用来表示x与y的直线关系,这条直线称为回归直线。 用一个数学表达式来描述这条回归直线,这个数学表达式叫做回归方程。,其中:a、b为两个参数;,为依变量估计值。,2、回归方程的性质:,、离回归和等于0。 即:,其中:y为观察值; 为拟合方程的理论值,、离回归平方和最小。,、

4、回归直线必须通过P(,)坐标点,,,3、最小二乘法求参数a,b,根据第二个性质,用微积分学中的求极值的方法,令 Q对a、b的一阶偏导数等于0,即:,整理得正规方程:,这种求正规方程的方法叫最小二乘法,解方程组得:,式中的分子是自变量x的离均差与依变量y 的离均差的乘积和,,分母是自变量x的离均差平方和, ,记作SSX。,简称乘积和,记作 ;,a叫做样本回归截距,是回归直线与y轴交点的纵坐标,当x=0时, =a;b叫做样本回归系数,表示x改变一个单位,y平均改变的数量;b 的符号反映了x影响y的性质,b的绝对值大小反映了 x 影响 y 的 程度;,叫做回归估计值,是当x在在其研究范围内取某一个值

5、时,y值平均数,、a0,b0 、a0,b0 、a0,b0,直线回归方程,的图像,x,y,从上图可以看出,由于两个参数(a,b)不同,回归直线在坐标中的位置不同。,二、回归方程的拟合步骤:,例:P160 例9.1,1、将原始观察值在直角坐标上描散点,看该散点是否大致在一条直线上,若在,可拟合成直线。,累积温和一代三化螟盛发期的关系,注:y以5月10日为0,P(,,,),累积温和一代三化螟盛发期的关系的散点图及回归直线,2、计算回归系数b,3、将计算的参数,b,a代入方程中得到拟合的方程。,4、绘制直线回归方程,、在直角坐标中找到P(,、用原始资料中x的最大或最小值,求算相对应的,和,,用点P(,

6、)或P(,)这个坐标点,),在坐标上标点,通过两点,则可得到回归直线。,三、回归关系的显著性测定,实际观察值y与估计值 的差异,就是回归误差,1回归标准误,Sy/x是用来衡量实际观察值y与拟合方程计算的,Sy/x与回归方程估计的准确度成反比。,值 差异大小的统计量。,为离回归平方和;n-2为自由度,2回归标准误的计算,离回归平方和,SSy:y观察值的平方和;SPxy:x与y乘积和; SSx:x观察值的平方和,:离回归平方和,3回归关系的显著性检验(F检验):,若x和y变量间并不存在直线关系, 但由n对观测值(xi,yi)也可以根据上面介绍的方法求得一个回归方程 =a +bx。 显然,这样的回归

7、方程所反应的两个变量间的直线关系是不真实的。 如何判断直线回归方程所反应的两个变量间的直线关系的真实性呢?这取决于变量x与y间是否存在直线关系。我们先探讨依变量y的变异,然后再作出统计推断。,上式两端平方,然后对所有的n点求和,则有:,从图看到:,1)平方和的分解:,0,因为:,所以:,反映了y的总变异程度,称为y的总平方和,记为SSy,反映了由于y与x间存在直线关系所引起的y的变异程度,称为回归平方和,记为SSR;,反映了除y与x存在直线关系以外的原因,包括随机误差所引起的y的变异程度,称为离回归平方和或剩余平方和,记为SSr。,所以有:,其中:,总平方和,回归平方和,离回归平方和,这表明y

8、的总平方和SSy剖分为: 回归平方和SSR与离回归平方和SSr两部分,y的总自由度dfy也分解为: 回归自由度dfR与离回归自由度dfr两部分,,2)自由度的分解:,即:,y 的总自由度:,回归自由度:,离回归自由度 :,回归均方(方差):,离回归均方:,n:观察值的对数,自变量的个数,3)计算均方(方差),4)列方差分析表进行F检验,F检验的步骤:,、建立无效假设:H0:总体中x与y不存在直线回归 、确定, 、计算统计量,回归平方和计算公式:,方差分析表,离回归平方和计算公式为:,依自由度dfR=1,dfr=n-2查F表,得F 若,F F,则推翻H0 说明总体中x与y存在显著或极显著直线回归

9、关系,、方差分析F检验,4、回归系数的显著性检验t检验,建立无效假设 H0:0 x与y不存在直线回归关系 选择 计算回归系数标准误,依dfr=n-2,查t表,得,tt,则推翻假设。,、计算t值,在以上分析中,主要要计算三个平方和,SPxy:乘积和: SSy:依变量平方和: SSx:自变量平方和:,例:方程,检验如下:,1)、方差分析法,b=-1.1 SSy=249.6 SSx=144.6 SPxy=-159.0,方差分析表,F F0.01, 说明x与y有极显著的直线回归关系,2)t测验,建立无效假设:H0 =0(回归系数0),计算回归系数标准误:,计算t值:,查表 t0.05(7)=2.36

10、t0.01(7)=3.50 t t0.01 说明x与y存在极显著的回归关系。,3 直线相关,一、相关程度的表示,1相关系数(coefficient of correlation)r: 表示两个变数相关的密切程度的统计量 2相关的种类,r=1 表示完全相关 r=0 表示不相关 r=+1 叫完全正相关 r=-1 叫完全负相关0|r|1 表示不完全相关 0|r|0.7 表示弱相关 0.7|r|1 表示强相关,二相关系数计算,例9.1 相关系数计算 (P160),SSy=249.6 SSx=144.6 SPxy=-159.0,三、决定系数r2 ( coefficient of determinatio

11、n),回归平方和:,总平方和 :,因为:,所以:,0 r2 1,决定系数为正值 决定系数只表示相关程度 不表示相关性质,因为:,所以,决定系数实质是相关系数的平方,四、相关系数的检验,1测验,、建立无效假设 H0 x与y不相关。 、计算统计量,,相关系数标准误Sr和t值,、 依n-2查t表得t,、用t与计算的t值比较,若,,则推翻假设。,上例,t0.01(7)=3.5,,故相关极显著,2查表法:,用dfn-2查相关系数检验表,得,上例,查表10(P376)得:,则相关显著,依,说明x与y存在极显著的负相关,五、相关系数与回归系数的关系,从相关系数计算公式的导出可以看到: 相关变量x与y的相关系

12、数r 是y对x的回归系数byx与x对y的回归系数bxv的几何平均数:,上式表明直线相关分析与回归分析关系十分密切。 事实上,回归分析与相关分析研究对象都是呈直线关系的相关变量。直线回归分析将二个相关变量区分为自变量和依变量,侧重于寻求它们之间的联系形式直线回归方程;直线相关分析不区分自变量和依变量,侧重于揭示它们之间的联系程度和性质计算出相关系数。两种分析所进行的显著性检验都是解决y与x间是否存在直线关系。因而二者的检验是等价的。即相关系数显著 , 回归系数亦显著; 相关系数不显著,回归系数也必然不显著。,由于利用查表法对相关系数进行检验十分简便,因此在实际进行直线回归分析时,可用相关系数显著

13、性检验代替直线回归关系显著性检验,即可先计算出相关系数r并对其进行显著性检验,若检验结果r不显著,则用不着建立直线回归方程;若r显著,再计算回归系数b、回归截距a,建立直线回归方程,此时所建立的直线回归方程代表的直线关系是真实的,可利用来进行预测和控制。,六、应用直线回归与相关的注意事项,1、变量间是否存在相关 直线回归分析和相关分析是处理变量间关系的数学方法,在将这些方法应用于生物科学研究时要考虑:1)变量间是否存在直线相关;2)在什么条件下会发生直线相关;3)求出的直线回归方程是否有意义;4)某性状作为自变量或依变量的确定等等,都必须由生物科学相应的专业知识来决定,并且还要用到生物科学实践

14、中去检验。如果不以一定的生物科学依据为前提,把风马牛不相及的资料随意凑到一块作直线回归分析或相关分析,那将是根本性的错误。,2、其余变量尽量保持一致 由于自然界各种事物间的相互联系和相互制约,一个变量的变化通常会受到许多其它变量的影响。因此,在研究两个变量间关系时,要求其余变量应尽量保持在同一水平,否则,回归分析和相关分析可能会导致完全虚假的结果。例如研究人的身高和胸围之间的关系,如果体重固定,身高越高的人,胸围越小,但当体重在变化时,其结果也就会变化。,3、观测值要尽可能的多 在进行直线回归与相关分析时,两个变量成对观测值应尽可能多一些,这样可提高分析的精确性,一般至少有5对以上的观测值。同时变量x的取值范围要尽可能大一些,这样才容易发现两个变量间的变化关系。 4、外推要谨慎 直线回归与相关分析一般是在一定取值区间内对两个变量间的关系进行描述,超出这个区间,变量间关系类型可能会发生改变,所以回归预测必须限制在自变量x的取值区间以内,外推要谨慎,否则会得出错误的结果。,5、正确理解回归或相关显著与否的含义 一个不显著的相关系数并不意味着变量x和y之间没有关系,而只有能说明两变量间没有显著的直线关系;一个显著的相关

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论