第十章 直线回归与相关分析.ppt_第1页
第十章 直线回归与相关分析.ppt_第2页
第十章 直线回归与相关分析.ppt_第3页
第十章 直线回归与相关分析.ppt_第4页
第十章 直线回归与相关分析.ppt_第5页
已阅读5页,还剩66页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第十章直线回归与相关分析,10.1回归和相关分析概述 10.2直线回归分析 10.3直线相关分析,10.1回归和相关分析概述,一、变量间的关系分为两类: 函数关系:完全确定性的关系可用精确的数学式来表示; 统计关系:不存在完全确定性的关系不能用精确的数学式来表示。 统计关系这一类变量间的关系就是统计学中回归分析与相关分析所要讨论的问题。,常用x、y来表示两个变量,(x,y)的各对观察值用(x1,y1),(x2,y2),(xn,yn)表示。,在统计上,x和y变量的关系有两种理论模型: 回归模型和相关模型。,回归模型(因果关系)中: x表示原因的变量;y是表示结果的变量。,回归分析目的:导出由x

2、来预测或控制y的回归方程,即确定当自变量x为某一值时依变量y将会在什么范围内变化。,二、回归、相关分析的任务与类型,在相关模型中,其x和y变量是平行变化关系,不能区别哪一个是自变量,哪一个是依变量。,相关分析目的:确定两个变量在数量关系上的密切程度和性质。不能用一个或多个变量去预测、控制另一个变量的变化。,回归分析的类型: 一元回归分析(直线和曲线回归分析); 多元回归分析(多元线性回归分析和曲面回归分析)。,相关分析的类型:直线相关分析; 复相关分析。 偏相关分析。,三、两个变数资料的散点图,对具有统计关系的两个变数的资料进行初步考察的简便而有效的方法,是将这两个变数的n对观察值(x1,y1

3、)、(x2,y2)、(xn,yn)分别以坐标点的形式标记于同一直角坐标平面上,获得散点图(scatter diagram)。,例如:,根据散点图可初步判定双变数X和Y间的关系:,X和Y相关的性质(正或负)和密切程度 X和Y的关系是直线型的还是非直线型的 是否有一些特殊的点表示着其他因素的干扰,10.2直线回归分析,一、直线回归方程的建立 二、直线回归的显著性检验 三、直线回归的区间估计,一、直线回归方程的建立,设变量x与y间存在直线关系,根据n对观察值所描出的散点图如下。,图2 直线回归散点图,总体直线回归方程:y=+x,实际观察值可表示为:,yi =+xi+i (i=1,2,,n) i为随机

4、误差,与、相互独立,且服从N(0,2)。这就是直线回归的数学模型,根据样本实际观察值对、以及误差方差2作出估计, 即建立样本回归方程并估计出误差的大小。,设样本直线回归方程为:,总体直线回归方程:y=+x,其中a是的估计值,称为回归截距; b是的估计值,称为回归系数,表示自变量每改变一个单位数时, 依变量y平均改变的单位数(b0时,增加;b0时,减少),是+xi的估计值,回归方程的基本条件(性质):,利用最小二乘法,即最小的方法求a与b的值。根据微积分学中求极值的原理,将Q对a与b求偏导数并令其等于0:,整理后可得:,上式叫做a与b的正规方程组。,简记为:,解之可得:,x与y的离均差乘积和,简

5、称为乘积和,记为 SPxy。,记 ssx=x2-(x)2n,则,a、b是、的最小二乘估计也是无偏估计。,例9.1一些夏季害虫盛发期的早迟和春季温度高低有关。江苏武进连续9年测定3月下旬至4月中旬旬平均温度累积值(x,旬.度)和水稻一代三化螟盛发期(y,以5月10日为0)的关系,得结果于表9.1。试计算其直线回归方程。,表9.1 累积温和一代三化螟盛发期的关系,SAS分析,解:,上述方程中回归系数b和回归截距a的意义为:,b=-1.1 当3月下旬至4月中旬的积温(x)每提高1旬度时,一代三化螟的盛发期平均将提早1.1天; a=48.5 若积温为0,则一代三化螟的盛发期将在6月2728日(x=0时

6、,=48.5;因y是以5月10日为0,故48.5为6月2728日)。,由于x变数的实测区间为31.7,44.2,在应用=48.5-1.1x于预测时,需限定x的区间为31.7,44.2;如要在x31.7或44.2的区间外延,则必须有新的依据。,二、直线回归的显著性检验,回归关系的假设测验: 对于样本的回归方程,必须测定其来自无直线回归关系总体的概率大小。只有当这种概率小于0.05或0.01时,我们才能冒较小的危险确认其所代表的总体存在着直线回归关系。这就是回归关系的假设测验 。,回归关系的假设测验有两种方法:t测验或F测验,1、回归系数显著性检验t检验 对直线回归系数b的假设检验为: HO :=

7、0;HA 0。 在HO成立的条件下,回归系数b服从t分布。,其中 ,为回归系数标准误。,例9.3 试测验例9.1资料回归关系的显著性。,已算得b=-1.0996,SSx=144.6356,sy/x=3.266, 故有:,结论:认为积温和一代三化螟盛发期是有真实直线回归关系的。 或者说此b=-1.0996是极显著的。,2.回归关系显著性检验F检验,上式中:,已算得SSX=144.6356 SSy=249.5556 SP=-159.044,解: 回归平方和,离回归平方和:,例9.4 试用F测验法检测例9.1资料回归关系的显著性。,表9.3 例9.1资料回归关系的方差分析,结论:表明积温和一代三化螟

8、盛发期是有真实直线回归关系的,即0(准确地说,在=0的总体中获得现有回归样本的概率小于0.01)。,统计学已证明,在直线回归分析中F检验与t检验法是等价的,可任选一种进行检验。 特别要指出的是:利用直线回归方程进行预测或控制,一般只能内插,不要轻易外延。,离回归标准差: 统计意义:p162,三、直线回归的区间估计,1直线回归的抽样误差,在直线回归总体 中抽取若干个样本时,由于,各样本的a、b值都有误差。 因此,由=a+bx给出的点估计的精确性,决定于SY/X和a、b的误差大小。 比较科学的方法: 给出对其总体的 等的置信区间。,、,2回归截距的置信区间,a的标准误为:,总体回归截距有95可靠度

9、的置信区间为:,3回归系数的置信区间,b的标准误为:,总体回归系数有95可靠度的置信区间为:,4.条件总体平均数 的置信区间:,样本估计值 的标准误为:,的置信区间:,5.条件总体预测值的置信区间:,单个预测值的估计标准误为:,Y(P)的置信区间:,例9.6 测定迟熟早籼广陆矮4号在5月5日至8月5日播种时(每隔10天播一期),播种至齐穗的天数(x)和播种至齐穗的总积温(y,日度)的关系列于表9.5,试计算: (1)回归方程及其显著性测验; (2)其回归截距和回归系数95%可靠度的置信区间。,表9.5 广陆4号播种至齐穗天数(x)和总积温(y)的关系,(1),(2)其回归截距和回归系数95%可

10、靠度的置信区间。,例9.1一些夏季害虫盛发期的早迟和春季温度高低有关。江苏武进连续9年测定3月下旬至4月中旬旬平均温度累积值(x,旬.度)和水稻一代三化螟盛发期(y,以5月10日为0)的关系,得结果于表9.1。,表9.1 累积温和一代三化螟盛发期的关系,(1)计算其直线回归方程,并进行回归显著性测验。,(2)当3月下旬至4月中旬的积温为40旬度时,历年的一代三化螟平均盛发期在何时(取95%可靠度)? (3)某年3月下旬至4月中旬的积温为40旬度,试估计该年的一代三化螟盛发期在何时(取95%可靠度)?,(2)当3月下旬至4月中旬的积温为40旬度时,历年的一代三化螟平均盛发期在何时(取95%可靠度

11、)?,(3)某年3月下旬至4月中旬的积温为40旬度,试估计该年的一代三化螟盛发期在何时(取95%可靠度)?,进行直线相关分析的基本任务在于根据x、y的实际观测值,计算表示两个相关变量x、y间线性相关程度和性质的统计量相关系数r并进行显著性检验。,10.3直线相关分析,y与x直线回归效果的好坏取决于SS回归 与SS离回归 的大小,或者说取决于SS回归 在y的SS总中所占比例的大小。这个比例越大,y与x的直线回归效果就越好,反之则差。,在上一节中已经证明了等式:,一、决定系数和相关系数,回归平方和,离回归平方和,决定系数r2的大小表示了回归方程的可靠程度,显然有0r21。因为,我们把比值叫x对y的

12、决定系数,记为r2即,byx =SPxy/SSx 是x为自变量、y为依变量时的回归系数。,决定系数r2等于y对x的回归系数byx与x对y的回归系数bxy的乘积,bxy =SPxy/SSy 是y为自变量、x为依变量时的回归系数。,决定系数r2表示了互为因果关系的相关变量x与y间直线关系的程度。 决定系数介于0与1之间,不能反映x与y直线关系的性质是同向增减或异向增减。,若求r2的平方根,且取平方根的符号与乘积和SPxy的符号一致,即与bxy 、byx的符号一致,这样求出的平方根既可表示y与x的直线相关的程度,也可表示直线相关的性质。统计学上把这样计算所得的统计量称为x与y的相关系数(coeffi

13、cient of correlation),记为r,即,显然相关系数介于-1与+1之间, 即 -1r1。 若r=-1,为完全负相关; r=+1,为完全正相关。,在农业研究中,完全相关的情况很罕见,多数相关系数是大于-1,小于+1的。,无效假设HO:=0 ; 备择假设为:HA:0。,三、相关系数的显著性检验,相关系数r是样本相关系数, 它是双变量正态总体中的总体相关系数的估计值。样本相关系数r是否来自0的总体,还须对样本相关系数r 进行显著性检验。,可采用t检验法、F检验法及查表法对相关系数r的显著性进行检验。,查表法 先根据自由度n-2查临界r值(附表8),得 若|r| ,P0.05,则相关系

14、数r不显著; 若 |r| ,0.01P0.05,则相关系数r显著,标记“*”; 若|r| ,P0.01, 则相关系数r极显著,标记“*”。,例9.11 试计算例9.1资料3月下旬至4月中旬积温和一代三化螟盛发期的相关系数和决定系数。,已算得该资料的SSx=144.6356,SSy=249.5556, SP=-159.0444,故,r=-0.8371表明:一代三化螟盛发期与3月下旬至4月中旬的积温成负相关,即积温愈高,一代三化螟盛发期愈早。,r2=0.7008表明:在一代三化螟盛发期的变异中有70.08%是由3月下旬至4月中旬的积温不同造成的。,四、直线回归与直线相关的联系 研究对象都是呈直线关

15、系的相关变量。 直线回归分析将二个相关变量区分为自变量与依变量,侧重于寻求它们之间的联系形式建立直线回归方程; 直线相关分析不区分自变量于依变量,侧重于揭示它们之间联系程度与性质计算出相关系数。,两种分析的显著性检验都是解决y与x是否存在直线关系,因而二者的检验是等价的。 可用相关系数显著性检验代替直线回归关系显著性检验,即可先计算相关系数r并对其进行检验,显著后再建立直线回归方程。,五、应用直线回归与相关的注意事项 直线回归分析与相关分析在生物科学研究领域中已得到了广泛的应用,但在实际工作中却很容易被误用或作出错误的解释。为了正确地应用直线回归分析和相关分析这一工具,必须注意以下几点:,1、

16、变量间是否存在相关 直线回归分析和相关分析毕竟是处理变量间关系的数学方法,在将这些方法应用于生物科学研究时要考虑到生物本身的客观实际情况,譬如变量间是否存在直线相关以及在什么条件下会发生直线相关,求出的直线回归方程是否有意义,某性状作为自变量或依变量的确定等等,都必须由生物科学相应的专业知识来决定,并且还要用到生物科学实践中去检验。如果不以一定的生物科学依据为前提,把风马牛不相及的资料随意凑到一块作直线回归分析或相关分析,那将是根本性的错误。,2、其余变量尽量保持一致 由于自然界各种事物间的相互联系和相互制约,一个变量的变化通常会受到许多其它变量的影响,因此,在研究两个变量间关系时,要求其余变

17、量应尽量保持在同一水平,否则,回归分析和相关分析可能会导致完全虚假的结果。例如研究人的身高和胸围之间的关系,如果体重固定,身高越高的人,胸围越小,但当体重在变化时,其结果也就会变化。,3、观测值要尽可能的多 在进行直线回归与相关分析时,两个变量成对观测值应尽可能多一些,这样可提高分析的精确性,一般至少有5对以上的观测值。同时变量x的取值范围要尽可能大一些,这样才容易发现两个变量间的变化关系。 4、外推要谨慎 直线回归与相关分析一般是在一定取值区间内对两个变量间的关系进行描述,超出这个区间,变量间关系类型可能会发生改变,所以回归预测必须限制在自变量x的取值区间以内,外推要谨慎,否则会得出错误的结果。,5、正确理解回归或相关显著与否的含义 一个不显著的相关系数并不意味着变量x和y之间没有关系,而只有能说明两变量间没有显著的直线关系;一个显著的相关系数或回归系数亦并不意味着x和y的关系必定为直线,因为并不排除有能够更好地描述它们关系的非线性方程的存在。,6、一个显著的回归方程并不一定具有实践上的预测意义 如 一 个 资 料 x 、y 两 个变量间的相关系数 r =0.5,在 df = 2 4 时 ,r0.01(24)=0. 4 9 6,rr0.01

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论