第九章-直线回归与相关分析5_第1页
第九章-直线回归与相关分析5_第2页
第九章-直线回归与相关分析5_第3页
第九章-直线回归与相关分析5_第4页
第九章-直线回归与相关分析5_第5页
已阅读5页,还剩69页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第九章直线回归与相关分析LinearRegressionandCorrelationAnalysis(6)第一节回归和相关的概念

客观事物是普遍联系的,事物间往往存在着一定的特定的关系:人的身高与体重,施肥与作物产量,降雨量与作物病虫害发生程度,温湿条件与微生物的繁殖等。协变关系:事物之间的相互关系都涉及两个或两个以上的变量,只要其中的一个变量变动了,另一个变量也会跟着变动,这种相互关系称为协变关系。协变量:具有协变关系的变量也称为~。两个以上变量之间共同受到另外因素的影响。 变量间的协变关系因果关系平行关系一个变量的变化受另一个变量或几个变量的制约。如微生物的繁殖速度受温度、湿度、光照等因素的影响,子女的身高是受着父母身高的影响。如人的身高与体重之间的关系,兄弟身高之间的关系等都属于平行关系。对有协变关系的两个变量,一个变量用符号x表示,另一个变量用y表示,如果通过试验或调查获得两个变量的成对观测值,可表示为(x1,y1),(x2,y2),…,(xn,yn)。散点图:将每一对观测值在平面直角坐标系中表示成一个点,直观表示x和y变化关系。5从散点图可以看出:①两个变量间关系的性质和程度;②两个变量间关系的类型,是直线型还是曲线型;③是否有异常观测值的干扰等。散点图只能定性的表示两个变量之间的关系,不能反映它们之间定量的规律性。回归与相关的统计分析方法:如果两个变量间关系属于因果关系,一般用回归来研究。自变量(independentvariable):表示原因的变量称为自变量,用x表示。自变量是固定的(试验时预先确定的),没有随机误差。10依变量(dependentvariable):表示结果的变量称为依变量,用y表示。y是随x的变化而变化的,并有随机误差。 例如作物施肥量和产量之间的关系,前者是表示原因的变量,为事先确定的,是自变量,后者是表示结果的变量,且具有随机误差,为依变量,作物产量是随施肥量的变化而变化的。通过回归分析,可以找出依变量变化的规律性,且能由x取值预测y的取值范围。两变量是平行关系,只能用相关来进行研究。在相关分析中,变量x和y无自变量和依变量之分,且都具有随机误差。相关分析只能研究两个变量之间相关程度和性质,不能用一个变量的变化去预测另一个变量的变化,这是回归与相关区别的关键所在。但是二者不能截然分开,因为由回归可以获得相关的一些重要信息信,由相关也可以获得回归的一些重要信息。

在回归和相关分析中,必然注意下面一些问题,以避免统计方法的误用。(1)

变量间是否存在相关以及在什么条件下会发生什么相关等问题,都必须由各具体学科本身来决定。 回归只能作为一种分析手段,帮助认识和解释事物的客观规律。决不能把风马牛不相及的资料凑到一起进行分析;(2)由于自然界各种事物间的相互联系和相互制约,一个变量的变化通常会受到许多其他变量的影响,因此,在研究两个变量之间的关系时,要求其余变量尽量保持在同一水平,否则,回归和相关分析就可能会导致不可靠甚至完全虚假的结果。 例如人的身高和胸围之间的关系,如果体重固定,身高越高的人,胸围一定较小,当体重变化时,其结果就会相反;(3)在进行回归与相关分析时,两个变量成对观测值应尽可能多一些,这样可提高分析的准确性,一般至少有5对以上的观测值。同时变量x的取值范围要尽可能大一些,这样才容易发现两个变量间的协变关系;(4)回归与相关分析一般是在变量的一定取值区间内对两个变量间的关系进行描述,超出这个区间,变量间的关系类型可能会发生改变,所以回归预测必须限制自变量x的取值区间,外推要谨慎,否则会得出错误的结果。15第二节直线回归一、直线回归方程的建立如果两个变量在散点图上呈线性关系,就可用直线回归方程来描述,其一般形式为:(9.1)式9.1读作“y依x的直线回归方程”。其中,x是自变量,是与x值相对应的依变量y的点估计值;a是当x=0时的值,即直线在y轴上的截距,叫回归截距;

b是回归直线的斜率,叫回归系数,其含义是自变量x增加一个单位,y平均增加或减少的单位数。回归直线在平面坐标系中的位置取决于a,b的取值,为了使=a+bx能最好地反映y和x两变量间的数量关系,根据最小二乘法,必须使:(9.2)式9.4中的分子是x的离均差和y的离均差的乘积之和,简称乘积和,记作SP,分母是x的离均差平方和,记作SSx。(9.3)(9.4)20a和b均可取正值,也可以取负值,因具体资料而异。

将x的取值范围代入直线回归方程,可计算出值,研究y和之间的关系,可发现回归方程的三个基本性质:(9.5)

例9.1

有人研究了黏虫孵化历期平均温度(x,°C)与历期天数(y,d)之间关系,试验资料列入表9—l。试配合直线回归方程。25二、直线回归的数学模型和基本假定

在直线回归中,y总体的每一个观测值可分解为三部分,即y的总体平均数μy、因x引起y的变异β(x-μx)以及y的随机误差ε。因此,直线回归的数学模型为:(9.6)(9.7)式9.6、式9.7为总体资料的数学模型,α为总体回归截距,β为总体回归系数,ε为随机误差。如果是样本资料,直线回归的数学模型为:(9.8)(9.9)30直线回归模型进行回归分析,应符合如下基本假定:(1)

x是没有误差的固定变量,至少和y比较起来,x的误差是小到可以忽略的,而y是随机变量,且具有随机误差;

(2)

x的任一值都对应着一个y总体,且作正态分布,其平均数、方差受偶然因素的影响,不因x的变化而改变;(3)随机误差ε是相互独立的,且作正态分布,具有N(0,σ2ε)。直线回归分析是建立在以上这些基本假定之上,如果试验资料不满足这些假定,就不能进行直线回归分析,有些资料可作适当处理后再进行分析。三、直线回归的假设检验任何两个变量之间都可通过前面的方法建立一个直线回归方程,该方程是否有意义,能不能指导实践,关键在于回归是否达到显著水平。如何判断是否存在线性关系?(一)直线回归的变异来源在直线回归中,依变量y是随机变量,y的平方和可以分解为由x变异引起y变异的平方和和误差因素引起的平方和两部分,即:(9.10)(9.12)35由于直线回归只涉及到1个自变量,所以回归平方和的自由度为1,回归平方和等于回归方差;离回归平方和的自由度为: n–1-1=n–2;(9.12)离回归平方和除以相应自由度即为离回归方差,记作,的正根值为离回归标准差,习惯上称作回归估计标准误,即:例9.2

试计算例9.1资料的回归平方和、离回归平方和以及回归估计标准误。分析:根据前面计算结果,可得:(9.13)(二)F检验两个变量是否存在线性关系,可采用F检验法进行。假设H0:两变量间无线性关系;对HA:有线性关系。在无效假设下,回归方差与离回归方差的比值服从dƒ1

=l和dƒ2

=n-2的F分布,所以,可用(9.14)例9.3

试检验例9.1资料直线回归关系的显著性。分析:假设H0:黏虫孵化历期平均温度x与历期天数y之间无线性关系,对HA:二者存在线性关系。将y检验结果列于表9—2。结论:由于F>F0.01,说明黏虫孵化历期平均温度与历期天数之间存在着极显著的直线回归关系。40(三)t检验采用t检验也可以检验线性回归关系的显著性。假设H0:β

=0,对HA:β

0。该方法是检验样本回归系数b是否来自β

=0的双变量总体,以推断线性回归的显著性。回归系数的标准误sb和t值为:(9.15)式9.16遵循dƒ=n-2的t分布,由t值可得出样本回归系数b落在β

=0总体中的区间概率。例9.4

用t检验法检验例9.1资料回归关系的显著性。(9.16)应否定H0:β

=0,接受HA

β

0,即黏虫孵化历期平均温度与历期天数之间有真实的直线回归关系。t和F检验,都是对直线回归关系的假设检验,二者是完全一致的。因为在同一概率值下,dƒ1=1,dƒ2=n-2的一尾F值恰巧为dƒ

=n-2的两尾t值的平方,且计算出的F值也是t值的平方,本例中t2=(-9.48)2=89.87与F=89.89的微小差异是因四舍五入造成的。由下面的式子可以看出:(9.17)四、直线回归的区间估计当直线回归关系显著之后,既可用样本统计数a、b来估计总体参数α、β

,又可利用回归方程去估计某一x值对应y总体的平均数和预测单个y值所在的区间。(一)回归截距和回归系数的置信区间45(9.18)(9.19)(9.20)(9.21)这说明黏虫孵化历期平均温度和历期天数的总体回归系数β落在(-3.1850,-1.8784)区间的可靠度为95%。(二)μy/x的置信区间由于x

的任一值对应y总体的平均数μy/x的样本估计值为,它不包含随机误差;如果由回归方程去预测x为某一值时y的观测值所在区间,则y观测值不仅受到和b的影响,也还受到随机误差的影响。对于给定的x,预测总体的平均数μy/x

时的方差为:50(9.22,9.20)(9.23)(三)单个y的预测区间(9.23)例9.6

试根据例9.1资料,估计出黏虫孵化历期平均温度为15℃时历期天数为多少天(取95%置信概率)?若某年的历期平均温度为15℃,该年的历期天数为多少(取95%置信概率)?分析:根据题意可知,第一问是估计x=15时y总体平均数的置信区间,第二问是估计x=15对应y观测值所在的预测区间。(9.25)即当黏虫孵化历期平均温度为15℃时,厉期平均天数的95%置信区间为(16.970,21.1589)。55即某年黏虫孵化历期平均温度为15℃时,该年黏虫孵化历期天数的95%置信区间为(13.7782,24.3508)。(三)μy/x和单个y观测值置信区间图示从式9.22部式9.24可以看出,和都与 有关,它们之间是变形的双曲线关系,所以和的估计值因x的不同而异,当时取最小值,即μy/x和单个y的估计区间最小。如果将置信区间制作成图,便可从图上进行推断和预测。第三节直线相关一、相关系数和决定系数如果两个变量间呈线性关系,又不需要由x来估计y,只需了解x和y是否相关以及相关的性质,可以通过计算表示x和y相关程度和性质的统计数——相关系数来进行研究。设有一双变量总体资料,总体个体数为N,这N对观测值在平面直角坐标系中可用坐标点表示。如果将x轴和y轴平移,使原点位于点(μx,μy

)上。60由此可见,乘积和可表示直线相关的两个变量的相关程度和性质。但是,不同的双变量资料其乘积和无可比性,因为x和y的变异程度及其度量单位、N的大小都会影响乘积和。要消除这种影响,再将离均差转换成以各自的标准差为单位,使之成为标准离差,再以N除之。因此,定义双变量总体的相关系数ρ:(9.26)ρ与两个变量的变异程度、度量单位及N的大小没有关系,因而可用来比较不同双变量总体的相关程度和性质。当研究的是样本资料时,样本相关系数r为:(9.27)相关和回归的主要区别:x和y两个变量在相关系数计算中的地位是平等的,没有自变量和依变量之分。相关与回归的联系:回归可以得到相关的结果,实质上相关系数就是回归中的回归平方和与依变量y的平方和比值的平方根。r和b一样,其符号都决定于SP,二者的符号是一致的。r的取值区间为[-1,1]。决定系数(r2):相关系数r的平方,其含义是变量x引起y变异的回归平方和占y变异总平方和的比率。 由于用r表示相关程度的意义并不清楚,而且解释夸大,比如r=0.5并不是表示x和y变异50%可以由二者之间的线性关系来解释,这样需要引入另一个表示相关程度的统计数r2。r2的取值范围为[0,1],它只能表示相关程度而不能表示相关性质。65例9.8

求例9.1资料黏虫孵化历期平均温度与历期天数的相

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论