第五章回归分析-统计计算及方法课件_第1页
第五章回归分析-统计计算及方法课件_第2页
第五章回归分析-统计计算及方法课件_第3页
第五章回归分析-统计计算及方法课件_第4页
第五章回归分析-统计计算及方法课件_第5页
已阅读5页,还剩108页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第五章回归分析回归分析一元线性回归多元线性回归非线性回归25.0引言回归名称的由来回归分析是研究变量之间相互依赖关系的一种统计方法,是数理统计学中应用最广泛的分支之一.3

回归分析的基本思想以及“回归”名称的由来最初是由英国生物学家兼统计学家高尔顿提出来的.

他从一千多对父母身高与其子女身高的数据分析中得出:当父亲身高很高时,儿子的身高并不像期待的那样高,而要稍矮一些,有向同龄人平均身高靠拢的现象;而当父亲身高很矮时,儿子的身高要比预期的高,也有向同龄人平均身高靠拢的现象.4

正是因为儿子的身高有回到同龄人平均身高的这种趋势,才使人类的身高在一定时间内相对稳定,没有出现父辈个子高其子女更高,父辈个子矮其子女更矮的两极分化现象,说明后代的平均身高向中心靠拢了,这种现象叫回归,这就是“回归”一词的最初含义.现在的意思是:凡是利用一个变量或一组变量的变异来估计或预测另一个变量的变异情况都称之为回归。

在现实问题中处于同一个过程中的一些变量往往是相互依赖和相互制约的,它们之间的相互关系大致可分为两种:(1)确定性关系--函数关系

(2)非确定性关系--相关关系:变量之间有一定的依赖关系,但这种关系并不完全确定。可控变量:可以在某范围内随意地取指定数值-自变量不可控变量:可以观测但不可控制(随机变量)--因变量6

例2

人的血压y与年龄x之间的关系,不可能由一个人的年龄完全确定他的血压.一般说人的年龄越大血压越高,但年龄相同者,血压未必相同.

例1人的体重y与身高x之间的关系一般来说,身高高一些,体重也要重一些,但身高不能严格地确定体重,即同样身高的人,体重可能不同.7

这几个例子中的两个变量之间都有一定的关系,且是一种非确定性的关系,称这类关系为相关关系.

例3水稻亩产量y与其施肥量x1、播种量x2、种子x3有关系,但x1、x2、x3

取相同的一组数值时,亩产量y可取不同数值.8

上述例子中身高x,年龄x,施肥量

x1、播种量x2

、种子

x3都是可以在一定范围内随意的取指定数值,是可控变量称之为自变量,而体重

y,血压

y,亩产量

y都是不可控变量称为因变量.

研究一个变量与一个(或几个)可控变量之间相关关系的统计分析方法称为回归分析.回归分析:研究一个随机变量与一个(或几个)可控变量之间相关关系地统计方法。

只有一个自变量的回归分析叫做一元回归分析;多于一个自变量的回归分析叫做多元回归分析。

回归分析主要内容:提供建立有相关关系的变量之间的数学关系式(经验公式)的一般方法;(2)判别所建立的经验公式是否有效;(3)利用所得到的经验公式进行预测和控制.5.1一元线性回归(一)一元线性回归模型

设与有相关关系,当自变量时,因变量并不取固定的值与其对应.如果要用函数关系近似与的相关关系,很自然想到,应该以作为与相对应的数值.(5-1)其中为常数,则称与之间存在线性相关关系,称(5-1)为一元正态线性回归模型,简称一元线性模型,其回归函数记为称为对的线性回归,称为回归常数,称为回归系数。

由(5-1)得,可知取不同数值时,便得到不同的正态变量。其中为未知的常数。由独立知道也相互独立,且称为独立样本的一个(或一组)样本观测值,其中为取固定值时,对进行一次试验所得到的观测值。利用独立样本及其样本值可得的估计量及估计值和从而得到回归函数的估计称为对的经验回归方程或经验公式。注:确定变量间相关关系数学关系式的三种方法1.经验公式。2.假设检验。3.散点图法。把样本值作为平面直角坐标系的个点描出来,构成实验的散点图。根据散点图,适当地选择一个函数使得在一定意义下最好地吻合于观测结果常用的是最小二乘法,即.......二、未知参数的估计1.正规方程组、回归系数的点估计根据最小二乘法求线性回归函数的估计就是求使得取得最小值的即根据微分学中的二元函数极值的充分条件,将分别对求一阶偏导数并令其为零经过整理后得到线性方程组其中正规方程组解此方程组即得使取得最小值的分别称为的最小二乘估计值.于是,得到对的经验回归方程注:用最小二乘法得到的经验回归直线通过已知个数据点的几何重心把估计值中的分别用来代替,就得到了参数的估计量.为了方便,我们引进几个常用的记号则参数估计量回归方程定理1:

在一元线性回归模型中,

和相互独立.证明:即与不相关.但与都是独立正态变量的线性组合,因此,与的联合分布为正态分布.对于正态随机向量来说不相关和相互独立是等价的.证毕定理2:

在一元线性回归模型中,的最小二乘估计量的数学期望和方差为证明:证毕.由定理2可看出,当时,取最小值;与成反比.所以,为了提高和的估计精度,最好选择使,并且应比较分散.注:

的最小二乘估计量与极大似然估计量相等.24实际上:

,β0和

β1的最大似然估计为最小二乘估计2.参数的点估计当的极大似然估计量已得到后,的估计量可由似然方程可得的极大似然估计量为记即是的极大似然估计量.定理3:

在一元线性模型中证明:而又于是有证毕.由定理3可得是的无偏估计.3.估计量和的分布定理4:在一元线性模型中(1)(2)(3)(4)(5)相互独立.4.未知参数和的区间估计定理5.

在一元线性模型中证明:由定理4,得由定理4的(5)可知,分别相互独立,再由t分布的定义,即得证毕由定理5及t分布的分位数,得即得的置信区间为类似,的置信区间为由易得的置信区间为三、线性回归效果的显著性检验

我们在求Y对x的线性回归之前,必须判断Y与x的关系是否满足一元线性回归模型。理论上讲,这要求检验(1)对x取任一固定值时,Y都服从正态分布,而且方差相同;(2)x在某一范围取值时,EY是x的线性函数;(3)在x取各个不同值时,相应的Y是相互独立的。但要检验这三条不仅需要大量的试验,还要进行大量的计算,实际上很难办到。(1)x对Y没有显著影响,应丢掉自变量x;(2)x对Y有显著影响,但不能用线性相关关系来表示;(3)除x外还有其它不可忽略的变量对Y也有显著影响,从而削弱了x对Y的影响,应考虑多元线性回归。1.F检验法考虑令计算后可得一元线性模型中的平方和分解公式:总偏差平方和回归平方和残差平方和总偏差(离差)平方和回归平方和因为剩余平方和(或残差平方和)平方和分解公式:(1)由于x对Y的线性相关关系而引起的Y的分散性。(2)剩余因素引起的Y的分散性。定理6:证明:对于检验证毕2.t检验法由定理5知3.r检验法为了检验Y与x是否有线性相关性,也可用统计量相关系数进行检验两边平方得于是得到即这说明Y与x之间不存在线性相关关系。(2)(3)检验假设r检验法与F检验实质上是一回事,因为F检验法与r检验法的拒绝域是相同的。50对于一元线性回归模型,上述3种检验的结果是完全一致的.4.三种检验的关系(1)由于t分布与F分布的关系因此t检验与F检验完全一致51r检验与F检验也一致因此等价于四、利用回归方程进行预测预测:对固定的x值预测它所对应的Y的取值。考虑(1)点预测(2)区间预测定理7:由定理7知即其中其中56当

x0越靠近,区间宽度越窄,预测就越精确

x0

离不太远且n较大时,,而于是,y0的1-α置信区间可近似表示为57于是,y0的95%置信区间可近似表示为于是,y0的99%置信区间可近似表示为58控制问题对x的控制范围

当要求

y在某个区间范围内变化时,如

,如何求得

x的相应控制范围.

即要求以

1-α的置信度求出相应的

使当时,x所对应的

y落在59

只考虑

n较大情形,令60

例在钢线碳含量x对于电阻效应y的研究中,得到了以下数据:碳含量(%)0.100.300.400.550.700.800.95电阻(微欧)1518192122.623.826假设对于给定的x,y为正态变量,且方差与x无关.如果x,y满足经验公式

求线性回归方程

设现在

所求的线性回归方程为

的无偏估计.由例得

检验例中的线性回归是否显著.

检验假设

拒绝域为

由例2得

=>拒绝

即认为线性回归显著例求上例中当碳含量为0.50时,电阻的置信水平为0.95的置信区间

由例1和例2可得

685.2多元线性回归分析一.多元线性回归模型模型1模型26970在模型1下,有在模型2下,有7172称模型3和模型4为y关于x的p元样本线性回归模型.73对多元线性回归模型,需研究如下几个问题:(2)对建立的关系式进行统计假设检验(3)对变量y进行预测和对自变量x进行控制74n>p+1,记75模型3和模型4可表示为如下矩阵形式其中In为

n阶单位矩阵,矩阵X是n×(p+1)矩阵称为设计矩阵,且秩(X)=p+176二.未知参数的估计1.最小二乘估计

最小二乘法:求使误差平方和77

求并令其都等于0,整理后得到如下正规方程组:78

正规方程组的解就是的最小二乘估计

由于79及于是正规方程组用矩阵表示为80

由于Rank(X)=p+1,因此必存在逆阵解正规方程组得到的估计为称之为的最小二乘估计.于是线性回归方程为812.最大似然估计

多元线性回归系数的最大似然估计与一元线性回归时求最大似然估计的想法一样

823.参数估计的性质性质3性质1

估计量是随机变量的线性变换性质2

估计量是的无偏估计在模型1下有如下性质83性质4(2)性质4(1)在模型2下有如下性质84三.回归方程的显著性检验检验问题:考虑模型2

因变量y的观测值是不完全相同的,之所以不同,可能由于如下两个原因:一是随机因素引起的,如随机误差;另一个是由自变量的变化引起的变化.为此,考虑平方和分解85平方和分解交叉项为086称为总变差平方和,反映数据的波动性,即这些数据的分散程度

越大表明n个观测值的波动越大即之间越分散,反之越小表明的数值波动越小即之间越接近.87称为残差平方和.Se反映了除掉由

对y的影响之外的剩余因素对分散程度的作用,即随机因素引起的波动.称为回归平方和反映了的波动程度88

而SR越小,Se越大,此时x对y的线性影响不显著.ST给定后,SR越大,Se越小,x对y

的线性影响越显著;

因此,F=SR/Se的比值反映了x对y

的线性影响的显著性,进而检验假设.89定理:在p元线性回归模型2下,有90根据定理构造F检验统计量91对于给定的显著性水平当时,拒绝,认为线性回归效果显著,即y与

之间存在显著的线性相关关系;当时,接受,认为线性回归效果不显著,即y与之间不存在显著的线性相关关系;92上述分析方法通过下表来描述n-1总变差pn-p-1回归

残差

F均方和自由度平方和方差来源93四.回归系数的显著性检验在多元线性回归分析中,回归方程的显著性并不意味着每个自变量对因变量y的影响都是显著的,实际上,某些回归系数仍有可能接近于零,若某接近于零,说明的变化对y的影响很小,甚至我们可以把从回归方程中去掉,从而得到更为简单的线性回归方程.因此在拒绝之后,需要进一步对每个自变量进行显著性检验.94检验问题:考虑模型2

若接受,表明对y的影响不显著;

若拒绝,表明对y有一定的影响95根据性质4和定理,得到由此构造t检验统计量96对于给定的显著性水平当时,拒绝,认为

y的线性影响显著;当时,接受,认为

y的线性影响不显著;975.3非线性回归在很多实际问题中,两个或者多个变量之间的关系不一定是线性关系.若此时建立线性回归方程,效果肯定不会好.而如果观测值的散点图大致呈某一曲线,又存在某种变换可将该曲线转换成直线,于是就可以选择该变换把问题转换成线性回归的问题,从而利用线性回归的一些结果解决问题.我们主要介绍非线性回归方法.具体做法:

1)根据样本数据,在直角坐标系中画出散点图2)根据散点图,推测出Y与x之间的函数关系3)选择适当的坐标变换,使之变成线性关系4)用线性回归方法求出线性回归方程5)返回到原来的函数关系,得到要求的回归方程可线性化的一元非线性回归1.双曲线:

2.幂函数:

3.指数曲线:

4.倒指数曲线:取对数得取对数得5.对数曲线:

6、S型(Logistic)曲线令变形1027、多项式模型任意连续函数都可由多项式逼近例1在彩色显影中,根据以往经验,形成染料光学密度与析出银的光学密度之间呈倒指数曲线关系:已测得11对数据见下表(1)求出经验回归曲线方程;(2)对回归曲线的显著性进行检验.x0.050.060.070.100.140.200.250.310.380.430.47

y0.100.140.230.370.590.791.001.121.191.251.29

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论