线性代数之回归分析ppt课件_第1页
线性代数之回归分析ppt课件_第2页
线性代数之回归分析ppt课件_第3页
线性代数之回归分析ppt课件_第4页
线性代数之回归分析ppt课件_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第十章第十章 回归分析回归分析第一节第一节 回归分析的概述回归分析的概述第二节第二节 参数估计参数估计第三节第三节 假设检验假设检验第四节第四节 预测与控制预测与控制第五节第五节 非线性回归的线性化处置非线性回归的线性化处置第一节第一节 回归分析的概述回归分析的概述一个过程中多个变量之间的关系分为两类:一个过程中多个变量之间的关系分为两类:确定性关系,也就是通常所说的函数关系;确定性关系,也就是通常所说的函数关系;非确定性关系,即所谓的相关关系。非确定性关系,即所谓的相关关系。确定性关系是指当一些变量的值确定以后另一些变确定性关系是指当一些变量的值确定以后另一些变量的值也随之完全确定的关系。量

2、的值也随之完全确定的关系。相关关系是指变量之间有一定的依赖关系,但当一相关关系是指变量之间有一定的依赖关系,但当一些变量的值确定以后,另一些变量的值虽随之变化些变量的值确定以后,另一些变量的值虽随之变化却并不能完全确定,这时变量间的关系不能准确地却并不能完全确定,这时变量间的关系不能准确地用函数来表示。用函数来表示。上一页上一页下一页下一页前往前往(1) 给出建立具有相关关系的变量之间的数学关系式给出建立具有相关关系的变量之间的数学关系式通常称为阅历公式的普通方法;通常称为阅历公式的普通方法;(2) 判别所建立的阅历公式能否有效;判别哪些预告判别所建立的阅历公式能否有效;判别哪些预告变量对呼应

3、变量的影响是显著的,哪些是不显著的;变量对呼应变量的影响是显著的,哪些是不显著的;(3)利用所得到的阅历公式进展预测和控制。利用所得到的阅历公式进展预测和控制。回归分析回归分析regression analysis是数理统计中研讨一个是数理统计中研讨一个呼应变量与假设干个预告变量之间相关关系的一种有效呼应变量与假设干个预告变量之间相关关系的一种有效方法;其中只需一个预告变量的回归分析称为一元回归方法;其中只需一个预告变量的回归分析称为一元回归分析,多于一个预告变量的回归分析称为多元回归分析。分析,多于一个预告变量的回归分析称为多元回归分析。回归分析的义务主要有三个:回归分析的义务主要有三个:上

4、一页上一页下一页下一页前往前往一元回归分析与最小二乘法一元回归分析与最小二乘法取定取定x时随机变量时随机变量y的数学期望的数学期望E(y|x)作为作为x时随机变时随机变量量y的估计值,即的估计值,即)(xyEy 显然,当显然,当x变化时变化时E(Y|X=x)是是x的函数,记作的函数,记作)()(xyEx 可以用一个确定的函数关系式可以用一个确定的函数关系式)(xy 大致地描画大致地描画y与与x之间的相关关系。之间的相关关系。函数函数 称为称为y关于关于x的回归函数,简称回归;的回归函数,简称回归; 称为称为y关于关于x的回归方程。的回归方程。)(x )(xy 上一页上一页下一页下一页前往前往回

5、归方程反映了回归方程反映了y的数学期望的数学期望E(y)随随x的变化而变化的的变化而变化的规律性。规律性。y与与x的相关关系表示为的相关关系表示为 )(xy 是随机误差,它是均值为零的随机变量,是随机误差,它是均值为零的随机变量,通常假定通常假定 是不依赖于是不依赖于X的未知参数。的未知参数。 22), 0( N 的大小在一定程度上反映了在的大小在一定程度上反映了在x处随机变量处随机变量y的观测值的大小的观测值的大小,如能找到如能找到 ,就能在一定条件下就能在一定条件下处理如下两个问题:处理如下两个问题:1.在给定的置信度下,估计当在给定的置信度下,估计当x取某一定值时取某一定值时y的取值情况

6、的取值情况,这就是所谓的预测问这就是所谓的预测问题;题;2.在给定的置信度下在给定的置信度下,控制控制X的取值范围以使的取值范围以使y在给定的范围内取值在给定的范围内取值,这就是所谓的控制问题。这就是所谓的控制问题。)(x )(x 上一页上一页下一页下一页前往前往通常先限制通常先限制 为某一类型的函数。函数为某一类型的函数。函数 的类型的类型可以由与被研讨问题的本质有关的物理假设来确定;可以由与被研讨问题的本质有关的物理假设来确定;假设没有任何理由可以确定函数假设没有任何理由可以确定函数 的类型,那么只的类型,那么只能根据在实验结果中得到的散点图来确定。能根据在实验结果中得到的散点图来确定。)

7、(x )(x )(x 在确定了函数在确定了函数 的类型后,就可以设的类型后,就可以设)(x ),;()(21kaaaxx 其中其中a1, a2 ak为未知参数。为未知参数。寻觅适宜的回归函数寻觅适宜的回归函数 的问题就归结为:如何根的问题就归结为:如何根据实验数据合理地选择参数据实验数据合理地选择参数a1, a2 ak的估计值的估计值)(x kaaa,21上一页上一页下一页下一页前往前往这些估计值使得方程这些估计值使得方程 在一定的在一定的),;(21kaaaxy 意义下意义下“最正确地表现变量最正确地表现变量Y与与X之间的相关关系。之间的相关关系。选取选取 中参数,使得观测值中参数,使得观测

8、值yi与相应与相应的函数值的函数值 (i=1,2n)的偏向平方的偏向平方和为最小,这就是所谓的最小二乘法。和为最小,这就是所谓的最小二乘法。),;(21kaaax ),;(21kiaaax 最小二乘法的概率意义:设当可控变量最小二乘法的概率意义:设当可控变量X取恣意实数取恣意实数x时,随机变量时,随机变量Y服从正态分布服从正态分布 ,即,即Y的概的概率密度为率密度为),(2 xN22)(2121)(xyeyf 其中其中 ,而,而 是不依赖于是不依赖于x的常的常数。数。 ),;(21kaaaxx 2 上一页上一页下一页下一页前往前往在在n次独立实验中得到观测值次独立实验中得到观测值x1,y1,x

9、2,y2,xn,yn,利用极大似然估计法估计未知参数,利用极大似然估计法估计未知参数a1, a2, ak,时,有似然函数时,有似然函数 niiixynniikeyfaaaL122)(2112121)(),( 似然函数似然函数L获得极大值,上式指数中的平方和获得极大值,上式指数中的平方和 nikiiaaaxyS1221),;( 取最小值。取最小值。即为了使观测值即为了使观测值xi , yi(i=1,2,n)出现的能够性最大,出现的能够性最大,应中选择参数应中选择参数a1,a2,ak,使得观测值,使得观测值yi与相应的函数值与相应的函数值 的偏向平方和最小。这就是最小二乘的偏向平方和最小。这就是最

10、小二乘法法 的概率意义。的概率意义。),;(21kiaaax 上一页上一页下一页下一页前往前往解方程组求出参数解方程组求出参数a1,a2,ak的估计值这样求出的估计值这样求出的参数的参数a1,a2,ak的估计,称为最小二乘估计的估计,称为最小二乘估计least squares estimation ,简称简称LSE,再求回归方再求回归方程的估计式称为阅历回归方程。程的估计式称为阅历回归方程。分别求分别求S对对a1,a2,ak的偏导数,并令它们等于零,的偏导数,并令它们等于零,就得到就得到 0),;(),;( 0),;(),;(0),;(),;(21211212211211211kikkniii

11、kikniiikikniiiaaaxaaaaxyaaaxaaaaxyaaaxaaaaxy 上一页上一页下一页下一页前往前往1、一元线性回归、一元线性回归回归方程为回归方程为bxay 方程的图形称为回归直线。方程的图形称为回归直线。x,y的相关关系可表示为的相关关系可表示为), 0(,2 Nbxay ),(2 bxaNy 或或其中其中a, b, 2为不依赖于为不依赖于x的未知参数,上式称为一元的未知参数,上式称为一元线性回归模型,简称一元线性模型。当线性回归模型,简称一元线性模型。当y与与x间满足这间满足这种关系时,种关系时,y与与x间有线性相关关系。间有线性相关关系。思索回归函数思索回归函数

12、是线性函数,即是线性函数,即 ,这就是,这就是所谓的一元线性回归分析。所谓的一元线性回归分析。)(x bxa 回归方程为回归方程为bxay 第二节第二节 参数估计参数估计上一页上一页下一页下一页前往前往用最小二乘法确定未知参数用最小二乘法确定未知参数a及及b。思索实验点关于回。思索实验点关于回归直线的偏向平方和归直线的偏向平方和 niiinibxaybaQi1212),( 分别求分别求Q对对a及及b的偏导数,的偏导数,令它们等于零,得方程组令它们等于零,得方程组 niiiiniiixbxaybxay110)(0)( nininiiiiniiniiyxbxaxybxnai111211)()()(

13、整整理理得得称为正规方程组称为正规方程组上一页上一页下一页下一页前往前往 ,)()(:121xbyaxxyyxxbniiniii方程有唯一解方程有唯一解线性回归方程为线性回归方程为xbay 称为阅历回归系数也称回归系数,对应的直线称为阅历回归系数也称回归系数,对应的直线称为阅历回归直线简称回归直线。称为阅历回归直线简称回归直线。b亦可表示为亦可表示为)(xxbyy 上一页上一页下一页下一页前往前往 niiixyniiyyniixxyyxxSyySxxS11212)()()( 引入记号:引入记号: bxnynaSSbbaniiniixxxy)1(1 :,11的的估估计计可可写写成成上一页上一页下

14、一页下一页前往前往例例1 Pearson丈量了丈量了10对父子的身高,所得数据如下对父子的身高,所得数据如下单位:英寸单位:英寸父亲父亲身高身高606264666768707274儿子儿子身高身高63.665.26666.967.1 67.468.3 70.170求儿子身高求儿子身高y关于父亲身高关于父亲身高x的回归方程。的回归方程。 72.79;529.38,01.67; 6 .171, 8 .66: xyyyxxSSySx由由所所给给数数据据算算得得解解上一页上一页下一页下一页前往前往977.354646. 0 xbyaSSbxxxy于是于是977.354646. 0 xy高高的的经经验验

15、回回归归方方程程为为故故儿儿子子身身高高关关于于父父亲亲身身可知,当父亲身高高于或低于父代身高的平均值时,可知,当父亲身高高于或低于父代身高的平均值时,儿子的身高有向子代的平均身高接近的趋势,这就是儿子的身高有向子代的平均身高接近的趋势,这就是“回归。回归。上一页上一页下一页下一页前往前往2、多元线性回归、多元线性回归满满足足数数多多元元线线性性回回归归中中未未知知参参根根据据最最小小二二乘乘法法原原理理为为一一样样本本若若pnnpnnpbbbyxxxyxxx,),( ,),(1021111211.)( 21110达达到到最最小小ippniiixbxbbyQ 0)(20)(2,11101110

16、010 niijippiijippniiipxxbxbbybQxbxbbybQbbbQ并并让让它它们们等等于于零零的的偏偏导导数数对对分分别别求求上一页上一页下一页下一页前往前往 niiippniniiipniipniiipniipininiiniipniiniipyxbxbxxbxyxbxxbxbxybxbxnbbbbipi112111011111112011111111010)()()( )()()()()(,1的线性方程组的线性方程组整理得关于整理得关于正规方程正规方程上一页上一页下一页下一页前往前往 pnnpnnppbbbByyyYxxxxxxxxxX , ,1 11102121222

17、2111211引引入入矩矩阵阵. 110元元线线性性回回归归方方程程为为方方程程pxbxbbypp YXXBX YXXXbbbBXXp 1101)( ,)(存存在在若若上一页上一页下一页下一页前往前往当且仅当当且仅当b0时,变量时,变量Y与与X之间存在线性相关关系,之间存在线性相关关系,为了检验为了检验Y与与X之间的线性相关的显著性,该当检验之间的线性相关的显著性,该当检验原假设原假设 H0:b=0能否成立。能否成立。假设回绝假设回绝H0,那么以为,那么以为Y与与X之间存在线性关系,所之间存在线性关系,所求得得线性回归方程有意义;假设接受求得得线性回归方程有意义;假设接受H0,那么以,那么以为

18、为Y与与X得关系不能用一元线性回归模型来表示,所得关系不能用一元线性回归模型来表示,所求得的线性回归方程无意义。求得的线性回归方程无意义。第三节第三节 假设检验假设检验上一页上一页下一页下一页前往前往1、方差分析法、方差分析法F检验法检验法 niiyyyySQ12)(总总回回剩剩总总QQyyyyyyyyQniiniiiniiii 121212)()( )()(总总的的分分散散程程度度。它它反反映映了了观观测测值值nyyy,21调查样本调查样本y1,y2,yn的偏向平方和,或称总平方和的偏向平方和,或称总平方和 niiiyyQ12)(剩剩剩余平方和,反映了观测值偏离剩余平方和,反映了观测值偏离回

19、归直线的程度,这种偏离是由回归直线的程度,这种偏离是由于观测误差等随机要素引起的。于观测误差等随机要素引起的。上一页上一页下一页下一页前往前往 niiniiniixxbxbaxbayyQ1221212)()()()(回回回归平方和它反映回归值的分散度,这种分散是回归平方和它反映回归值的分散度,这种分散是由于由于Y与与X之间得线性相关关系引起的;之间得线性相关关系引起的;.,;线性相关性越强线性相关性越强比值越大比值越大的影响的大小的影响的大小因素对因素对相关关系与随机相关关系与随机的比值反映了这种线性的比值反映了这种线性与与回回剩剩yQQ)2, 1()2/( nFnQQF剩剩回回统计量统计量

20、.,.,0回归方程无实际意义回归方程无实际意义所求线性所求线性没有线性相关关系没有线性相关关系对对反之认为反之认为关系显著关系显著即线性即线性则拒绝假设则拒绝假设若若给定显著性水平给定显著性水平xyHFF 上一页上一页下一页下一页前往前往例例1 在上例中,利用方差分析检验儿子的身高在上例中,利用方差分析检验儿子的身高Y与父与父亲身高亲身高X之间的线性相关关系能否显著。之间的线性相关关系能否显著。72.79,529.38, 6 .171: xyyyxxSSS已知已知解解494. 1035.37529.38 035.3722 xxxyyyxxxySSSQSSQ剩剩回回计计算算得得313.198)2

21、/( nQQF剩剩回回上一页上一页下一页下一页前往前往方差方差来源来源平方平方和和自在度自在度 F值值临界值临界值显著显著性性回归回归剩余剩余37.0351.49418198.313F0.01(1,8)=11.26*总计总计38.529 9由于由于FF0.01(1,8),所以儿子的身高,所以儿子的身高Y与父亲的身高与父亲的身高X之间的线性相关关系特别显著。之间的线性相关关系特别显著。上一页上一页下一页下一页前往前往2. 相关系数检验法相关系数检验法r检验法检验法调查相关系数调查相关系数r的大小的大小:假设相关系数假设相关系数r的绝对值很小的绝对值很小,那么阐明那么阐明y与与x之间的之间的线性相

22、关关系不显著线性相关关系不显著,或者根据不存在线性相关关或者根据不存在线性相关关系系假设相关系数假设相关系数r的绝对值较大的绝对值较大(接近于接近于1)时时,才阐明才阐明y与与x之间的线性相关关系显著之间的线性相关关系显著yyxxxySSSr 上一页上一页下一页下一页前往前往)2, 1(1)2( 220 nFrrnFH 成成立立时时检检验验统统计计量量当当假假设设xxxyyyxxxySSbrrSSSQQ ),1(22总总回回yyxxxxSSSbr 则则)2, 1( 0 nFFH 的的拒拒绝绝域域为为故故假假设设上一页上一页下一页下一页前往前往r检验法的步骤和法那么为检验法的步骤和法那么为:由实

23、验数据计算出相关系数由实验数据计算出相关系数r的值并与临界值比较的值并与临界值比较.;,),2()1(05. 0系系或或者者不不存存在在线线性性相相关关关关不不显显著著之之间间的的线线性性相相关关关关系系与与则则认认为为若若xynrr ;),2()2()2(01. 005. 0线性相关关系显著线性相关关系显著之间的之间的与与则认为则认为若若xynrrnr .),2()3(01. 0特特别别显显著著之之间间的的线线性性相相关关关关系系与与则则认认为为若若xynrr 上一页上一页下一页下一页前往前往3、 t 检验法检验法)2( ,0 ntSbtHxx 检检验验统统计计量量为为真真时时当当假假设设)

24、2( ,20 nttH 的的拒拒绝绝域域为为给给定定显显著著性性水水平平上一页上一页下一页下一页前往前往1、预测、预测第四节第四节 预测与控制预测与控制 x与与y之间的关系不是确定的,所以对于恣意之间的关系不是确定的,所以对于恣意给定给定x0, 不能够准确地知道相应值不能够准确地知道相应值y0。将。将x=x0 代入代入线性回归方程只能得到线性回归方程只能得到y0的估计值回归值的估计值回归值00 xbay 对对y0进展区间估计,即给定的置信度进展区间估计,即给定的置信度1- ,求出,求出y0的置信区间称为预测区间的置信区间称为预测区间,这就是所谓的预测这就是所谓的预测问题。问题。上一页上一页下一

25、页下一页前往前往 xxxxSxxnntxyxySxxnntxyxy20222021)(11)2()( )()(11)2()( )(, 作作出出曲曲线线给给定定样样本本观观察察值值y0的置信程度为的置信程度为1-的预测区间为的预测区间为 xxSxxnnty2020)(11)2( .,精精度度逐逐渐渐下下降降置置信信区区域域逐逐渐渐加加宽宽时时远远离离预预测测就就越越精精确确越越靠靠近近的的的的带带形形域域归归直直线线这这两两条条曲曲线线形形成成包包含含回回xxxbay 上一页上一页下一页下一页前往前往可得到较短的预测区间可得到较短的预测区间附近的附近的在在很大很大若样本容量若样本容量xxn,y0

26、的置信程度为的置信程度为1-的预测区间近似为的预测区间近似为 2020, yy1)(1120 xxSxxn22)2( nt上一页上一页下一页下一页前往前往例如,置信度为例如,置信度为95%预测区间是预测区间是 96. 1,96. 100 yy置信度为置信度为99%预测区间是预测区间是 SySy58. 2,58. 200 假设在回归直线假设在回归直线xbayL: 的上下两侧分别作与回归直线平行的直线的上下两侧分别作与回归直线平行的直线 96. 1:1 xbayL及及 96. 1:2 xbayL那么可以预料,在一切能够出那么可以预料,在一切能够出现的实验点现的实验点xi,yi(i=1,2,n)中,

27、大约有中,大约有95的点在这两条的点在这两条直线之间的带型区域内。直线之间的带型区域内。 yOx2LL1L上一页上一页下一页下一页前往前往例例1: 在上例中,假设父亲身高为在上例中,假设父亲身高为70英寸,求其儿子英寸,求其儿子的身高的置信度为的身高的置信度为95%的预测区间。的预测区间。977.354646. 0 xy当当x070时,有时,有 499.68977.35704646. 00 y曾经计算得曾经计算得Q剩剩1.494,432. 08494. 12 nQQ剩剩解解 :曾经求得线性回归方程为:曾经求得线性回归方程为所求得置信度为所求得置信度为95的预测区间是的预测区间是 68.4991

28、.960.432,68.4991.960.432即即67.656,69.346英寸英寸上一页上一页下一页下一页前往前往2、控制、控制.,21控控制制在在什什么么范范围围应应考考虑虑把把自自变变量量内内取取值值在在一一定定范范围围内内即即要要求求观观察察值值控控制制是是预预测测的的反反问问题题xyyyy .1),(,1212121 的的概概率率不不小小于于之之内内所所对对应应的的观观察察值值落落在在时时使使,求求出出相相应应的的对对于于给给定定的的置置信信度度yyxxxxxx 2221 yyyyn很很大大时时,解解方方程程上一页上一页下一页下一页前往前往 bayxbayxx222211 的的上上

29、、下下限限方方程程的的解解作作为为控控制制),(,0),(,01221xxbxxb 控控制制区区间间为为时时当当控控制制区区间间为为时时当当 2212),(,的的长长度度不不小小于于必必须须使使区区间间为为实实现现控控制制yy 上一页上一页下一页下一页前往前往第五节第五节 非线性回归的线性化处置非线性回归的线性化处置对于复杂的非线性回归问题对于复杂的非线性回归问题,普通采用变量代换法将普通采用变量代换法将非线性模型线性化非线性模型线性化,在按照线性回归方法进展处置在按照线性回归方法进展处置.), 0(sin)1(2 Ntbay .,sin即即可可化化为为线线性性问问题题令令tx ), 0()2(22 Nctbtay .,21221即即可可化化为为多多元元线线性性回回归归则则令令 cxbxaytxtx上一页上一页下一页下一页前往前往), 0(1)3(2 Nxbay .,1,1即即可可化化为为线线性性问问题题令令xxyy ), 0(ln)4(2 Nxbay .,ln即即可可化化为为线线性性回回归归问问题题则则令

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论