回归分析生猪决策_第1页
回归分析生猪决策_第2页
回归分析生猪决策_第3页
回归分析生猪决策_第4页
回归分析生猪决策_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、回归分析生猪决策 回归分析生猪决策 某种水泥在凝固时放出的热量某种水泥在凝固时放出的热量y(卡(卡/克)与水泥中下列克)与水泥中下列 4种化学成份有关。种化学成份有关。 x1:3CaOAl2O3的成份(的成份(%) x2:3CaOSiO2的成份(的成份(%) x3:4CaOAl2O3Fe3O3的成份(的成份(%) x4:2CaOSiO2的成份(的成份(%) 现记录了现记录了13组数据,列在表组数据,列在表34中,根据表中的数据,中,根据表中的数据, 试研究试研究y与与x1,x2,x3,x4四种成份的关系。四种成份的关系。 3.2.1 水泥凝固时放出热量问题水泥凝固时放出热量问题 回归分析生猪决

2、策 表表3 34 4 编编 号号x1(%)x2(%)x3(%)x4(%)y (卡卡/克克) 172666078.5 2129155274.3 31156820104.3 4113184787.6 575263395.9 61155922109.2 7371176102.7 8131224472.5 9254182293.1 102147426115.9 11140233483.8 121166912113.3 131068812109.4 回归分析生猪决策 影响生猪生产的原因很多,为寻找影响生产的原因,影响生猪生产的原因很多,为寻找影响生产的原因, 现搜集整理了某市现搜集整理了某市198019

3、8019901990年共年共1111年的粮食产量、生猪年的粮食产量、生猪 外调量、鲜鱼产量、家禽产量、猪肉销售价格和生猪出栏外调量、鲜鱼产量、家禽产量、猪肉销售价格和生猪出栏 量的统计数据(见表量的统计数据(见表3 35 5),试研究生猪出栏量与粮食产),试研究生猪出栏量与粮食产 量、生猪外调量、鲜鱼产量、家禽产量、猪肉销售价格之量、生猪外调量、鲜鱼产量、家禽产量、猪肉销售价格之 间的关系,并据此对未来的生猪生产进行预测。间的关系,并据此对未来的生猪生产进行预测。 回归分析生猪决策 表表3 35 5 指标指标 年年 份份 粮食产量粮食产量 (万吨)(万吨) x1 猪外调量猪外调量 (千头)(千

4、头) x2 鲜鱼产量鲜鱼产量 (百吨)(百吨) x3 家禽产量家禽产量 (万只)(万只) x4 猪肉售价猪肉售价 (元元/公斤公斤) x5 生猪出栏生猪出栏 (万头)(万头) Y 1980215.52190.94132.777701.60210.29 1981219.91270.42153.308341.607222.09 1982229.53230.72120.738171.627218.81 1983258.44250.58188.059062.014237.02 1984234.25305.76241.7211611.978263.19 1985211.57358.45255.38115

5、92.262277.74 1986243.43426.07255.8512272.437272.42 1987239.79414.77304.6411842.827313.25 1988245.94345.53305.1711484.185321.91 1989253.17380.18353.9613584.547330.09 1990232.08333.60335.8812894.344335.92 回归分析生猪决策 在现实生活中,变量与变量之间经常存在一定的关系,在现实生活中,变量与变量之间经常存在一定的关系, 一般来说,变量之间的关系可以分为两大类,一类是确定性一般来说,变量之间的关系可

6、以分为两大类,一类是确定性 的关系,这种关系通常用函数来表示。例如,已知圆的半径的关系,这种关系通常用函数来表示。例如,已知圆的半径r r, 那么圆的面积那么圆的面积S S与半径与半径r r的关系就可用函数关系:的关系就可用函数关系: 来表来表 示,这时如果取定了示,这时如果取定了r r 的值,的值,S S 的值就会完全确定了。另一的值就会完全确定了。另一 类是非确定性关系,例如,人的体重与身高之间的关系就是类是非确定性关系,例如,人的体重与身高之间的关系就是 非确定性关系,一般来说,身高越高,体重越大,但是身高非确定性关系,一般来说,身高越高,体重越大,但是身高 相同的人体重往往是不相同的。

7、再如,钢材的强度与钢材中相同的人体重往往是不相同的。再如,钢材的强度与钢材中 含某种元素的含量,纤维的拉伸倍数与强度,降雨量、气温、含某种元素的含量,纤维的拉伸倍数与强度,降雨量、气温、 施肥量与农作物的产量等均属于这种关系。变量之间的这种施肥量与农作物的产量等均属于这种关系。变量之间的这种 非确定性关系通常称为相关关系。非确定性关系通常称为相关关系。 3.2.3 3.2.3 多元线性回归分析模型多元线性回归分析模型 回归分析生猪决策 回归分析就是数理统计中研究相关关系的一种数学方回归分析就是数理统计中研究相关关系的一种数学方 法,它就是通过大量的试验或观测,发现变量之间关系的法,它就是通过大

8、量的试验或观测,发现变量之间关系的 统计规律。统计规律。 为了研究方便,我们考虑一个变量受其它变量影响时,为了研究方便,我们考虑一个变量受其它变量影响时, 仍把这变量称为因变量,记为仍把这变量称为因变量,记为Y Y,其它变量称为自变量,其它变量称为自变量, 记为记为X X,这时相关关系可记作,这时相关关系可记作 Y=fY=f(x x)+ (1 1) 其中其中f f(x x)为当)为当X=X=x x时,因变量时,因变量Y Y的均值,即的均值,即 f f(x x)=E=E(Y|X=Y|X=x x) 称称f f(x x)为)为Y Y对对X X的回归函数,的回归函数,为为Y Y与与f f(x x)的偏

9、差,的偏差, 它是一个随机变量,并假定它是一个随机变量,并假定E E()=0=0。 回归分析生猪决策 “回归回归”一词始于英国统计学家盖尔登(一词始于英国统计学家盖尔登(GaltonGalton)和)和 皮皮 尔逊(尔逊(PearsonPearson),他们研究儿子的身高),他们研究儿子的身高Y Y与其父母的平均与其父母的平均 身高身高X X之间的关系,通常双亲的平均身高较矮时,其子的身之间的关系,通常双亲的平均身高较矮时,其子的身 高也较矮;双亲的平均身高较高时,其子的身高也较高,高也较矮;双亲的平均身高较高时,其子的身高也较高, 但是他们发现,如果双亲属于高个类(高于但是他们发现,如果双亲

10、属于高个类(高于10001000多对夫妇多对夫妇 的平均身高)时,其子比他父亲更高的概率会较小;相反的平均身高)时,其子比他父亲更高的概率会较小;相反 地,如果双亲属于低个类时,其子比他父亲更矮的概率也地,如果双亲属于低个类时,其子比他父亲更矮的概率也 较小,所以,平均身高偏高或偏矮的双亲,其子的身高都较小,所以,平均身高偏高或偏矮的双亲,其子的身高都 有一种有一种“向中心回归向中心回归”的现象,基于这个事实,盖尔登把的现象,基于这个事实,盖尔登把 求求 描述儿子与双亲身高关系的直线称为回归直线。描述儿子与双亲身高关系的直线称为回归直线。 回归分析生猪决策 回归函数可以是一元函数,也可以是多元

11、函数,即回归函数可以是一元函数,也可以是多元函数,即 Y=Y=f f(x x1 1,x x2 2,x xm m)+ + (2 2) 其中其中f f(x x1 1,x x2 2,x xm m)= E= E(Y|XY|X1 1= =x x1 1,X X2 2= =x x2 2,X Xm m= =x xm m) 为为m m元回归函数,统称为多元回归函数。元回归函数,统称为多元回归函数。 若回归函数若回归函数f f(x x1 1,x x2 2,x xm m)中的)中的m m =1,=1,且是一元线性且是一元线性 函数,则称为是一元线性回归;函数,则称为是一元线性回归;m m11且是多元线性函数,则称且

12、是多元线性函数,则称 为是多元线性回归;若回归函数为是多元线性回归;若回归函数f f(x x1 1,x x2 2,x xm m)是非线)是非线 性函数,则称为是非线性回归。对非线性回归,经常采用线性函数,则称为是非线性回归。对非线性回归,经常采用线 性化的方法来处理。所以,目前研究最多的是线性回归,且性化的方法来处理。所以,目前研究最多的是线性回归,且 假定假定X X1 1,X X2 2,X Xm m和和Y Y均服从正态分布。回归分析的任务就均服从正态分布。回归分析的任务就 是要求出满足式(是要求出满足式(2 2)的回归函数)的回归函数f f(x x1 1,x x2 2,x xm m),从而)

13、,从而 对所研究的相关关系作出所需的预测和控制。对所研究的相关关系作出所需的预测和控制。 回归分析生猪决策 多元回归模型的应用是相当广泛的,例如,某种商品的多元回归模型的应用是相当广泛的,例如,某种商品的 销售量可能受收入水平、风俗习惯、产品质量、价格、宣传销售量可能受收入水平、风俗习惯、产品质量、价格、宣传 广告等多种因素的影响;某种产品的质量可能受生产该产品广告等多种因素的影响;某种产品的质量可能受生产该产品 时的温度、湿度、压力、原材料的质量和有害成份的含量等时的温度、湿度、压力、原材料的质量和有害成份的含量等 影响;工人的劳动生产率可能受学历、智力水平、情绪的稳影响;工人的劳动生产率可

14、能受学历、智力水平、情绪的稳 定性和才能等因素的影响;某城市的用水量可能与该城市的定性和才能等因素的影响;某城市的用水量可能与该城市的 人口数及工业总产值有关。诸如此类的关系,可以通过多元人口数及工业总产值有关。诸如此类的关系,可以通过多元 回归分析模型进行研究。回归分析模型进行研究。 例如,在水泥凝固时放出热量问题中,可建立线性回归例如,在水泥凝固时放出热量问题中,可建立线性回归 模型模型 其中其中E E()=0=0,D D()=2 2,b b0 0,b b1 1,b b2 2,b b3 3,b b4 4和和2 2是是 未知参数,为了估计这些参数,将表未知参数,为了估计这些参数,将表3 34

15、 4的值代入模型的值代入模型(3(3),), 回归分析生猪决策 其中,其中,x x1 1,x x2 2,x xm m是自变量,是自变量,b b0 0为常数,为常数,b b1 1,b b2 2, b bm m为回归系数,为回归系数,b b0 0,b b1 1,b b2 2,b bm m皆为未知,统称皆为未知,统称b b0 0,b b1 1, b b2 2,b bm m为回归参数,一旦回归参数确定,则多元线性回为回归参数,一旦回归参数确定,则多元线性回 归模型就完全确定,一般假定随机误差归模型就完全确定,一般假定随机误差N N(0 0,2 2)。)。 )5( 22110 mmx bxbxbbY 得

16、线性模型得线性模型 一般地,多元线性回归模型可表示为一般地,多元线性回归模型可表示为 回归分析生猪决策 为了得到回归参数的估计值,就要对变量进行观测,为了得到回归参数的估计值,就要对变量进行观测, 假设对变量的假设对变量的n n(nmnm)次独立观测数据为)次独立观测数据为 (y yi i,x xi i1 1,x xi i2 2,x xim im) ),i=,i=1 1n,n, 则这些观测数据应满足式(则这些观测数据应满足式(5 5),即有),即有 )6( 110 2221102 1111101 nnmmnn mm mm xbxbby xbxbby xbxbby )1,(),(, 0)( 2

17、njiCovE ijjii 其中其中 回归分析生猪决策 则多元线性回归的数学模型式(则多元线性回归的数学模型式(6 6)可以写成矩阵形式)可以写成矩阵形式 ,),(,),(,),( 211021 T n T m T n bbbyyyY ) 1( 21 22221 11211 1 1 1 mn nmnn m m xxx xxx xxx X )7( XY n IVarE 2 )(, 0)( 若记若记 其中其中 。 回归分析生猪决策 为了获得参数为了获得参数的估计,我们采用最小二乘法,即选的估计,我们采用最小二乘法,即选 择择,使,使 T n i i Q 1 2 )( )8( )()(XYXY T

18、0)(2 XYX Q T 达到最小。达到最小。 将将Q Q()对)对求导数并令其为零,得求导数并令其为零,得 回归分析生猪决策 方程(方程(9 9)称为正规方程,)称为正规方程, 其中其中 X X 为为n n(m m+1+1) 阶矩阶矩 阵,一般假定阵,一般假定rankrank(X X)= =m m+1+1,由线性代数理论可知,由线性代数理论可知,L=XL=XT TX X 为满秩矩阵,它的秩为满秩矩阵,它的秩rankrank(L L)= =m m+1+1,则正规方程(,则正规方程(9 9)有唯)有唯 一解,记作一解,记作 YXXX TT XXL T )9( YXL T )10( 1 YXL T

19、 即即 记记 ,则,则 我们来证明(我们来证明(1010)式中的)式中的 为参数向量为参数向量的最小二乘法的最小二乘法 估计量,现用矩阵形式来叙述其证明步骤。估计量,现用矩阵形式来叙述其证明步骤。 回归分析生猪决策 从式(从式(8 8)知,对任意的)知,对任意的 )()(XYXYQ T ) () () () ( ) () () () () () ( ) () () () ()()( XYXYXYX XXYXXXYXY XXYXXYXYXY TTT TTTT TT 则有则有 上述证明过程中应用了如下结果:上述证明过程中应用了如下结果: 回归分析生猪决策 至此,在至此,在 时,证明了式(时,证明了

20、式(1010)中的)中的 是是的最的最 小二乘法估计量。小二乘法估计量。 在实际工作中,常称在实际工作中,常称 0) )( ) )( () () ( 0) () () () ( XYXY XXXYXXY XXXX TT TTTT TTT )11( 110mmx bxbby 为经验线性回归方程。为经验线性回归方程。 0L 回归分析生猪决策 首先我们在假定首先我们在假定 的条件下,的条件下, 探讨一下由式(探讨一下由式(1010)确定)确定的最小二乘法估计量的最小二乘法估计量 的性质。的性质。 1 1、 是是的线性无偏估计量。的线性无偏估计量。 证:由于证:由于 ,每一个,每一个 都是都是y y1

21、 1,y yn n 的线性组合,因而的线性组合,因而 是是 的线性估计量,此时称的线性估计量,此时称 的线性估计量。的线性估计量。 n IVarE 2 )(,0)( YXL T1 i b 是 i b i b XXL EXXL XEXL YEXLYXLEE T T T TT 1 1 1 11 )( )( )()() ( 回归分析生猪决策 证:记证:记 = =E EBYBYBEBE( (Y)Y)BYBYBEBE( (Y)Y) T T = =B BE EY YE E( (Y)Y)Y YE E( (Y)Y) T T B BT T = =B B2 2I In nB BT T = =L L-1 -1X X

22、T T 2 2I In n(L L-1 -1X XT T) )T T = =2 2L L-1 -1 )1() (mibbE ii 12 L ) 1, 2 , 1 , 0,( ,) , ( ,) ( 2 2 mjicbbCov cbD ijji iii ) 1() 1( 1 )( mmij cCL BYXLB T , 1 则 即即 2 2、 的协方差矩阵为的协方差矩阵为 ,即,即 其中其中 ) , (Cov 回归分析生猪决策 性质性质2 2告诉我们,用最小二乘法求出的诸回归系数告诉我们,用最小二乘法求出的诸回归系数 之间存在相关性,进一步可以证明之间存在相关性,进一步可以证明. . 3 3、 是

23、是的最小方差线性无偏估计,即在所有线性无的最小方差线性无偏估计,即在所有线性无 偏估计类中,有且只有偏估计类中,有且只有 使其方差达到最小。使其方差达到最小。 m bbbb, 210 回归分析生猪决策 3.2.6 3.2.6 多元线性回归方程的显著性检验多元线性回归方程的显著性检验 从上面的参数估计过程可以看出,对于一批观察数据从上面的参数估计过程可以看出,对于一批观察数据 不论它们是否具有线性关系,总可以利用最小二乘法不论它们是否具有线性关系,总可以利用最小二乘法 建立起多元线性回归方程建立起多元线性回归方程 但是但是Y Y与与x x1 1,x x2 2,x xm m 是否确实存在相关关系呢

24、?回归 是否确实存在相关关系呢?回归 方程的效果如何呢?这就要进行方程的效果如何呢?这就要进行“整个回归效果是否显著整个回归效果是否显著”的的 检检 验。当验。当 时,时, 没有关系,没有关系, 回归模型没有意义,于是我们要检验回归模型没有意义,于是我们要检验 是否成立。是否成立。 nixxxy imiii 1),( 21 )12( 22110mmx bxbxbby m xxxy, 21 与 0: 210 m bbbH 0 21 m bbb 回归分析生猪决策 若若H H0 0成立,则成立,则x x1 1,x x2 2,x xm m对对y y 没有影响;反之,若没有影响;反之,若H H0 0不不

25、 成立,则成立,则x x1 1,x x2 2,x xm m对对y y 有影响,此时有影响,此时y y与与x x1 1,x x2 2,x xm m 的线性关系显著,也称为整个回归效果显著。但要注意,即使的线性关系显著,也称为整个回归效果显著。但要注意,即使 整个回归效果是显著的,整个回归效果是显著的,y y也可能只与某几个也可能只与某几个x xi i关系密切(相应关系密切(相应 的的b bi i显著不为零),而与另几个显著不为零),而与另几个x xi i关系不密切(相应的关系不密切(相应的b bi i为为 零)。这就是说,多元线性回归除了首先要检验零)。这就是说,多元线性回归除了首先要检验“整个

26、回归是整个回归是 否显著否显著”外,还要逐个检验每一个外,还要逐个检验每一个b bi i是否为零,以便分辨出哪是否为零,以便分辨出哪 些些x xi i对对y y并无显著影响,最后,还要对各个并无显著影响,最后,还要对各个b bi i作出区间估计。作出区间估计。 为了进行检验和区间估计,可以证明以下结论成立:为了进行检验和区间估计,可以证明以下结论成立: 回归分析生猪决策 n i i y n y 1 1 记 独立与则 m bbbQmnQ , , ),1( 1 ) 1 ( 21 2 2 n i iyy yyl 1 2 )( 则称则称l lyy yy为总变差或称为 为总变差或称为y y的离差平方和。

27、的离差平方和。l lyy yy可进行如下分解: 可进行如下分解: UQyyyyl iiiyy 22 )()( 这时这时 称为残差平方和。称为残差平方和。 称为回归平方和。称为回归平方和。 记记 称为剩余标准差或估计的标准差。称为剩余标准差或估计的标准差。 )( ii yyQ 2 )( ii yyU 1 mn Q s 回归分析生猪决策 由于由于l lyy yy不变,当然希望 不变,当然希望Q Q 越小越好,即越小越好,即U U 越大越好,因越大越好,因 此,定义复相关系数(此,定义复相关系数(complex correlation coefficientcomplex correlation c

28、oefficient) yyyy l Q l U R1 当观察值当观察值 全都与回归值全都与回归值 吻合时,吻合时,Q=0Q=0,R=1R=1;当;当 时,时, , ,在一般情况下,在一般情况下,R R 的数值在的数值在0 0与与1 1之间。之间。 复相关系数复相关系数R R 的定义,类似于两个变量时的相关系数的定的定义,类似于两个变量时的相关系数的定 义,但要注意,复相关系数义,但要注意,复相关系数R R只取正值。在两个变量时,有正只取正值。在两个变量时,有正 相关与负相关之分,在多个变量时,就没有这一说了,所以复相关与负相关之分,在多个变量时,就没有这一说了,所以复 相关系数相关系数R R

29、只取正值。只取正值。 yyi yy lQ 0R i y i y 回归分析生猪决策 (2 2)在)在 的条件下的条件下 且且U U与与Q Q独立,因此独立,因此 (3 3) i i=1=1,2 2,m m 这里这里c cii ii为 为C C = = L L-1 -1中第 中第i i个对角线元素。个对角线元素。 0 21 m bbb )( 2 2 m U ) 1,( 1 1 ) 1/( / 2 2 mnmF R R m mn mnQ mU F ,) 1( mnt sc bb t ii ii i ) 1, 1 ( ) ( ) 1/( /) ( 22 22 mnF sc bb mnQ cbb F i

30、i iiiiii i 回归分析生猪决策 利用上述几条结论,可进行下列检验、估计和预测。利用上述几条结论,可进行下列检验、估计和预测。 (1 1)回归显著性检验()回归显著性检验(F F检验)即整个回归效果是否显检验)即整个回归效果是否显 著性检验。著性检验。 若整个回归效果不显著,即全部回归系数为零,因此,若整个回归效果不显著,即全部回归系数为零,因此, 设原假设设原假设H H0 0:b b1 1= =b b2 2= = =b bm m=0=0。若。若H H0 0为真,则为真,则 而且在而且在H H0 0不成立时,不成立时,F F值有变大的趋势,因此应取右侧值有变大的趋势,因此应取右侧 否否

31、定域,故检验法是当定域,故检验法是当 时拒绝原假设,时拒绝原假设, 认为回归效果显著;否则认为回归效果不显著。认为回归效果显著;否则认为回归效果不显著。 ) 1,( 1 11 2 2 mnmF R R m mn Q U m mn F ) 1,(mnmFF 回归分析生猪决策 (2 2)单个回归系数为零的检验()单个回归系数为零的检验(t t检验),即某个自变检验),即某个自变 量是否对因变量有显著性影响的检验。量是否对因变量有显著性影响的检验。 在多元回归分析中可能出现在多元回归分析中可能出现y y与所有自变量的总体是有与所有自变量的总体是有 相关关系的,但相关关系的,但y y与某个特定的与某个

32、特定的x xi i则可能无关,即则可能无关,即x xi i对对y y并不并不 起作用或者已被其它的起作用或者已被其它的x xi i的作用所代替,为此设的作用所代替,为此设m m个原假设个原假设 若若H H0i 0i为真,统计量 为真,统计量 mibH ii ,2 , 1, 0: 0 mimnt sc b t ii i i , 2 , 1),1( 回归分析生猪决策 而当而当H H0i 0i不成立时, 不成立时, 有变大的趋势,因而应取双侧拒有变大的趋势,因而应取双侧拒 绝域,故当绝域,故当 时,否定时,否定H H0i 0i,即认为 ,即认为x xi i对对y y是有是有 作用的,若某几个作用的,

33、若某几个x xi i是有作用的,而另几个是有作用的,而另几个x xi i是不起作用的,是不起作用的, 则应从回归方程中删除那些不起作用的自变量。则应从回归方程中删除那些不起作用的自变量。 单个回归系数是否为零,也可以用单个回归系数是否为零,也可以用F F 检验,即若检验,即若H H0i 0i为真, 为真, 统计量统计量 故当故当 时,拒绝原假设,即认为时,拒绝原假设,即认为x xi i对对y y 的影响是显著的;否则认为的影响是显著的;否则认为x xi i对对y y的影响是不显著的。的影响是不显著的。 mimnF sc b F ii i i , 2 , 1),1, 1 ( 22 2 ) 1,

34、1 (mnFFi i t ) 1( 2 mntt ai 回归分析生猪决策 (4 4)y y0 0的的95%95%预测区间近似为预测区间近似为 ,其中,其中 (3 3)对)对b bi i的区间估计的区间估计 由于由于 因而因而b bi i的的 置信区间为置信区间为 其中其中 ) 1( mnt sc bb ii ii 1) , ( iiii dbdb scmntd iii ) 1( 2 )2,2( 00 SySy mm xbxbxbby 002201100 回归分析生猪决策 (1 1)多项式回归分析模型)多项式回归分析模型 类似于模型(类似于模型(5 5),由自变量多项式和随机项组成的回归),由自

35、变量多项式和随机项组成的回归 模型称为多项式回归模型,它的一般形式为模型称为多项式回归模型,它的一般形式为 初看模型(初看模型(1313)不是线性回归,因自变量中含有幂函数,)不是线性回归,因自变量中含有幂函数, 但由于未知参数但由于未知参数b b0 0,b b1 1,b bm m都是线性出现的,因此,令都是线性出现的,因此,令 则模型(则模型(1313)就变成为多元线性回归模型:)就变成为多元线性回归模型: )13(), 0(, 22 210 NxbxbxbbY m m m m xxxxxx, 2 21 )14( 22110 mmx bxbxbbY 回归分析生猪决策 从而多项式回归模型可以用

36、多元线性回归模型的计算公从而多项式回归模型可以用多元线性回归模型的计算公 式和检验方法。多项式回归还有许多推广的形式,式和检验方法。多项式回归还有许多推广的形式, 例如:例如: 上述模型的共同特点是未知参数都是以线性形式出现,上述模型的共同特点是未知参数都是以线性形式出现, 所以都可以采用恒等变换像模型(所以都可以采用恒等变换像模型(1313)化为模型()化为模型(1414)一样)一样 化为多元线性回归模型。化为多元线性回归模型。 x c xbxbxbby m m 2 210 xm m CLnxbxbxbby 2 210 )( 2 210 m m xbxbxbbExpy )( 2 210 x

37、c xbxbxbbExpy m m cm m xxbxbxbbExpy)( 2 210 回归分析生猪决策 (2 2)广义线性回归模型)广义线性回归模型 广义线性回归模型的一般形式为广义线性回归模型的一般形式为 其中:其中: 是一个不含未知数参数的一元函数,且有是一个不含未知数参数的一元函数,且有 反函数:反函数: 的不含未知参的不含未知参 数数 的多元函数。的多元函数。 )15( ),(),( 2121110mppm xxxFbxxxFbbfy )( 0 yfy )( 0 ygy mmj xxxpjxxxF,), 2 , 1)(,( 2121 是 回归分析生猪决策 广义线性回归模型的回归系数的

38、确定主要是从自变量广义线性回归模型的回归系数的确定主要是从自变量 和因变量和因变量y y 的的n n 组观察值组观察值 出发,用最小二乘法求出出发,用最小二乘法求出 ,使得,使得 达到最小。达到最小。 此时也就是令此时也就是令 m xxx, 21 niyxxx iimii , 2 , 1), 21 ( pp bbbbbb , , , 1010 的估计 n i imiippimiii xxxFbxxxFbbygQ 1 2 2121110 ),(),()( ),( ),( ),( 21 2111 0 mpp m xxxFt xxxFt ygY 回归分析生猪决策 则则 这样就把广义线性回归模型化为多

39、元线性回归模型。这样就把广义线性回归模型化为多元线性回归模型。 例如:例如: 这里这里 为已知的常数,就属于广义线性回归为已知的常数,就属于广义线性回归 模型。模型。 )16( 110ppt btbbY xbxaxbxaay mmmm cossincossin 11110 m , 21 回归分析生猪决策 很多实际问题中,例如气象预报、地震预报等,自变量很多实际问题中,例如气象预报、地震预报等,自变量 个数多得惊人,过多的自变量不仅给数据的收集、计算带来很个数多得惊人,过多的自变量不仅给数据的收集、计算带来很 大麻烦,而且多个自变量之间往往会产生线性相关或近似线性大麻烦,而且多个自变量之间往往会

40、产生线性相关或近似线性 相关关系。这种相关关系,称为相关关系。这种相关关系,称为“复共线性复共线性”,复共线性的存在,复共线性的存在, 会使得回归分析的误差增大,得到不合理的结果,甚至使计算会使得回归分析的误差增大,得到不合理的结果,甚至使计算 溢出,无法求得回归分析问题的解。所以,我们总是希望从众溢出,无法求得回归分析问题的解。所以,我们总是希望从众 多自变量中挑选较少的一些变量,建立多自变量中挑选较少的一些变量,建立“最优最优”的回归模型。所的回归模型。所 谓谓“最优最优”的回归模型有两个方面的含义:一方面指方程中要包的回归模型有两个方面的含义:一方面指方程中要包 含所有的有显著作用的自变

41、量;另一方面,希望自变量的个数含所有的有显著作用的自变量;另一方面,希望自变量的个数 尽可能地少,因为自变量过多,使用起来不方便,而且引入了尽可能地少,因为自变量过多,使用起来不方便,而且引入了 无意义的量,反而会使回归方程的稳定性降低。无意义的量,反而会使回归方程的稳定性降低。 回归分析生猪决策 为了解决这些问题,就产生了一种重要的新的方法,为了解决这些问题,就产生了一种重要的新的方法, 即逐步回归法,它是一种能避免由复共线性产生的不良影响即逐步回归法,它是一种能避免由复共线性产生的不良影响 的回归分析方法,其基本思想是:不取全部自变量作回归,的回归分析方法,其基本思想是:不取全部自变量作回

42、归, 而是从一个含自变量的方程出发,通过逐步引入和删除,从而是从一个含自变量的方程出发,通过逐步引入和删除,从 全部自变量中选取一部分自变量作回归,既要使残差平方和全部自变量中选取一部分自变量作回归,既要使残差平方和 尽量小,又要避免引入过多的自变量,以致产生复共线性现尽量小,又要避免引入过多的自变量,以致产生复共线性现 象。象。 回归分析生猪决策 来表示它,得回归方程来表示它,得回归方程 及回归平方和及回归平方和U U,再用回归模型,再用回归模型 来表示它,得回归方程来表示它,得回归方程 及回归平方和及回归平方和U Ui i,则,则 称为偏回归平方和。称为偏回归平方和。 )( ,1 211

43、mp nxxxym m 型 用回归模次观察值的个变量设有 ppx bxbby 110 pp xbxbby 110 ppiiii xbxbxbxbby 1111110 ppiiii xbxbxbxbby 1111110 下面简单介绍一下数学原理。下面简单介绍一下数学原理。 ii UUS 回归分析生猪决策 若若x xi i可用其余自变量线性表示,则可用其余自变量线性表示,则U U与与U Ui i应当差不多,因而应当差不多,因而S Si i 应当很小。所以当从应当很小。所以当从F F检验中发现检验中发现S Si i很小时,我们就可以从很小时,我们就可以从P P个个 自变量中删除它。类似地,我们也可以

44、检验自变量中删除它。类似地,我们也可以检验x xp p+1 +1, ,x xm m中的中的 自变量是否应当添到回归模型中去。自变量是否应当添到回归模型中去。 逐步回归的具体做法是:事先给定一个引入变量的逐步回归的具体做法是:事先给定一个引入变量的F F水平水平 界限界限F Fin in和一个删除变量的 和一个删除变量的F F水平界限水平界限F Fout out,首先在所有尚未引 ,首先在所有尚未引 进方程的自变量中,找出进方程的自变量中,找出F Fi i值最大的一个,如果值最大的一个,如果F Fi iFFin in就引入 就引入 自变量自变量x xi i,然后在所有已引进方程的自变量中,找出,

45、然后在所有已引进方程的自变量中,找出F Fi i值最小值最小 的一个,如果的一个,如果F Fi iFFout out,就删除自变量 ,就删除自变量x xi i。这样逐步引入、删。这样逐步引入、删 除,直到方程外没有一个自变量的除,直到方程外没有一个自变量的F Fi i大于大于F Fin in,方程内没有一 ,方程内没有一 个自变量的个自变量的F Fi i小于小于F Fout out为止。 为止。 在逐步回归中,检验作用显著的临界值在逐步回归中,检验作用显著的临界值F F像一个门坎,它像一个门坎,它 的值取大些,进入回归方程的变量就会少些,反之就会多些。的值取大些,进入回归方程的变量就会少些,反

46、之就会多些。 回归分析生猪决策 (1)MATLAB命令命令 命令格式命令格式 b,bint,r,rint,stats=regress(Y,X,alpha) 其中输入向量其中输入向量X,Y的排列方式分别为的排列方式分别为 alpha为显著性水平(缺省时设定为为显著性水平(缺省时设定为0.05)。)。 输出向量输出向量b为回归系数的估计值,即为回归系数的估计值,即 输出向量输出向量bint为回归系数估计值的置信区间;为回归系数估计值的置信区间; nmnn m m xxx xxx xxx X 21 22221 11211 1 1 1 n y y y Y 2 1 T m bbbb),( 10 回归分析生猪决策 输出向量输出向量r为残差向量;为残差向量; 输出向量输出向量rintrint为残差向量的置信区间;为残差向量的置信区间; 输出向量输出向量 ,它是一个,它是一个3 3维向量,用于维向量,用于 检验回归模型的统计量,其中第一个分量检验回归模型的统计量,其中第一个分量R R2 2中的中的R R是相关系是相关系 数,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论