第四讲 多项式回归与正交多项式_第1页
第四讲 多项式回归与正交多项式_第2页
第四讲 多项式回归与正交多项式_第3页
第四讲 多项式回归与正交多项式_第4页
第四讲 多项式回归与正交多项式_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、变量间的关系并不都是如前三讲所设定的线性关系,而有时是非线性的关系。对于非线性变量间的回归分析,人们通常经过某种线性处理,将非线性性回归转化为线性回归,即在选用适当函数类型进行拟合时,进行适当的变量变换,把曲线方程转化为直线方程。但是也不是所有的曲线都能找到适当的函数类型进行拟合。这时可采用多项式逼近。所以,在许多比较复杂的实际问题中,可以不问自变量和依变量的关系如何,采用多项式回归进行分析。然而,多项式回归分析也存在不足之处。首先是,当自变量的个数较多时 计算将十分繁杂;其次,如同多元线性回归一样,偏回归系数之间存在相关性,当剔除一个自变量后,必须重新计算偏回归系数。为此,人们研究了各种简化

2、计算和消去偏回归系数间相关性的办法。而最为常用的是正交多项式的分析方法。在介绍该方法之前先要了解多项式回归的分析方法。一、多项式回归的基本方法 设有一组观察值(xt,yt) t=1,2,n,存在非线性关系,则多项式回归方程为: (41) ppxbxbxbby2210 为使离回归平方和SSQ=(y )2最小,即根据最小二乘法原理可得出下列正规方程组: y (42) yxxbxbxbxbyxxbxbxbxbxyxbxbxbxbyxbxbxbnbkppppppppppp222110224231201322102210解上述方程组可得:b0,b1,b2 bp 。若令x1=x,x2=x2,xp=xp,或

3、1(x)=x,2(x)=x2,p(x)=xp,则(41)可改写成 : (43) ppxdxdxddy22110 或 (44) )()()(22110 xdxdxddypp 这样就把xi 或i(x)看成是新的变量,(43)或(44)式便是一个p元的线性回归方程,各偏回归系数di仍可按下列正规方程组求得。 (45)pypppppyppypplldldldlldldldlldldld22112222221111122111ppxdxdxdyd22110其中 (i,j=1,2,p) nxxxxxxxxljtitjtitjjtiitntij)(1nyxyxyyxxlttttitntiy)(1nltttt

4、ttxjxixjxixjxjxixintij)()()()()()()()(1)(nyyyyltxitxitxixintiyttt)()()()(1)(或 同样,对于多元多项式回归,也可以化为多元线性回归来分析,例如,对于多变量的任意多项式回归方程: 22521421322110zbzzbzbzbzbby 只要令x1=z1, x2=z2 ,x3= ,x4=z1z2,x5= 可化为多元线性回归方程: 21z22z55443322110 xdxdxdxdxddy 其偏回归系数的计算,回归方程的显著性检验,各偏回归平方和的计算及显著性检验,都与多元线性回归分析相似。二、实例分析 例1 有一组资料如表

5、41,试配置一个回归方程。表41 x与y的资料 x012476810y12467653 先将x与y数值在坐标系上作图。 图4.1 x与y点式图及回归曲线图 由图所示,x与y的点式图呈抛物线形状,故可配合一个二次抛物线方程。为了配合更为适当,可先配合成三次项后再作检验。其方程为: 332210 xbxbxbby令x1=x,x2=x2,x3=x3,则上述方程可转化为三元线性方程3322110 xdxdxddy 其中 3322110 xdxdxdyd 1、计算必要数据,列出正规方程组一级数据:x1=38, x2=x2=270, x3=x3=2144, y=34, =x4=18066,y2=176,

6、=x6=1430610, x1x2=x3=2144, x1x2=x4=18066,x2x3x5=158408,x1y=189,x2y=x2y=1293,x3y=x3y=9675二级数据:22x23x,75. 41x,75.3322 xx,28633xx25. 4y =2703828=89.5nxxl212111)(nxxxxl212112nxxxxl313113nxxl222222)(nxxxxl323223nxxl232333)(=1430610214428=856018=2144382708=861.5=180663821448=7882=1806627028=8953.5=1584082

7、7021448=86048nyxyxly111nyxyxly222nyxyxly333nyylyy22)(=18938348=27.5=1293270348=145.5=96752144348=563=1763428=31.5 于是正规方程组为: 5638560188604878825 .145860485 .89535 .8615 .2778825 .8615 .89321321321ddddddddd 2、计算偏回归系数,列出回归方程,仍可用(116)式对下列增广矩阵作消元变换,求得系数矩阵的逆及各偏回归系数。 5638560188604878825 .145860485 .89535 .

8、8615 .2778825 .8615 .89)0(A84357.18585986.1618732459.1017839.067.88206704.1192459.10178960915.660625698. 9307263. 0067039.88625698. 9017773. 0)1(A16028.2311465.5137399165.15160677.60180354. 0399165.15001513. 0014563. 0043292. 2160677.60014563. 0151354. 0)2(A004508. 0000195. 0002998. 0011711. 0110928

9、. 0002998. 0047673. 0194901. 0772064. 1011711. 0194901. 0855590. 0)3(A d1=1.7721,d2=0.1109,d3=0.0045 d0=4.251.77214.75+0.110933.75+0.0045256=0.7814 因此,三次方曲线方程为: 320045. 01109. 07721. 17814. 0 xxxy 3、显著性检验及准确性测定: 回归平方和 0633.305630045. 05 .1451109. 05 .277721. 131iyiUldSS 离回归平方和 4367. 10633.305 .31Uyy

10、UYQSSlSSSSSS表42 回归系数的方差分析 变异来源dfSSMSFF0.05(3,4)回归离回归总的34730.06331.436731.510.02110.3592 10.218* 6.599769. 05 .310633.30yyUlSSR R0.01(4)=0.962,RR0.01,差异极显著,可见多元回归极为显著,且准确度也较高。4、偏回归系数的显著性检验 Cii为A(3)主对角线上的元素,即高斯乘数。 iiidicdMS2 MSQ为离回归的均方。 QdidiMsMSF289. 03592. 0000195. 0)0045. 0(718. 03592. 004767. 0)11

11、09. 0(218.103592. 085559. 07721. 1233222*211QddQddQddMsMSFMsMSFMsMSF F0.05(1,4)=7.71,Fd1F0.05,由于仅有d1检验达到5%显著水准,故需对F值最小的x3进行剔除,把三次方曲线方程变为二次抛物线方程,可由A(2)中求得逆和解,即: d1=2.0433,d2=0.1804 d0=4.252.04334.75+0.180433.75=0.6328 二次抛物线方程为 21804. 00433. 26328. 0 xxy SSU=2.043327.50.1804145.5=29.9426 SSQ=31.529.94

12、26=1.5574*065.483115. 09713.14)5/5574. 1 ()2/9426.29(QUMSMSF F0.01(2,5)=13.27,FF0.01; R0.01(5)=0.917,RR0.01。 975. 05 .319426.29R 检验结果表明,该资料所配的二次抛物线方程,其显著水准达到1%,且准确度较高。 *22*21052.693115. 0001513. 0)1804. 0(555.883115. 0151354. 00433. 2ddFF 两偏回归系数皆极显著,表明,所配合的二次抛物线适合于该资料。因此,可依据该回归方程描绘出回归曲线图(见图4.1)。倘若需要

13、求出该抛物线最高点的x值时,可对 =0.6328+2.0433x0.1804x2求一阶导数,并令其为零,即: y 66.51804.020433.20)1804.0(20433.2xxxy 所以,当x=5.66时, 取最大值,亦即曲线最高点。 y 上述分析可见,要配合一个适当的多项式回归方程,其计算工作量是十分繁琐的。但,如果自变量取等间隔数值时,可通过恰当的变量变换,如采用正交多项式来配合其回归方程,将使得分析变的十分简便和实用。 为引出正交多项式的分析方法,可先看下例: 设有一组x与y的观察值: x 1 2 3 4 5 y 2 4 3 6 7试建立一个二次抛物线回归方程,即:2210 xd

14、xddy 若令: 1(x)=x3,2(x)=(x3)22, 则方程可化为二元线性回归方程 :)(22)(110Xxdddy 一、正交多项式回归方程的建立 )(21x)(2)( 1xxyx)(1yx)(22y140140000010010004 . 25/122512212222512112112251211211121)()(,)()()()()()()()()()(xnxxxnxxxnxxxlllyx1234521012212122436741014414144101444061444661441693649001210140122114 表43 n=5时二元i(x) 值计算表1(x)2(x

15、)y)(22x2 .8512114)(012021212012251212512122511111yylyylyylnyyxnxyxnxy)()()()( 依(45)式,正规方程组为: 2140120102121dddd解得:d1=12/10=1.2,d2=2/14=0.143 2)3(143. 0)3(2 . 14 . 24 . 20143. 002 . 14 . 22)(22)(110 xxyddydxx以上计算结果可看出,通过恰当的变量变换可使得 ), 2 , 1,(0), 2 , 1(0)()(1)(1jipjipixjxinxin 这种变换具有正交性,若推广至一般: 设x1=1,x2

16、=2,xn=n。如果x1=a+h,x2=a+2h,xn=a+nh 可变换x=(nxxxn, 2, 121x-a)/h 。于是, ,记对应于xt的实验结果yt(t=1,2,n)。该组观察值可配合一个p次多项式回归方程 :ppxbxbxbby22110 设1(x),2(x),p(x)为x 函数,分别表示一次,二次,p次多项式,则上述方程可表示为p元线性回归方程: 为解得各偏回归系数,需算出二级数据为:)()()(22110 xdxdxddypp), 2 , 1(), 2 , 1,()()()()()()(ntnyylpjinltxitxiiyxjxixjxiijtttttt 为满足正交条件,变换的

17、变量i(x)须满足)(00)()()()(2)(1jixjxixpxx 这样yljijilxiiyxiijxi)(2)()(, 00 于是正规方程组可简化为ydydydxppxpxxxx)(2)()(222)(2)(112)(1000000000 (46) 各偏回归系数为 ydydxixii02)()( 对于d的计算已大大简化,问题在于如何选取i(x)以满足正交条件。现以模型2210 xbxbby (47) 为例加以说明。 设1(x),2(x)分别为x的一次和二次多项式,并令i(x))的表达式为: (48) 20212)(210)(1cxcxcxxx 二次模型可化为:)(22)(110Xxdd

18、dy 为满足 000)(2)(1)(2)(1xxxx(49) 只要适当调节三个参数c10,c21,c20即可。 为例。 把(48)式代入(49)式得:0)(0)(0)(20212101202121101cxcxcxcxcxcxnnn xnxcncxnn1101010则 将 代入 ,有 xc100)(20212101cxcxcxn0)()()()2()(0)()(2()(0)()22()2)(12212022121312212021212212021221221xxxxccxxxcxxxxccxxxcxxxxxxccxcxxxxcxxxxxxnnnn , 0)(1xxn0)(31xxn 这样 必

19、为0,故 。 )2(21xcxc221 将 代入 ,得 xc2210)(202121cxcxn 于是 0)()(0)2(220212021xcxxcxxxnn211220)(xxxcnn 所以,在x取等间隔数值时,只要选取 2112)(2)(1)()(xxxxxxnnxx 即可满足正交条件,若x取自然数1,2,n时, ) 1(21nx (410) 12/) 1()21(6) 12)(1()(222221nnnnnnnxnxxxn将上式代入(4-10)式 121)(121)21(212222)(2)(1nxxnnxxxnxxx(411) 所以当x的取值可用 xt=x0+ht (h为公差: t=1

20、,2,n)表示时 ,各次正交多项式i(x)的统一形式为: )(12222)()(1)(12325)(522224)(423)(322)(2)(1) 14(4)()(100840723015)(18)7(5)(560)9)(1(3)(14133)()(2073)(121)(xpxpxxpxxxxxppnphxxnnhxxnhxxnnhxxnhxxhxxnhxxnhxxhxx (412) 例如x 取值为0,20,40,60,80,则可表示为xt=20+20t(t=1,2,5)。按(412)式 ,各i(x)值列于表43表44 n=5时的i(x) x1(x)2(x)3(x)4(x)0204060802

21、1012212126/512/5012/56/512/3548/3572/3548/3512/35 由表44可见,i(x)值并非全为整数,为避免小数运算时的麻烦,通常再引入一个适当的系数i使 ci=ii(x) (i=1,2,p) (413) 为绝对值尽可能小的整数,如表43中,取1=1,2=1,3=5/6,4=35/12。则c3(第3列)=(1,2,0,2,1),c4=(1,4,6,4,1)。 相应地由(47)式,计算的di可改写成: (414) ), 2 , 1(2picycdiii)(1xiiipidyy(415) 不同观察值次数下的p次多项式ci已由学者编制成表,实际工作中直接引用即可。

22、 二、正交多项式回归的显著性检验 (一)p次式回归方程的显著性检验 p次式回归平方和 SSU= dfU=p ycdiipi1 p次式离回归平方和 SSQ=SSySSU dfQ=np1 1pnSSpSSFQU (二)各偏回归系数di的显著性检验 (i=1,2,p) QididiiidMSMSFcycMS22)( 其中 , 分别为各个偏回归平方和(均方,dfdi=1)及离回归均方。idMSQMSidMS 由于正交性,Fdi检验不显著时,可直接从多项式回归方程中剔除,并将其自由度、平方和( )并入离回归项中,以检验其余的di。无须重新计算di。例2、用镇痛药对小动物镇痛效果的研究中,得到关于用药后时

23、间(x)和平均反映时间(y)的资料如下,试配合一个适当的多项式回归方程。 x(分) 0 20 40 60 80 100 120 y(分) 24.9 37.0 42.0 37.5 34.0 28.1 25.9 因资料中x取等间隔数据n=7,公差h=20,故可用正交系数作多项式回归分析。 1、x与y的点式图,以确定多项式的次数。由点式图可知,拟配以三次多项式回 归方程。 y |50 + | | * 40 + | * * | *30 + | * * | *20 + | | -+-+-+-+-+-+-+- x 0 20 40 60 80 100 120 图4.2 x与y的点式图 2、据n=7 选择正交

24、多项式系数ci值表(表44),所抄表中的列数,应比点式图推测的可能多项式的最高次方数多一列。本例可抄下四列。3、计算偏回归系数,偏回归平方和,作显著性检验由公式(414)及(416)可得di及偏回归平方和MSdi。以d1为例 5657.1828/)8 .22(8143. 028/8 .222212121111ccMScycdyd SSy=y2(y)2/n=7775.68229.42/7=257.9143 四次式回归平方和 0494.255411idiipiUMSycdSS 离回归平方和 SSQ=257.9143255.0494=2.8649 因MSd4最小,故可先作F检验,以决定是否剔除。 1

25、28649. 20344. 0244QdSSMSF F检验结果差异不显著,表明多项式中4次式的回归方程可不作考虑,故将4次式的回归平方和及自由度合并于离回归平方和中,并对d1,d2,d3,作显著性检验,检验结果如表45。 表44 n=7时的ci值表 y 2ic7714.32y0204060801001203210+1+2+3+503430+51+1+1011+1+37+1+6+17+324.937.042.037.534.028.125.924.8537.3840.9838.6733.3127.9925.64iciydiMSdi12822.80.814318.56571841241.47621

26、83.04761/6617.92.983353.40177/121542.3.01490.0344y2=7775.68y=229.4SSy=257.9143x 表45 例2资料多项式回归各次分量的方差分析 F检验结果表明,例2资料宜用三项式表示: 但依(415)式有3219833. 24762. 18143. 07714.32cccy3232)(1000062. 001488. 089936. 085.2420607)2060(69833. 24)2060(4762. 1206081439. 07714.32xxxxxxxdyyxiiipi*9944. 09143.257015.255yUSS

27、SSR 可见,所配多项式回归方程估测的准确性极高。对于三次多项式,求一、二y 阶导数,并令其为零,可求得 的极值和曲线上的拐点。即: 变异来源dfSSMSFF0.05 F0.01一次式二次式三次式离回归总变异1113618.5657183.047653.40172.8993257.914318.5657183.047653.40170.966419.21*189.41*55.26*10.13 34.4 (416) 331222232133032bbbbbxxbxbbxy3232223062bbxxbbxy对于本例 的极大、极小值分别在x为40.32、119.35时;方程在x=40上有一拐点。

28、y 二、处理间平方和的多项式回归分解 若试验因素可分为若干个数量水平(处理),则处理间的平方和可剖分为单一自由度的各次式偏回归平方和。这时处理(水平)为x变量,试验结果y为处理的反应变量,亦称y为x的响应,则称一次式为一次响应,二次式为二次响应等等。当数量水平取等间隔数值时,仍可采用正交多项式分析。需要指出的是,若以各处理组的合计数Ti为一变量y时,则方差分析时的各项平方和皆应乘以处理组内的重复数r,才能与回归分析相对应。 例3 以4种粗纤维含量(%)不同的饲料(x)喂养仔鸡,各种饲料饲养三只仔鸡,其试验结果列于表46,试作多项式回归分析。 表46不同饲料对仔鸡的增重结果 y粗纤维仔鸡增重(y

29、)y=Ti3456151156145144153157149146152158147145456471441435152157147145 因x取间隔值h=1,故可采用正交多项式回归分析,其计算结果如表47 表47 正交多项式回归分析计算表 2icxxc1c2c3y345631+1+1+111+11+33+1456471441435iciyMSdidi22093432.454.6524 21110.255.25101320 69238.053.45SSy=780.75 =4.5SSQ=0y=450.75 本例所用y为Ti,故方差分析中各平方和均应乘以r(=3)后,才能与多项式回归分析相对应,即

30、:SST=274.253=822.75,SSA=260.253=780.75,SSE=143=12。亦可把多项式回归分析中把ssy和各Msdi都除以r(=3),并将y和iy也除以3后,建立以处理平均数 “g/只”的回归方程式。本例采用后者分析。于是例3资料的显著性检验如表48 。表48 例3资料的多项式回归显著性检验 变异来源dfSSMSF处理间一次响应二次响应三次响应误差项31118260.25144.1536.7579.351486.75144.1536.7579.351.7549.57*82.37*21.0*45.34*总变异11274.25 检验结果表明:仔鸡增重对不同饲料中粗纤维含量的一、二、三次响应皆为极显著,相对而言,以一次响应最大(F=82.37)。但其关系仍需以三次多项式配合为宜。即: 3

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论