版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第四讲多项式回归与正交多项式
POLYNOMIALREGRESSIONANDORTHOGONALPOLYNOMIAL
变量间的关系并不都是如前三讲所设定的线性关系,而有时是非线性的关系。对于非线性变量间的回归分析,人们通常经过某种线性处理,将非线性性回归转化为线性回归,即在选用适当函数类型进行拟合时,进行适当的变量变换,把曲线方程转化为直线方程。但是也不是所有的曲线都能找到适当的函数类型进行拟合。这时可采用多项式逼近。所以,在许多比较复杂的实际问题中,可以不问自变量和依变量的关系如何,采用多项式回归进行分析。然而,多项式回归分析也存在不足之处。首先是,当自变量的个数较多时计算将十分繁杂;其次,如同多元线性回归一样,偏回归系数之间存在相关性,当剔除一个自变量后,必须重新计算偏回归系数。为此,人们研究了各种简化计算和消去偏回归系数间相关性的办法。而最为常用的是正交多项式的分析方法。在介绍该方法之前先要了解多项式回归的分析方法。第一节多项式回归
一、多项式回归的基本方法设有一组观察值(xt,yt)t=1,2,…,n,存在非线性关系,则多项式回归方程为:
(4—1)
为使离回归平方和SSQ=∑(y-)2最小,即根据最小二乘法原理可得出下列正规方程组:
(4—2)
解上述方程组可得:b0,b1,b2…bp。若令x1=x,x2=x2,…xp=xp,或φ1(x)=x,φ2(x)=x2,…φp(x)=xp,则(4—1)可改写成:
(4—3)
或(4—4)
这样就把xi或Φi(x)看成是新的变量,(4—3)或(4—4)式便是一个p元的线性回归方程,各偏回归系数di仍可按下列正规方程组求得。
(4—5)其中(i,j=1,2,…,p)
或
同样,对于多元多项式回归,也可以化为多元线性回归来分析,例如,对于多变量的任意多项式回归方程:
只要令x1=z1,x2=z2,x3=,x4=z1z2,x5=…可化为多元线性回归方程:
其偏回归系数的计算,回归方程的显著性检验,各偏回归平方和的计算及显著性检验,都与多元线性回归分析相似。二、实例分析例1有一组资料如表4—1,试配置一个回归方程。表4—1x与y的资料
x012476810y12467653
先将x与y数值在坐标系上作图。
图4.1x与y点式图及回归曲线图
由图所示,x与y的点式图呈抛物线形状,故可配合一个二次抛物线方程。为了配合更为适当,可先配合成三次项后再作检验。其方程为:
令x1=x,x2=x2,x3=x3,则上述方程可转化为三元线性方程
其中
1、计算必要数据,列出正规方程组一级数据:∑x1=38,∑x2=∑x2=270,∑x3=∑x3=2144,∑y=34,∑=∑x4=18066,∑y2=176,∑=∑x6=1430610,∑x1x2=∑x3=2144,∑x1x2=∑x4=18066,∑x2x3∑x5=158408,∑x1y=189,∑x2y=∑x2y=1293,∑x3y=∑x3y=9675二级数据:
=270-382/8=89.5=1430610-21442/8=856018=2144-38×270/8=861.5=18066-38×2144/8=7882=18066-2702/8=8953.5=158408-270×2144/8=86048=189-38×34/8=27.5=1293-270×34/8=145.5=9675-2144×34/8=563=176-342/8=31.5
于是正规方程组为:
2、计算偏回归系数,列出回归方程,仍可用(1—16)式对下列增广矩阵作消元变换,求得系数矩阵的逆及各偏回归系数。
d1=1.7721,d2=-0.1109,d3=-0.0045d0=4.25-1.7721×4.75+0.1109×33.75+0.0045×256=0.7814因此,三次方曲线方程为:
3、显著性检验及准确性测定:
回归平方和离回归平方和
表4—2回归系数的方差分析
变异来源dfSSMSFF0.05(3,4)回归离回归总的34730.06331.436731.510.02110.3592
10.218*
6.59
R0.01(4)=0.962,R>R0.01,差异极显著,可见多元回归极为显著,且准确度也较高。4、偏回归系数的显著性检验
Cii为A(3)主对角线上的元素,即高斯乘数。
MSQ为离回归的均方。
F0.05(1,4)=7.71,Fd1>F0.05,由于仅有d1检验达到5%显著水准,故需对F值最小的x3进行剔除,把三次方曲线方程变为二次抛物线方程,可由A(2)中求得逆和解,即:
d1=2.0433,d2=-0.1804d0=4.25-2.0433×4.75+0.1804×33.75=0.6328二次抛物线方程为
SSU=2.043327.5-0.1804×145.5=29.9426SSQ=31.5-29.9426=1.5574
F0.01(2,5)=13.27,F>F0.01;R0.01(5)=0.917,R>R0.01。
检验结果表明,该资料所配的二次抛物线方程,其显著水准达到1%,且准确度较高。
两偏回归系数皆极显著,表明,所配合的二次抛物线适合于该资料。因此,可依据该回归方程描绘出回归曲线图(见图4.1)。倘若需要求出该抛物线最高点的x值时,可对=0.6328+2.0433x-0.1804x2求一阶导数,并令其为零,即:
所以,当x=5.66时,取最大值,亦即曲线最高点。
第二节正交多项式
上述分析可见,要配合一个适当的多项式回归方程,其计算工作量是十分繁琐的。但,如果自变量取等间隔数值时,可通过恰当的变量变换,如采用正交多项式来配合其回归方程,将使得分析变的十分简便和实用。为引出正交多项式的分析方法,可先看下例:设有一组x与y的观察值:x12345y24367
试建立一个二次抛物线回归方程,即:
若令:φ1(x)=x-3,φ2(x)=(x-3)2-2,则方程可化为二元线性回归方程:
一、正交多项式回归方程的建立x12345-2-10122-1-2-12243674101441414-410-14-4-406144-4-6-61441693649∑001210140122114
表4—3n=5时二元φi(x)值计算表φ1(x)φ2(x)y
依(4—5)式,正规方程组为:解得:d1=12/10=1.2,d2=2/14=0.143
以上计算结果可看出,通过恰当的变量变换可使得
这种变换具有正交性,若推广至一般:设x1=1,x2=2,…,xn=n。如果x1=a+h,x2=a+2h,…,xn=a+nh可变换x’=(x-a)/h。于是,,记对应于xt的实验结果yt(t=1,2,…,n)。该组观察值可配合一个p次多项式回归方程:
设φ1(x),φ2(x),…,φp(x)为x函数,分别表示一次,二次,…,p次多项式,则上述方程可表示为p元线性回归方程:
为解得各偏回归系数,需算出二级数据为:
为满足正交条件,变换的变量φi(x)须满足
这样
于是正规方程组可简化为
(4—6)
各偏回归系数为
对于d的计算已大大简化,问题在于如何选取φi(x)以满足正交条件。现以模型
(4—7)
为例加以说明。
设φ1(x),φ2(x)分别为x的一次和二次多项式,并令φi(x))的表达式为:
(4—8)
二次模型可化为:
为满足
(4—9)
只要适当调节三个参数c10,c21,c20即可。
为例。
把(4—8)式代入(4—9)式得:
则
将代入,有∵,∴
这样必为0,故。
将代入,得
于是
所以,在x取等间隔数值时,只要选取
即可满足正交条件,若x取自然数1,2,…,n时,
(4—10)将上式代入(4-10)式
(4—11)
所以当x的取值可用xt=x0+ht(h为公差:t=1,2,…,n)表示时,各次正交多项式φi(x)的统一形式为:
(4—12)
例如x取值为0,20,40,60,80,则可表示为xt=-20+20t(t=1,2,…,5)。按(4—12)式,各φi(x)值列于表4—3表4—4n=5时的φi(x)
xφ1(x)φ2(x)φ3(x)φ4(x)020406080-2-10122-1-2-12-6/512/50-12/56/512/35-48/3572/35-48/3512/35
由表4—4可见,φi(x)值并非全为整数,为避免小数运算时的麻烦,通常再引入一个适当的系数λi使ci=λiφi(x)(i=1,2,…,p)(4—13)为绝对值尽可能小的整数,如表4—3中,取λ1=1,λ2=1,λ3=5/6,λ4=35/12。则c3(第3列)=(―1,2,0,―2,1)',c4=(1,―4,6,―4,1)'。相应地由(4—7)式,计算的di可改写成:
(4—14)
(4—15)
不同观察值次数下的p次多项式ci已由学者编制成表,实际工作中直接引用即可。
二、正交多项式回归的显著性检验(一)p次式回归方程的显著性检验
p次式回归平方和SSU=dfU=p
p次式离回归平方和SSQ=SSy-SSUdfQ=n-p-1
(二)各偏回归系数di的显著性检验
(i=1,2,…,p)
其中,分别为各个偏回归平方和(均方,dfdi=1)及离回归均方。由于正交性,Fdi检验不显著时,可直接从多项式回归方程中剔除,并将其自由度、平方和()并入离回归项中,以检验其余的di。无须重新计算di。第三节正交多项式分析实例
例2、用镇痛药对小动物镇痛效果的研究中,得到关于用药后时间(x)和平均反映时间(y)的资料如下,试配合一个适当的多项式回归方程。x(分)020406080100120y(分)24.937.042.037.534.028.125.9因资料中x取等间隔数据n=7,公差h=20,故可用正交系数作多项式回归分析。
1、x与y的点式图,以确定多项式的次数。由点式图可知,拟配以三次多项式回归方程。y|50+||*
40+|**|*30+|**|*20+||--+-------+-------+-------+-------+-------+-------+--x020406080100120
图4.2x与y的点式图
2、据n=7选择正交多项式系数ci值表(表4—4),所抄表中的列数,应比点式图推测的可能多项式的最高次方数多一列。本例可抄下四列。3、计算偏回归系数,偏回归平方和,作显著性检验由公式(4—14)及(4—16)可得di及偏回归平方和MSdi。以d1为例
SSy=∑y2-(∑y)2/n=7775.68-229.42/7=257.9143
四次式回归平方和
离回归平方和SSQ=257.9143-255.0494=2.8649因MSd4最小,故可先作F检验,以决定是否剔除。
F检验结果差异不显著,表明多项式中≥4次式的回归方程可不作考虑,故将4次式的回归平方和及自由度合并于离回归平方和中,并对d1,d2,d3,作显著性检验,检验结果如表4—5。表4—4n=7时的ci值表
020406080100120-3-2-10+1+2+3+50-3-4-30+5-1+1+10-1-1+1+3-7+1+6+1-7+324.937.042.037.534.028.125.924.8537.3840.9838.6733.3127.9925.64λi∑∑ciydiMSdi128-22.8-0.814318.5657184-124-1.4762183.04761/6617.92.983353.40177/12154-2.3-.01490.0344∑y2=7775.68∑y=229.4SSy=257.9143c1c2c3c4yx表4—5例2资料多项式回归各次分量的方差分析
F检验结果表明,例2资料宜用三项式表示:
但依(4—15)式有
可见,所配多项式回归方程估测的准确性极高。对于三次多项式,求一、二阶导数,并令其为零,可求得的极值和曲线上的拐点。即:变异来源dfSSMSFF0.05F0.01一次式二次式三次式离回归总变异1113618.5657183.047653.40172.8993257.914318.5657183.047653.40170.966419.21*189.41**55.26**10.1334.4
(4—16)
对于本例的极大、极小值分别在x为40.32、119.35时;方程在x=40上有一拐点。
二、处理间平方和的多项式回归分解若试验因素可分为若干个数量水平(处理),则处理间的平方和可剖分为单一自由度的各次式偏回归平方和。这时处理(水平)为x变量,试验结果y为处理的反应变量,亦称y为x的响应,则称一次式为一次响应,二次式为二次响应等等。当数量水平取等间隔数值时,仍可采用正交多项式分析。需要指出的是,若以各处理组的合计数Ti为一变量y时,则方差分析时的各项平方和皆应乘以处理组内的重复数r,才能与回归分析相对应。
例3以4种粗纤维含量(%)不同的饲料(x)喂养仔鸡,各种饲料饲养三只仔鸡,其试验结果列于表4—6,试作多项式回归分析。
表4—6不同饲料对仔鸡的增重结果
粗纤维仔鸡增重(y)y=Ti3456151156145144153157149146152158147145456471441435152157147145
因x取间隔值h=1,故可采用正交多项式回归分析,其计算结果如表4—7
表4—7正交多项式回归分析计算表
xc1c2c3y3456-3-1+1+1+1-1-1+1-1+3-3+1456471441435λi∑∑ciyMSdidi220-93432.45-4.6524-21110.25-5.2510132069238.053.45SSy=780.75
=4.5SSQ=0=450.75
本例所用y为Ti,故方差分析中各平方和均应乘以r(=3)后,才能与多项式回归分析相对应,即:SST=274.25×3=822.75,SSA=260.25×3=780.75,SSE=14×3=12。亦可把多项式回归分析中把ssy和各Msdi都除以r(=3),并将y和也除以3后,建立以处理平均数“g/只”的回归方程式。本例采用后者分析。于是例3资料的显著性检验如表4—8。表4—8例3资料的多项式回归显著性检验
变异来源dfSSMSF处理间一次响应二次响应三次响应误差项31118260.25144.1536.7579.351486.75144.1536.7579.351.7549.57**82.37**21.0**45.34**总变异11274.25
检验结果表明:仔鸡增重对不同饲料中粗纤维含量的一、二、三次响应皆为极显著,相对而言,以一次响应最大(F=82.37)。但其关系仍需以三次多项式配合为宜。即:
其中c1=2(x―4.5)=2x―9c2=(x
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025中国地质调查局南京地质调查中心公开招聘高校应届毕业生9人(江苏)高频重点提升(共500题)附带答案详解
- 2025中国兵器工业集团校园招聘6560人高频重点提升(共500题)附带答案详解
- 2025中化学南方建设投资限公司招聘56人高频重点提升(共500题)附带答案详解
- 2025下半年黑龙江伊春市事业单位公开招聘工作人员181人高频重点提升(共500题)附带答案详解
- 2025下半年安徽池州市贵池区事业单位招聘38人历年高频重点提升(共500题)附带答案详解
- 2025上海烟草集团限责任公司校园招聘348人高频重点提升(共500题)附带答案详解
- 2025上海事业单位《职业能力倾向测验》历年高频重点提升(共500题)附带答案详解
- 2025上半年江苏省泰州事业单位招聘50人历年高频重点提升(共500题)附带答案详解
- 2025上半年广东深圳龙华区赴外面向应届毕业生招聘职员拟聘(第四批)高频重点提升(共500题)附带答案详解
- 2025上半年四川绵阳市北川县事业单位招聘工作人员(孕期人员)拟聘高频重点提升(共500题)附带答案详解
- 上海市2024-2025学年高一语文下学期期末试题含解析
- 职业生涯规划成品
- 期末模拟卷01(全国适用)-【中职专用】高二语文上学期职业模块期末模拟卷(解析版)
- 建筑物拆除的拆除工厂考核试卷
- 广东省深圳市2023-2024学年高二上学期期末测试英语试卷(含答案)
- 2024湖南田汉大剧院事业单位招聘若干人易考易错模拟试题(共500题)试卷后附参考答案
- 2025届全国名校大联考物理高二第一学期期末联考试题含解析
- 减肥课件模板教学课件
- 2024年部门年终总结
- 公司招商部工作流程及管理制度
- 汉语阅读教程第一册第十二课
评论
0/150
提交评论