版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
10回归分析1变量与变量之间的关系一般可以分为两大类:确定性关系和相关关系。
当一个或几个变量取一定值时,另一个变量有确定值与之相对应,也就是说变量之间存在着严格的函数关系,这种关系就称为确定性关系。例如,牛顿第二定律F=ma,欧姆定律U=IR,朗伯-比尔定律A=abc等均是反映变量间确定关系的表达式。
当一个或几个相互关系的变量取一定数值时,与之对应的另一变量的值虽然不确定,但它仍按某种规律在一定的范围内变化。变量间相互关联而不能用确切的函数表达的,这种关系称为相关关系。例如,在农业生产中肥料、单位面积播种量与亩产之间,相互有影响但不是“一个决定另一个”的确定关系,这就是相关关系。
变量之间的确定性关系和相关关系,在一定的条件下是可以相互转换的。本来具有函数关系的变量,当存在实验误差时,其函数关系往往以相关的形式表现出来。相关关系虽然是不确定的,却是一种统计关系,在大量的观察下,往往会呈现出一定的规律性,这种规律性可以通过大量实验值的散点图反映出来,也可以借助相应的函数式表达出来,这种函数称为回归函数或回归方程。10.1基本概念2回归分析的主要内容:确定回归方程,检验回归方程的可信性10.2一元线性回归分析10.2.1一元线性回归方程的建立一元线性回归分析又称直线拟合,是处理两个变量x和y之间关系的方法。所谓一元是指只有一个自变量x,因变量y在某种程度上是随x变化的。设有一组实验数据,实验值为
(xi,yi)(i=1,2,…,n)。若x,y符合线性关系,或已知经验公式为直线形式,就可拟合为直线方程,即:=a+bxi
上式就是变量x,y的一元线性回归方程,式中a,b称为回归系数;
是对应自变量xi代入回归方程的计算值,称为回归值。注意,这里的函数计算值
与实验值yi不一定相等。将
与yi之间的差异称为偏差,用
i表示。3
i=yi-yi=a+bxi+i
显然,只有各偏差平方值(考虑到偏差有正有负)之和最小时,回归方程与实验值的拟合程度最好。令:q=
i2=(yi-)2=[yi–(a+bxi)]2
正规方程组45[例10-1]为研究某合成物的转化率y(%)与实验中的压强x(atm)的关系,得到如表10-1的实验数据。试使用最小二乘法确定转化率与压强的经验公式。x/atm24589y/%2.012.983.505.025.07实验数据散点图6分析:
根据表10-1的实验数据,在普通直角坐标系中画出y~x散点图(见图10-1),从图中可以看出,这些点近似于直线分布,故可设y~x经验公式为y=a+bx。若将上述数据代入经验公式y=a+bx中,可以得到多种组合,例如:
a+2b=2.01a+5b=3.50a+4b=2.98a+8b=5.02由第一个方程组解得a=1.040,b=0.485,由第二个方程组解得a=0.900,b=0.520。可见,不同的组合可以解出不同的a,b值,这一矛盾是由于测量中存在不可避免的误差,未知量a,b无论取何值都不会使以上两种方程两边都相等。但是可以利用最小二乘法原理求得a,b的最佳值,使y=a+bx与各组数据拟合得最好。7解:依题意,实验次数n=5,y~x为一元线性关系y=a+bx。根据最小二乘法原理,有:ixiyixi2yi2xiyi122.0144.044.02242.98168.8811.92353.502512.2517.50485.026425.2040.16595.078125.7045.63
2818.5819076.07119.23解得a=1.155,b=0.4573。因此关系式为:y=1.155+0.4573x。8如果用简化算法,则有:故关系式为:y=1.155+0.4573x,即两种计算方法结果是一致的。可见,根据实验数据建立回归方程,可采用最小二乘法,基本步骤为:①根据实验数据画出散点图;②确定经验公式的函数类型;③通过最小二乘法得到正规方程组;④求解正规方程组,得到回归方程的表达式。其实①②两点正是第9章建立数学模型的过程,所以建立数学模型是回归分析的前提。9在一些情况下,对实验值
(xi,yi)(i=1,2,…,n)作出的散点图,即使一看就知道这些点不可能近似在一条直线附近,即x与y不存在线性相关关系,但是仍可以利用最小二乘法求得x与y的线性拟合方程
=a+bxi,这样求得的方程显然没有意义。因此,我们不仅要建立从经验上认为有意义的方程,还要对其可信性或拟合效果进行检验或衡量。下面介绍几种检验方法。
(1)相关系数检验法相关系数是用于描述变量x与y的线性相关程度的,常用r来表示。设有n对实验值(xi,yi)(i=1,2,…,n),则相关系数的计算式为:10.2.2一元线性回归效果的检验10比较回归系数b与相关系数r的计算式,可得:所以r与b有相同的符号。11相关系数r具有以下特点:①|r|≤1;②如果|r|=1,则表明x与y完全线性相关,这时x与y有精确的线性关系,见图10-2(a)(c);③大多数情况下0<|r|<1,即x与y之间存在着一定的线性关系。当r>0时,称x与y正线性相关,见图10-2(b),这时直线的斜率为正值,y随着x的增加而增加。当r<0时,称x与y负线性相关,见图10-2(d),这时直线的斜率为负值,x随y的增加而减小;④r=0时,则表明x与y没有线性关系,图10-2(e)(f),但并不意味着x与y之间不存在其他类型的关系,所以相关系数更精确的说法应该是线性相关系数。12从上面的分析可知,相关系数r越接近1,x与y的线性相关程度越高,然而r的大小未能回答其值达到多大时,x与y之间才存在线性相关,采用线性关系才属合理,所以须对相关系数r进行显著性检验。对于给定的显著性水平α,显著性检验要求|r|>r
,f
时,才说明x与y之间存在密切的线性关系,或者说用线性回归方程来描述变量x与y之间的关系才有意义,否则线性相关不显著,应改用其他形式的回归方程。*r
,f
称为相关系数临界值,可从附录7查得。*此处自由度f=n-2,n为实验数据组数,2为变量数目。13
[例10-2]试用相关系数检验法对例10-l中得到的经验公式进行显著性检验(α=0.05)。解:当α=0.05,n=5时,查得相关系数临界值r0.05,3=0.8783。所以r>r
,f,所得的经验公式有意义。14应当指出的是,相关系数r有一个明显的缺点:即它接近于1的程度与实验数据组数n有关。当n较小时,|r|容易接近于1;当n较大时,|r|容易偏小。特别是当n=2时,因两点确定一条直线,|r|总等于1。所以,只有当实验次数n较多时,才能得出真正有实际意义的回归方程。(2)F检验F检验实际上就是方差分析,包括以下主要内容。①偏差平方和
Q总=实验值yi的这种波动是由两个因素造成的:一个是由于x的变化而引起y相应的变化,
Q回
=
Q剩
=显然,存在以下关系:Q总=Q回+Q剩
15Q回
===②自由度f总=n-1f回=1f剩=n-2三种自由度之间的关系为:f总=f回+f剩16③均方差S回=Q回/f回
S剩=Q剩/f剩
④F检验F=S回/S剩
若F<F0.05(1,n-2),则称x与y没有明显的线性关系,回归方程不可信。若F0.05(1,n-2)<F<F0.01(1,n-2),则称x与y有显著的线性关系,用“*”表示。若F>F0.01(1,n-2),则称x与y有十分显著的线性关系,用“**”表示。方差来源偏差平方和自由度方差F值F临界值显著性回归Q回1S回F=S回/S剩F
(1,n-2)剩余Q剩n-2S剩总和Q总n-117[例10-3]试用F检验法对例10-1中得到的经验公式进行显著性检验。解:根据例10-l和例10-2知:Lxy=15.182,Lxx=33.2,Lyy=7.033,b=0.4573,故Q总=Lyy=7.033Q回=bLxy=0.4573×15.182=6.943Q剩=Q总-Q回=7.033-6.943=0.090列出方差分析表,如表10-4。所以,例10-1建立的回归方程具有十分显著的线性关系。方差来源偏差平方和自由度方差F值F0.01(1,
3)显著性回归6.94316.943231.434.1**剩余0.09030.030总和7.03341810.3多元线性回归分析10.3.1多元线性回归方程
y=f(x1,x2,…,xm)。若因变量y与自变量xj(j=l,2,…,m)之间的近似函数关系式为:q=1920如果令则21[例10-4]在某化合物的合成实验中,为了提高产量,选取原料配比(x1)、溶剂量(x2)和反应时间(x3)三个因素,实验结果如表10-6所示。试用线性回归模型来拟合实验数据。实验号配比(x1)溶剂量(x2)反应时间(x3)收率(y)11.0131.50.33021.4193.00.33631.8251.00.29442.2102.50.47652.6160.50.20963.0222.00.45173.4283.50.482例10-4数据22解:依题意,实验次数n=7,因素数m=3。本例要求用最小二乘法求出三元线性回归方程y=a+b1x1+b2x2+b3x3中的系数a,b1,b2,b3。正规方程组为:解得:a=0.197,b1=0.0455,b2=-0.00377,b3=0.0715于是,三元线性回归方程为:
y=0.197+0.0455x1-0.00377x2+0.0715x3但是,上述回归方程是否有意义,还需进行显著性检验。23(1)F检验法
Q总=Q回=Q剩=
=Q总-Q回
表10-8多元线性回归方差分析表方差来源偏差平方和自由度方差F值F
(m,n-m-1)显著性回归Q回mS回=Q回/mF=S回/S剩剩余Q剩n-m-1S剩=Q剩/(n-m-1)总和Q总n-110.3.2多元线性回归方程显著性检验24表10-8中的F服从自由度为(m,n-m-1)的分布,在给定的显著性水平α下,从F分布表(附录5)中查得F
(m,n-m-1)。若F<F0.05(m,n-m-1),则称y与x1,x2,…,xm间没有明显的线性关系,回归方程不可信;若F0.05(m,n-m-1)<F<F0.01(m,n-m-1),则称y与x1,x2,…,xm间有显著的线性关系,用“*”表示;若F>F0.01(m,n-m-1),则称y与x1,x2,…,xm间有十分显著的线性关系,用“**”表示。(2)相关系数检验法类似于一元线性回归的相关系数r,在多元线性回归分析中,复相关系数R反映了一个变量y与多个变量xj(j=1,2,…,m)之间的线性相关程度。复相关系数的定义式为:25复相关系数的平方称为多元线性回归方程的决定系数,用R2表示。决定系数的大小反映了回归平方和Q回在总偏差平方和Q总中所占的比重,即:
复相关系数一般取正值。显然,0≤R≤1。
当R=1时,表明y与变量x1,x2,…,xm之间存在严格的线性关系。
当R=0时,则表明y与变量x1,x2,…,xm之间不存在任何线性相关关系,但可能存在其它非线性关系。
当0<R<1时,表明变量之间存在一定程度的线性相关关系。
可以证明,当m=1,即一元线性回归时,复相关系数R与一元线性相关系数r是相等的。
对于给定的显著性水平α,显著性检验要求R>R
,(m,n-m-1)
时,才说明y与x1,x2,…,xm之间存在密切的线性关系,或者说用线性回归方程来描述变量y与x1,x2,…,xm之间的关系才有意义,否则线性相关不显著,应改用其它形式的回归方程。其中R,(m,n-m-1)称为复相关系数临界值,可从附录8查得。26
[例10-5]试检验例10-4中线性回归方程的显著性(α=0.05)。解:①F检验方差来源偏差平方和自由度方差F值F0.05(3,3)显著性回归0.046330.01542.549.28-剩余0.018230.00607总和0.06456从表10-9可以看出,例10-4中所建立的线性回归方程不显著,即产品收率与所讨论的三个因素之间没有显著的线性关系,故应改变y与xj之间的数学模型。27②复相关系数检验由于Q总=0.0645,Q回=0.0463,所以:对于给定的显著性水平α=0.05,自变量个数m=3,实验次数n=7时,查附录8得对应的临界值R
,(m,n-m-1)=R0.05,(3,3)=0.950,所以例10-4所建立的线性回归方程与实验数据拟合得不好,这与F检验的结论是一致的。2810.4非线性回归分析○在实际问题中,变量之间的关系常常是非线性的。由于非线性关系的函数表达形式很多,因此求取数模的方法就有许多种。○在第9章由实验数据求数模的分析中,曾讨论了一元n次多项式数模的差分法以及求非线性数模的直线变换法。
任何连续函数都可用适当的高阶多项式任意逼近,这是数学上已被证明了的结论。因此,对于那些较难直线化的一元函数,可用m次多项式来拟合如果令X1=x,X2=x2,…,Xm=xm,则上式可以转化为多元线性方程:这样就可以用多元线性回归分析求出系数a,b1,b2,…,bm。虽然多项式的阶数越高,回归方程与实际数据的拟合程度越高,但阶数越高,回归计算过程中的舍入误差的积累也越大,所以当阶数m过高时,回归方程的精度反而会降低,甚至得不到合理的结果,故一般取m=3~4。○下面补充介绍,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年影视制作与投资合同
- 2024年加工承揽合同详解
- 2024年度建筑项目工程验收合同
- 2024年快速国际快递服务合同
- 2024年店铺股权变更合同样本
- 2024丙方提供环保设备维修服务合同
- 2024年式样的楼顶广告牌租赁合同
- 2024年快递与配送服务合同
- 2024年土地使用权转让合同(乡村住宅区)
- 年度高强度及低松驰预应力钢绞线战略市场规划报告
- (零模)徐州市2024~2025学年上学期高三期中考试 英语试卷(含答案)
- 动脉瘤栓塞术术后护理
- 四川公安基础知识模拟5
- 2024年全新公司股权期权协议书
- 口腔牙科诊所技工室工作制度
- 英语KET官方样题Test1- Test 2
- 财务管理考试试题及答案
- 【课件】第七单元能源的合理利用与开发新版教材单元分析-九年级化学人教版(2024)上册
- 2024年认证行业法律法规及认证基础知识 CCAA年度确认 试题与答案
- 水库除险加固工程实施方案
- 5.1平行与垂直(进阶练习)2024-2025学年人教版数学四年级上册
评论
0/150
提交评论