线性代数模型的回归分析_第1页
线性代数模型的回归分析_第2页
线性代数模型的回归分析_第3页
线性代数模型的回归分析_第4页
线性代数模型的回归分析_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第九章 线性代数模型的回归分析,在生产、科研和试验过程中,总涉及到许多因素或变量,这些变量之间相互联系和相互制约,在一定的条件下可以相互转化。为了了解和掌握这些关系,往往需要找出表示这些变量间内在关系的定量表达式,前几章讨论了最小二乘法求表达式模型的方法,本章的回归分析就是用数理统计方法处理变量相关关系。一般变量之间的关系有两种类型:确定性关系和相关关系。 若两个变量具有确定性关系,是指可以唯一地由一个量来确定另一个量。在数学分析中以完全确定的函数关系为研究对象。如匀速运动中,路程S和时间t的关系为: S=vt 所谓相关关系是指两个或两个以上的变量间,当一个量唯一地确定后,另一个量并不唯一确定

2、,但它又不是毫无规律地任意取值,而是按一定的概率分布取各种可能值,当其中的一个变量改变时,另一个的分布也按一定的规律改变。,确定性关系与相关关系之间并无严格的界限,在许多实际问题中,由于变量间的复杂性,或由于测试过程中的误差,致使变量间的关系具有不确定性。另一方面,当掌握了其内部规律后,相关关系又可能转化为确定性关系。 在实际应用中,人们为了方便往往把容易控制或测量的量,当作确定性的自变量,而把不易控制或测量的量当作随机性的因变量。,自变量和因变量按其确定性划分为三类; 1两者都是确定性变量; 2两者都是随机性变量; 3一个是确定性的,而另一个是随机性的变量。 第一种情况属于数学分析中研究的对

3、象。 第二、三种情况则统称为回归分析或相关分析。 回归分析研究的数学模型是线性模型与多项式回归模型,以及可以化为线性的模型。回归分析在生产中也得到广泛地应用。如在煤加工过程中,煤焦油产率x,粗苯产率y和焦炉煤气产率Z均取决于装炉煤的种类和其干燥无灰基挥发份Vdaf的含量,统计模型为:,与其类似的应用如焦炭中灰份,硫份的含量同煤中灰份、硫份含量呈一元线性关系。,Ad煤=KA焦十b Sd煤=K/s焦b/,用于生产控制的还有;,式中G一粘结指数;Vdaf挥发价:M40和M10分别表示焦,炭的两种强度指标。,以上都是从大量生产数据中统计回归得到的。回归分析主要解决以下几个方面的问题: 1研究并确定几个

4、特征变量间有无相关关系,如果是相关的,则求出相关关系的模型表达式。 2对找出的相关关系进行统计检验,以确定此关系的相关程度; 3从诸多因素中寻找主要影响因素和次要影响因素; 4利用所求的关系,进行预测或预报等。,92一元线性回归分析,一元回归线性分析是回归分析中最简单的一种,它研究的对象是两个变量(x,y)之间的相关关系。其数学模型为:,其中a、b为模型参数,待定。,921回归模型的求解,一元回归分析模型参数的求解是通过n对实验数据(xi,yi)(i=1,2,n),依照最小二乘法原理求解模型中的定系数。,已知n对实验数据(xi,yi)(i1,2,n),假设变量xi,yi之间存在线性关系,则描述

5、 yi=a+bxi+i 其中i是测试样本的误差。 根据一元线性模型,回归值,的偏离程度。,对所有的xi而言,i的愈小愈好。或对下式:,取极小值。,根据最小二乘法的求极小值原理:,解其正规方程得:,式中,定义,称为x的平方和,则上式又可写为:,称为xy的交叉平方和,确定a、b参数后 确定。其置信区间可用T分布建立,,9.2.2 回归方程的显著性检验,如果当x与y之间没有函数关系而有相关关系时,用所有测得的y值中最优概值代替。这些y值分布得越“紧密”,它们越接近于最优概值,x与y的关系也就越确定,表征这种确定程度称之为显著性检验。 由于误差或变量波动所引起的总的差异,叫作离差平方和。,可以证明,L

6、yy= Q+U U是由于x的变化而引起的,称为回归平方和。,Q是总离差平方和中,除掉回归平方和后的剩余部分,叫做剩余平方和。为误差等因素引起的y值波动。,一般定义回归平方和U在总离差平方和Lyy中所占的比例为x、y两个变量间线性关系的相关程度。,称做线性回归方程的相关系数。,相关系数R是绝对值介于01之间的无量纲数。,|R|=1时,表示两个变量间有确定性的线性函数关系。,|R|=0时,表示两个变量间无线性关系。一般没有关系,二是有非线性关系。 应该指出R往往并不完全说明x与y间线性关系的接近程度。使相关系数R达到显著的值与抽样个数n有关。 附录I给出了不同的n值,在两种信度 (0.05及0.0

7、1)上相关系数达到显著的最小值,超过此值时,就说x与y的相关关系在(1)置信度上显著。(1)愈大,显著程度愈高。 相反,计算的R值如果小于查表值,则说明x与y间不存在线性关系。,一元回归线性回归方程的方差检验,用统计检验中的F检验对回归方程进行显著性检验的方法称为方差分析,即是对回归模型所揭示规律的强弱检验。定义,式中,称为回归平方和,称为剩余平方和,统计量F服从自由度为1和n一2的F分布。若给定显著水平,查分布表(附录IV),可得到F(l,n2)的数值。 若FF (1,n2)则说明该线性日归方程显著。 若 FF ( 1, n 2)则说明该线性回归方程不显著。 F检验中剩余平方和除以它的自由度

8、n2所得的商,称为剩余均方差,它是衡量当x固定时,y随机波动大小的一个估计量,即回归线预报的精度。 计算时,常取剩余均方根表示精度。上述S值愈小,回归预报y值就愈精确。,若经检验,回归不显著,则应查明原因。一般由下列原因造成: 1、除x外,还有其它因素影响y取值 2、X与y可能存在非线性关系 3、X与y可能不存在关系 继续工作步骤: 对于原因1,分析可能的其它因素,建立多元回归方程或逐步回归方程,再进行检验。 对于原因2,由实验数据作出实验曲线,分析其可能的数学模型,进行变量代换,化为一元线性回归问题。 进行上述分析仍不能解决问题,说明X与y不存在关系,放弃回归方程。,96回归分析的预报与控制

9、,在应用二变量之间的回归方程时,我们自然关心其可靠性与产生的误差范围。(回归方程建立时,并非100有确定关系)即对于给定的x,应用回归方程计算的y值落在什么范围。或希望y值落在一定范围时,将x值控制在什么范围才能达到目的。用统计语言叙述: 回归模型的预报是指在一定的置信度(1)下,有一个正数,使得实际观测值y0以(1-)的概率落在区间(,这个区间称为 y0的置信区间,又称为 y0的预报区间。 数理统计中可以证明:,即y0的预报区间为,当n,给定时,与x0取值有关,为x0的函数。X0越接近x的平均值, 越小,预测越精密。二条曲线,形成一含有回归直线的喇叭形带,且在x等于其平均值处最窄。称为预报线

10、。 说明在应用回归方程时, x0在其平均值附近,yo预测精度最高,误差最小。,实际回归问题中,一般n很大,且x0离其平均值不很远时,y0的95%置信区间近似为,而y0的置信度为99的预报区间近似为,预报线也简化为二条直线。,回归模型的控制问题实际是预报的反问题。即要求实际测量值y以不小于(1一)的概率在区间(y1,y2)内,自变量x应控制在什么范围内。 根据,,或,解不等式,得到的 x 值即为控制的上下限。也可由回归式解出x值。,置信度为95%时,,置信度为99%时,,将 代入上述方程后,x的解。,例:通过某产品表面腐蚀刻线实验,得到腐蚀时间与腐蚀深度的一组数据: X(秒) 5 10 20 1

11、5 30 40 50 60 70 90 120 Y(um) 6 10 10 13 16 17 19 23 25 29 46 预测腐蚀时间为75秒时,腐蚀深度范围。(取0.05) 要求腐蚀深度在1020um之间时,腐蚀时间应如何控制。 解:1、确定回归方程为:y=0.304x+5.344 2、显著性检验:r=0.96 R0=0.553 , F1,9=242.85Fa=5.12 说明回归方程有效。 3、将腐蚀时间75秒(x0)代入回归方程,计算得到腐蚀深度 y0=0.30475+5.334=28.134 4、预报问题: 因1 0.95, 为简化计算,用故 S=2.236, y1=28.134 -

12、4.472=23.662 y2=28.134 + 4.472=32.606 因此腐蚀时间为75秒时,腐蚀深度范围在23 um与32 um之间。 5、控制问题:由 y=0.304x+5.344可知,x= 3.289y+17.546 当y1=10时,x= 3.28910+17.54650.4 当y2=20时,x= 3.28920+17.54683.3 即要求腐蚀深度在1020um之间时,腐蚀时间应控制在5083秒之间。 应用EXCAL计算时,还给出了更多的统计信息。如当取0.05时,回归方程x系数的置信区间为:0.26-0.349,截距的置信区间为:2.791-7.898。回归平方和,残差平方和等

13、,951可化为线性回归的非线性相关模型,在讨论曲线模型选择时,能够用直线法求参数的值,同样可以用回归分析方法估计参数的值。面列举一些模型的实例。 化工中求反应过程的指前因子和活化能时,已知速率常数,求k0、E的一般方法是将上述模型直线化:,以,作为回归分析的二个变量,则k0、E就是回归模型中的参数。,即上式转化为:y=ax+b 用一元回归求出a、b的参数估计值,进一步求出E、k0的值。与之类型相类似的模型如: 指数模型,y=abx,对数模型,y=AInx,幂函数y=axb等。均可按照配直线化方法, 将上述模型化为一元或二元线性回归分析。因此,上述问题的实质仍是线性回归分析问题。,93二元线性回

14、归分析,在大多数的实际问题中影响因变量的因素常常不止一个。寻求两个自变量与因变量之间存在着的相关关系或回归模型方程式,称二元回归分析。 931二元回归的数学模型及多数估计 二元回归方程的数学模型是,式中,称为回归系数。由以下方法估计。 设有m对实验数据,;假定它们之间存在着线性相关关系,式中i是m个相互独立,且服从N(0,2)正态分布的随机变量。 如果将回归模型同线性相关关系比较,即有,根据最小二乘法,构筑函数,并令Q取极小值,则:,求偏导后,解此正规方程即得到,9.3.2 二元回归方程的显著性检验,对回归效果的检验,一方面通过实验检验,另一方面由计算回归方程的全相关系数R值及剩余标准差S值来检验。,全相关系数,式中,称回归平方和。,称总的离差平方和。,如果R值愈接近1,则表明y与x1,x2之间的线性相关程度愈大。,剩余标准离差(S)值,,称剩余平方和 n自变量个数,二元回归中n=2; 用 S表示方程的精度,S愈小,精度愈高。,933二元回归系数的显著性检验,在二元回归模型中,不仅要知道回归方程是否显著,而且要知道在x1;,x2两个因素中,何者对y的影响最显著,以便剔除那些次要的,可有可无的变量,建立更简单的回归方程

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论