第九章--线性回归与方差分析_第1页
第九章--线性回归与方差分析_第2页
第九章--线性回归与方差分析_第3页
第九章--线性回归与方差分析_第4页
第九章--线性回归与方差分析_第5页
已阅读5页,还剩107页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第九章线性回归分析与方差分析,第一节一元线性回归分析第二节可线性化的非线性回归第三节多元线性回归简介第四节方差分析,第一节一元线性回归分析,在许多实际问题中,我们常常需要研究多个变量之间的相互关系。一般来说,变量之间的关系可分为两类:一类是确定性关系,确定性关系是指变量之间的关系可以用函数关系来表达,例如电流I电压V电阻R之间有关系式V=IR。另一类是非确定性关系,有些变量之间的关系是非确定性的关系,这种关系无法用一个精确的函数式来表示。,例如,农作物的单位面积产量与施肥量之间有密切的关系,但是不能由施肥量精确知道单位面积产量,这是因为单位面积产量还受到许多其他因素及一些无法控制的随机因素的影响。又如,人的身高与体重之间存在一种关系,一般来说,人身高越高,体重越大,但同样高度的人,体重却往往不同。这种变量之间的不确定性关系称之为相关关系。,对于具有相关关系的变量,虽然不能找到他们之间的确定表达式,但是通过大量的观测数据,可以发现他们之间存在一定的统计规律,数理统计中研究变量之间相关关系的一种有效方法就是回归分析。,一、一元线性回归模型,其中yi是x=xi时随机变量Y的观测结果.将n对观测结果(xi,yi)(i=1,n)在直角坐标系中进行描点,这种描点图称为散点图.散点图可以帮助我们精略地看出Y与x之间的某种关系.,假定我们要考虑自变量x与因变量Y之间的相关关系,假设x为可以控制或可以精确观察的变量,即x为普通的变量。由于自变量x给定后,因变量Y并不能确定,从而Y是一个与x有关的随机变量,我们对于可控制变量x取定一组不完全相同的值x1,xn,作n次独立试验,得到n对观测结果:,(x1,y1),(x2,y2),(xn,yn),例1对某广告公司为了研究某一类产品的广告费用x与其销售额Y之间的关系,对多个厂家进行调查,获得如下数据,广告费与销售额之间不可能存在一个明确的函数关系,事实上,即使不同的厂家投入了相同的广告费,其销售额也不会是完全相同的。影响销售额的因素是多种多样的,除了广告投入的影响,还与厂家产品的特色、定价、销售渠道、售后服务以及其他一些偶然因素有关。,画出散点图如图9-1所示.从图中可以看出,随着广告投入费x的增加,销售额Y基本上也呈上升趋势,图中的点大致分布在一条向右上方延伸的直线附近.但各点不完全在一条直线上,这是由于Y还受到其他一些随机因素的影响.,图9-1,一般地,假设x与Y之间的相关关系可表示为,(1),其中:a,b为未知常数,x与Y的这种关系称为一元线性回归模型,y=a+bx称为回归直线b称为回归系数,此时,对于(x,Y)的样本(x1,y1),(xn,yn)有:,一元线性回归主要解决下列一些问题:(1)利用样本对未知参数a、b、进行估计;(2)对回归模型作显著性检验;(3)当x=x0时对Y的取值作预测,即对Y作区间估计.,如果由样本得到式(1)中,a,b的估计值,则称为拟合直线或经验回归直线,它可作为回归直线的估计,二、参数a、b、的估计,最小二乘法就是选择a,b的估计,使得Q(a,b)为最小(图9-2),现在我们用最小二乘法来估计模型(1)中的未知参数a,b.,记,称Q(a,b)为偏差平方和,图9-2,为了求Q(a,b)的最小值,分别求Q关于a,b的偏导数,并令它们等于零:,经整理后得到,式(2)称为正规方程组.,(2),由正规方程组解得,其中,用最小二乘法求出的估计、分别称为a、b的最小二乘估计,此时,拟合直线为,拟合直线也称为y关于x的经验回归方程、有时也称为y关于x的一元线性回归方程,为了计算上的方便,引入下述记号:,这样a,b的估计值可写成,由矩估计法,可用估计,下面再用矩法求的估计,由于,为了计算Qe,将Qe作如下分解:,可以证明,作为统计量的残差平方和Qe服从分布,即知E(Qe/(n-2)=s2.这样就得到了s2的无偏估计量:,对于估计量、的分布,有:,定理1,(1),(2),(3),在例1中可分别求出a、b、的估计值为:,故经验回归直线为:,Y=4.37+0.323x,例2就例1试求出y关于x的一元线性回归方程及的估计,例2(续例1)求Y关于x的线性回归方程.解现在n=9,所需计算列表如下表,于是得到回归直线方程,补充例题为研究某一化学反应过程中,温度x(C)对产品得率Y(%)的影响,测得数据如下.求y关于x的一元线性回归方程.,解现在n=10,所需计算列表如下表,于是得到回归直线方程,下面求s2的无偏估计.解由上表得,三、线性回归的显著性检验,在实际问题中,事先我们并不能断定Y与x确有线性关系,Y=a+bx+只是一种假设.,下面说明这一检验的方法.,当然,这个假设不是没有根据的,我们可以通过专业知识和散点图来作出粗略判断.,但在求出经验回归方程后,还需对这种线性回归方程同实际观测数据拟合的效果进行检验.,若假设Y=a+bx+符合实际,则b不应为零,所以Y=a+bx是否合理,归结为对假设:,H0:b=0,进行检验,下面介绍检验假设H0的二种常用方法.,且与独立,1t检验法,若H0成立,即b=0,由定理7.1知,,因而,即得H0的拒绝域为,2相关系数检验法,取检验统计量,通常称R为样本相关系数.,类似于随机变量间的相关系数,R的取值r反映了自变量x与因变量Y之间的线性相关关系.,其中临界值在附表8中给出,(1)x对Y没有显著影响;(2)x对Y有显著影响,但这种影响不能用线性相关关系来描述;(3)影响Y取值的,除x外,另有其他不可忽略的因素.,当假设被拒绝时,就认为Y与x存在线性关系,从而认为回归效果显著;,若接受H0,则认为Y与x的关系不能用一元线性回归模型来描述,即回归效果不显著.,此时,可能有如下几种情形:,因此,在接受H0的同时,需要进一步查明原因分别处理,此时,专业知识往往起着重要作用.,四、预测,当经过检验发现回归效果显著时,通过回归模型可对Y的取值进行预测.,即当x=x0时,对Y作区间估计.,设当x=x0时Y的取值为y0,有,可以取经验回归值,作为y0的预测值.可以证明,从而可得,所以,给定置信概率,Y0的置信区间为,其中,可以看出在x0处y的置信区间的长度为,当时置信区间的长度最短,估计最精确,置信区间愈长,估计的精度愈差。,当n很大且x0位于附近时,有,于是y0的置信概率为的预测区间近似为,例3检验例2中的回归效果是否显著,当x0=80时,求出Y0的预测区间。,解经计算T=16.9r=0.98,查表,得,t0.025(9)=2.26r0.05=0.602,易见,t检验法、相关系数检验法都拒绝H0,即回归效果显著。,于是,当x0=80时,y0的预测值为,y0的95%的预测区间为(24.73,35.69),第二节可线性化的非线性回归,在实际问题中,常常会遇到这样的情形:散点图上的几个样本数据点明显地不在一条直线附近,而在某曲线周围:,或者,用线性回归方程描述变量间的关系计算的结果与样本值误差较大,这表明变量之间不存在线性相关关系,而是一种非线性的相关关系.,下面举例说明对这类问题用线性化处理的方法。,例1在彩色显像技术中,考虑析出银的光学密度x与形成染料光学密度Y之间的相关关系,其中11个样本数据如下所示:,解根据这11个样本数据点(xi,yi)作出散点图(图9-3).,图9-3,从散点图上看出,这些数据点在一条曲线L周围.,根据有关的专业知识,结合散点图,可以认为曲线L大致为:,对上式两边取对数:,令,即有:,于是数据()相应地变换成(),将变换后的数据点()画出散点图(图9-4),从散点图可以看出与具有线性相关关系,因此用一元线性回归分析.,利用一元线性回归的方法可以计算出与的经验回归方程为,图9-4,可求得x与y之间相关关系的一个经验公式:,这里a=0.58,b=-0.15,所以,解根据记录数据点(xi,ti)作出散点图(图9-5),图9-5,从散点图上看出,全部点(xi,ti)分布在一条曲线附近,因而x与t之间可以存在一种线性关系。,我们用一无线性回归分析,可计算出x与t间的线性回归模型为t=-99.9+0.1455x,由此模型,当x=100,200,400,800,1000,1500(米)时,,t的理论值分别为:,4.56,19.10,48.20,146.4,215.5,328.2,可以看出t的理论值与实际记录数据多数都比较接近。,仔细分析,可发现线性回归模型的一些不合理之处。,如:当赛跑距离小于68米时,所需时间为负值;,当赛跑距离为100米时所需时间只须4.56.,再仔细分析,发现:短距离100米、200米及长距离1500米需要的时间实际值均高于线性模型的理论值,而中间的400米、800米、1000米需要的时间实际值均低于线性模型的理论值.,它告诉我们x与t的关系可能为一曲线,且曲线是下凸的。具有这种性质的最简单曲线当属幂函数:t=axb,它告诉我们x与t的关系可能为一曲线,且曲线是下凸的。,对上式二边取对数,lnt=lna+blnx,具有这种性质的最简单曲线当属幂函数:,t=axb,用一元线性回归分析估计a、b,从而算出,最后可得t与x间的幂函数模型:,t=0.48x1.145,当x=100,200,400,800,1000,1500(米)时,,利用幂函数模型算出t的理论值分别为:,9.39,20.78,45.96,141.68,211.29,328.88,比较计算结果可知:幂函数模型比线性回归模型更能确切地反映t与x间的关系。,第三节多元线性回归简介,其中b0,b1,bp,为与x1,xp无关的未知参数。,假定要考察p个自变量x1,x2,xp与因变量Y之间的相关关系。,设,这就是p元线性回归模型,对变量x1,xp,Y作n次观测得到样本值:,()i=1,,n,这里y1,yn独立、同分布,且有,为了简化数学处理,引进矩阵表示,记,则等式,i=1,,n,可表示为,用最小二乘法求未知参数的估计,即参数,应使,为最小,根据高等数学中求最小值的方法,可求得b0,b1,bp的估计:,从而得到Y与x1,xp的经验回归方程:,类似于一元线性回归,多元线性回归模型的假设是否符合实际,同时需要进行假设检验。,另外,在实际问题中,影响因变量Y的因素往往很多.如果将它们都取作自变量,必然会导致所得到的回归方程很复杂。,因而,我们应剔除那些对Y影响较小的自变量,保留对Y有显著影响的自变量,以便我们对变量间的相关变化有更明确的认识。,在此我们对多元性回归分析作一简单介绍.在实际问题中多元线性回归的应用非常广泛,有兴趣的读者可以查阅有关的专门书籍。,习题91、2、3,1在一元线性回归模型中,试证:未知参数a、b的最小二乘估计恰是极大似然估计.2通过原点的一元线性回归模型为试由独立样本观测值(xi,yi)(i=1,2,n),采用最小二乘法估计b.,3为了研究钢线含碳量(单位:%)x对于电阻(单位:微欧)Y在20下的效应,作了7次试验,得数据如下:画出散点图;求出经验回归方程;试求相关系数R的值,并在显著性水平下检验。,4某种产品在生产时产生的有害物质的重量(单位:克)Y与它的燃料消耗量(单位:千克)x之间存在某种相关关系。由以往的生产记录得到如下数据。求经验回归方程;试进行线性回归的显著性检验();试求x0=340时Y0的预测区间()。,5气体的体积(单位:立方米)v在压力(单位:标准大气压)p之间的一般关系为pvk=c.今对某种气体测试到下列数据:试对参数k,c进行估计.,6今有4个物体,按下述方法称重,得到如下数据:其中1表示该物体放在天平左端,-1表示该物体放在天平右端,Y是使天平达到平衡时,在天平右端所加砝码的重量。试用最小二乘法估计这4个物体的重量。,第四节方差分析,一、单因素方差分析,在实际问题中,影响一事物的因素往往是很多的。例如,在化工生产中,有原料成分、原料剂量、催化剂、反应温度、压力、反映时间等因素,每一因素的改变都有可能影响产品的质量。有些因素影响较大,有些影响较小.方差分析就是根据试验的结果进行分析,鉴别各有关因素对试验结果影响的有效方法。,在试验中,将要考察的指标称为试验指标,影响试验指标的条件称为因素,因素所处的状态称为该因素的水平,如果试验仅考虑一个因素,则称为单因素试验,否则称为多因素试验.,我们先讨论单因素试验,例1某消防队要考察4种不同型号冒烟报警器的反应时间(单位:秒)。今将每种型号的报警器5个安装在同一条烟道中,当烟量均匀时观测报警器的反应时间,得数据如下:,这里,试验的指标是报警器的反应时间,报警器为因素。,4种不同型号的报警器是因素的4个不同水平。这是一个单因素试验.,我们要考察:,各种型号的报警器的反应时间有无显著性差异?,如果各种型号的报警器的反应时间有显著性差异,那么何种型号的报警器最优?,上表中数据可看作来自4个不同总体(每个水平对应一个总体)的样本值,将各个总体均值依记为,则各型号报警器的反应时间有无显著性差异的问题相当于需检验假设,不全相等。,若再假定各总体均值为正态总体,且各总体方差相等,,那么这是一个检验同方差的多个正态总体均值是否相等的问题。,显然,检验假设H0可以用前面所讲的t检验法,只要检验任何二个总体均值相等就可以了。,下面所要讨论的方差分析法就是解决这类问题的一种检验方法。,但是这样做要检验3次,比较繁琐.,设影响指标值的因素A有s个水平A1,A2,As,在水平Ai(i=1,s)下,进行次独立试验,得样本Xij,j=1,ni:,假定水平Ai下的样本来自正态总体,未知,且不同水平Ai下的样本独立,记,Xij相互独立,于是,为随机误差,由假设,在方差分析中,为了便于推广到多因素试验的情形,习惯上又有下列表示式:,j=1,,nii=1,s,其中,称为总平均,现在,要检验,等价于检验,不全为零,下面从平方和的分解着手,导出上述假设H0的检验方案,记,ST能反映全部试验数据之间的差异,因此称ST为总偏差平方和,由于,于是有平方和分解式:,ST=SE+SA,其中,称SE为误差平方和,SA为因素A的平方和,SE反映了各水平Ai内由于随机误差而引起的抽样误差,SA反映了因素A的水平不同而引起的误差外加随机误差,定理1,(1),(2)SE与ST相互独立;,(3)当时,。,为了检验,取,FF(s-1,n-s),当H0成立时,由定理1,,直观上,当H0成立时,由因素水平的不同引起的偏差相对于随机误差而言可以忽略不计,即F的值应较小;反之,若F值较大,自然认为H0不成立。,若检验结果认为假设H0不成立,则可用作为的点估计,或者对进行区间估计。,由,得到:在显著性水平下H0的拒绝域:,计算F的值可用表9-1所示的方差分析表,表9-1单因素方差方析表,在,实,际,中,,,我,们,可,以,按,以,下,较,简,的,公,式,来,计,算,综上所述,得出单因素方差分析要进行的检验步骤归纳如下:,补充例题:设有三台机器,生产规格相同的铝合金薄板.取样,测量薄板的厚度得结果如下表所示:,试考察各台机器所生产的的薄板的厚度有无显著的差异?,(5)方差分析表,在实际应用中,一般在下若仍不能拒绝H0时则接受原假设H0,例2在例1中,s=4,n1=n2=n3=n4=5,n=20,经计算列方差分析表如下:,查表,得,F0.10(3.16)=2.46,F0.05(3.16)=3.24,由方差分析可知,4种型号的报警器的反应时间确有显著性差异,计算:,故,即反应时间较短的是甲,丙次之,二、双因素方差分析,。,假定要考察两个因素A、B对某项指标值的影响,因素A取s个水平A1,A2,As,因素B取r个水平B1,B2,Br,在A、B的每对组合水平(Ai,Bj)上作一次试验,,试验结果为Xij,i=1,s;j=1,r。,所有Xij独立,数据列于下表:,其中,要考察因素A、B是否指标值产生显著性影响?,设,则有,为随机误差,且,相互独立i=1,sj=1,,r,再假定在水平组合(Ai,Bj)下的效应可以用水平Ai下的效应(记为)与水平Bj下的效应(记为)之和来表示,,即,其中,作假设,如果H01成立,那么与i无关,这表明因素A对指标值无显著影响,同样,作假设,如果H02成立,则与i无关,这表明因素B对指标值无显著影响,类似于单因素方差分析,通过下面的平方和分解式可以检验假设H01,H02,记,通过简单推导可以证明下列平方和分解式:,SA是由因素A的不同效应和引起的偏差,SB是由因素B的不同效应和引起的偏差,而SE表示由引起的偏差,因此,可用比较SA与SE的值来检验假设H01,用比较SB与SE的值来检验假设H02,定理2,(1)ST,SA,SB相互独立,且,(2)当H01成立时,,(3)当H01成立时,,由定理2,于是有,所以H01的拒绝域为,为显著性水平,类似地,可给出H02的拒绝域:,其中,表9-2双因素方差分析表,解由题意,影响定强这一指标值的因素有二个:促进剂A、氧化剂B,s=4,r=3,列出如下的方差分析表:,比较可知FA5.14FB4.76,所以不同促进剂和氧化锌的不同份量对橡胶定强都有显著影响,在以上的双因素方差分析中,我们作了假定:,如果此式不能成立,则需考虑二个因素A与B在不同水平组合下的交互作用。,对有交互作用方差分析感兴趣的读者可进一步阅读有关的书籍,习题9-4,1有A1,A2,A33个工厂生产同一型号的电池,各个随机抽取5个电池,测得使用寿命(单位:小时)如下:,问各厂生产的电池的使用寿命有无显著性差异?,24种大白鼠经不同剂量雌激素注射后的子宫重量(单位:克)如下:试问:鼠种的影响是否显著?剂量差异的影响是否显著?(),3为了考察某种合金中碳的含

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论