线性回归分析与方差分析_第1页
线性回归分析与方差分析_第2页
线性回归分析与方差分析_第3页
线性回归分析与方差分析_第4页
线性回归分析与方差分析_第5页
已阅读5页,还剩81页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、线性回归分析与方差分析线性回归分析与方差分析第1页第一节 一元线性回归分析 在许多实际问题中,咱们经常需要研究多个变量之间相互关系。普通来说,变量之间关系可分为两类:一类是确定性关系,确定性关系是指变量之间关系能够用函数关系来表示,比如电流I电压V电阻R之间相关系式V=IR。 另一类是非确定性关系,有些变量之间关系是非确定性关系,这种关系无法用一个准确函数式来表示。线性回归分析与方差分析第2页 比如,农作物单位面积产量与施肥量之间有亲密关系,不过不能由施肥量准确知道单位面积产量,这是因为单位面积产量还受到许多其它原因及一些无法控制随机原因影响。 又如,人身高与体重之间存在一个关系,普通来说,人

2、身高越高,体重越大, 但一样高度人,体重却往往不一样。这种变量之间不确定性关系称之为相关关系。对于含有相关关系变量,即使不能找到他们之间确实定表示式,不过经过大量观察数据,能够发觉他们之间存在一定统计规律,数理统计中研究变量之间相关关系一个有效方法就是回归分析。线性回归分析与方差分析第3页一、 一元线性回归模型 其中yi是x=xi时随机变量Y观察结果.将n对观察结果(xi,yi)(i=1,n)在直角坐标系中进行描点,这种描点图称为散点图.散点图能够帮助咱们精略地看出Y与x之间某种关系. 假定咱们要考虑自变量x与因变量Y之间相关关系假设x为能够控制或能够准确观察变量,即x为普通变量。因为自变量x

3、给定后,因变量Y并不能确定,从而Y是一个与x相关随机变量咱们对于可控制变量x取定一组不完全相同值x1,xn,作n次独立试验,得到n对观察结果:(x1,y1) ,(x2,y2),(xn, yn)线性回归分析与方差分析第4页例1 对某广告企业为了研究某一类产品广告费x用与其销售额Y之间关系,对多个厂家进行调查,取得以下数据 厂 家123456789广告费6102140626290100120销售额3158124220299190320406380 广告费与销售额之间不可能存在一个明确函数关系,实际上,即使不一样厂家投入了相同广告费,其销售额也不会是完全相同。影响销售额原因是各种多样,除了广告投入影

4、响,还与厂家产品特色、定价、销售渠道、售后服务以及其它一些偶然原因相关。线性回归分析与方差分析第5页 画出散点图如图9-1所表示.从图中能够看出,伴随广告投入费x增加,销售额Y基础上也呈上升趋势,图中点大致分布在一条向右上方延伸直线附近.但各点不完全在一条直线上,这是因为Y还受到其它一些随机原因影响.这么,Y能够看成是由两个别叠加而成,一个别是x线性函数a+bx,另一个别是随机原因引发误差 ,即Y=a+bx+oxy10020030040050020406080100120L*这就是所谓一元线性回归模型 图9-1线性回归分析与方差分析第6页普通地,假设x与Y之间相关关系可表示为(1)其中:a,

5、b为未知常数为随机误差且未知,x与Y这种关系称为一元线性回归模型y=a+bx称为回归直线 b称为回归系数此时对于(x, Y)样本(x1,y1),(xn,yn)有:线性回归分析与方差分析第7页一元线性回归主要处理以下一些问题: (1)利用样本对未知参数a、b、 进行预计; (2)对回归模型作显著性检验; (3)当x=x0时对Y取值作预测,即对Y作区间预计. 假如由样本得到式(1)中,a, b预计值 ,则称 为拟合直线或经验回归直线,它可作为回归直线预计线性回归分析与方差分析第8页二、 参数a、b、 预计最小二乘法就是选择a,b预计 ,使得Q(a, b)为最小(图9-2) 现在咱们用最小二乘法来预

6、计模型(1)中未知参数a,b.记称Q(a, b)为偏差平方和线性回归分析与方差分析第9页图9-2线性回归分析与方差分析第10页为了求Q(a, b)最小值,分别求Q关于a,b偏导数,并令它们等于零:经整理后得到式(2)称为正规方程组. (2)线性回归分析与方差分析第11页由正 规方程组解得其中线性回归分析与方差分析第12页用最小二乘法求出预计 、 分别称为a、b最小二乘预计由矩预计法,可用 预计此时,拟合直线为下面再用矩法求 预计因为,a、b分别由 、 代入而故 可用作预计线性回归分析与方差分析第13页对于预计量 、 、 分布,有:定理1(1)(2)(3)(4)分别与 、 独立。线性回归分析与方

7、差分析第14页例2 在例1中可分别求出a、b、 预计值为:故经验回归直线为:Y=4.37+0.323x线性回归分析与方差分析第15页三、线性回归显著性检验 在实际问题中,事先咱们并不能断定Y与x确有线性关系,Y=a+bx+ 只是一个假设.下面说明这一检验方法.当然,这个假设不是没有依据,咱们能够经过专业知识和散点图来作出粗略判断.但在求出经验回归方程后,还需对这种线性回归方程同实际观察数据拟合效果进行检验.线性回归分析与方差分析第16页若假设Y=a+bx+ 符合实际,则b不应为零因为假如b=0,则Y=a+意味着Y与x无关所以Y=a+bx是否合理,归结为对假设:H0: b=0进行检验下面介绍检验

8、假设H0二种常见方法.线性回归分析与方差分析第17页且 与 独立1t检验法若H0成立,即b=0,由定理7.1知,线性回归分析与方差分析第18页因而故为显著性水平即得H0拒绝域为线性回归分析与方差分析第19页2相关系数检验法取检验统计量通常称R为样本相关系数.类似于随机变量间相关系数,R取值r反应了自变量x与因变量Y之间线性相关关系.能够推出:在显著性水平 下,当时拒绝H0其中临界值 在附表8中给出相关系数检验法是工程技术中广泛应用一个检验方法线性回归分析与方差分析第20页(1)x对Y没有显著影响;(2)x对Y有显著影响,但这种影响不能用线性相关关系来描述;(3)影响Y取值,除x外,另有其它不可

9、忽略原因. 当假设 被拒绝时,就认为Y与x存在线性关系,从而认为回归效果显著;若接收H0,则认为Y与x关系不能用一元线性回归模型来描述,即回归效果不显著.此时,可能有以下几个情形:所以,在接收H0同时,需要深入查明原因分别处理,此时,专业知识往往起着主要作用. 线性回归分析与方差分析第21页四、 预测当经过检验发觉回归效果显著时,经过回归模型可对Y取值进行预测.即当x=x0时,对Y作区间预计.设当x=x0时Y取值为y0,有能够取经验回归值线性回归分析与方差分析第22页作为y0预测值.能够证实从而可得线性回归分析与方差分析第23页所以,给定置信概率 ,Y0置信区间为其中能够看出在x0处y置信区间

10、长度为当 时置信区间长度最短,预计最准确,置信区间愈长,预计精度愈差。线性回归分析与方差分析第24页当n很大且x0位于 附近时,有于是y0置信概率为 预测区间近似为线性回归分析与方差分析第25页例3 检验例2中回归效果是否显著,当x0=80时,求出Y0预测区间。解 经计算 T=16.9 r=0.98查表,得t0.025(9)=2.26 r0.05=0.602易见,t检验法、相关系数检验法都拒绝H0,即回归效果显著。于是,当x0=80时,y0预测值为y095%预测区间为(24.73,35.69)线性回归分析与方差分析第26页第二节 可线性化非线性回归 在实际问题中,经常会碰到这么情形:散点图上几

11、个样本数据点显著地不在一条直线附近,而在某曲线周围: 或者,用线性回归方程描述变量间关系计算结果与样本值误差较大,这表明变量之间不存在线性相关关系,而是一个非线性相关关系.下面举例说明对这类问题用线性化处理方法。线性回归分析与方差分析第27页例1 在彩色显像技术中,考虑析出银光学密度x与形成染料光学密度Y之间相关关系,其中11个样本数据以下所表示:xi0.050.060.070.100.140.200.250.310.380.430.47yi0.100.140.230.370.590.791.001.121.191.251.29解 依据这11个样本数据点(xi,yi)作出散点图(图9-3).图

12、9-3从散点图上看出,这些数据点在一条曲线L周围.线性回归分析与方差分析第28页依据相关专业知识,结合散点图,能够认为曲线L大致为:对上式两边取对数:令即有:线性回归分析与方差分析第29页0.250.220.170.110.00-0.24-0.53-0.99-1.47-1.97-2.302.132.332.633.234.005.007.1410.0014.2916.6720.00于是数据( )对应地变换成( )将变换后数据点( )画出散点图(图9-4)从散点图能够看出 与 含有线性相关关系,所以用一元线性回归分析.利用一元线性回归方法能够计算出 与 经验回归方程为图9-4线性回归分析与方差分

13、析第30页可求得x与y之间相关关系一个经验公式:这里a=0.58,b= -0.15所以线性回归分析与方差分析第31页332.1213.9142.443.8619.729.95时间t(分秒)15001000800400200100距离x(米)例2 赛跑是大家熟知一个体育活动。下表给出了截至1997年底在6个不一样距离上中短跑成绩世界统计:试依据这些统计数据分析出运动员赛跑成绩与所跑距离间相关关系。线性回归分析与方差分析第32页解 依据统计数据点(xi,ti)作出散点图 (图9-5)图9-5从散点图上看出,全部点(xi,ti)分布在一条曲线附近,因而x与t之间能够存在一个线性关系。咱们用一无线性回

14、归分析,可计算出x与t间线性回归模型为 t=-99.9+0.1455x线性回归分析与方差分析第33页由此模型,当x=100,200,400,800,1000,1500(米)时,t理论值分别为:4.56, 19.10,48.20,146.4,215.5,328.2能够看出t理论值与实际统计数据多数都比较靠近。仔细分析,可发觉线性回归模型一些不合理之处。如:当赛跑距离小于68米时,所需时间为负值;当赛跑距离为100米时所需时间只须4.56.再仔细分析,发觉:短距离100米、200米及长距离1500米需要时间实际值均高于线性模型理论值,而中间400米、800米、1000米需要时间实际值均低于线性模型

15、理论值.它告诉咱们x与t关系可能为一曲线,且曲线是下凸。含有这种性质最简单曲线当属幂函数:t=axb 线性回归分析与方差分析第34页它告诉咱们x与t关系可能为一曲线,且曲线是下凸。对上式二边取对数lnt=lna+blnx令t=lnt a=lna x=lnx得t= a+bx为一线性关系含有这种性质最简单曲线当属幂函数:t=axb线性回归分析与方差分析第35页用一元线性回归分析预计a、b,从而算出最终可得t与x间幂函数模型: t=0.48x1.145当x=100,200,400,800,1000,1500(米)时,利用幂函数模型算出t理论值分别为:9.39,20.78,45.96,141.68,

16、211.29,328.88比较计算结果可知:幂函数模型比线性回归模型更能确切地反应t与x间关系。线性回归分析与方差分析第36页第三节 多元线性回归介绍 其中b0,b1,bp, 为与x1,xp无关未知参数。假定要考查p个自变量x1,x2,xp与因变量Y之间相关关系。设这就是p元线性回归模型线性回归分析与方差分析第37页对变量x1,xp,Y作n次观察得到样本值:( ) i=1,,n这里y1,yn独立、同分布,且有为了简化数学处理,引进矩阵表示,记线性回归分析与方差分析第38页则等式i=1,,n可表示为用最小二乘法求未知参数预计,即参数 应使为最小线性回归分析与方差分析第39页依据高等数学中求最小值

17、方法,可求得b0,b1,bp预计:从而得到Y与x1,xp经验回归方程:线性回归分析与方差分析第40页 类似于一元线性回归,多元线性回归模型假设是否符合实际,同时需要进行假设检验。 另外,在实际问题中,影响因变量Y原因往往很多.假如将它们都取作自变量,必定会造成所得到回归方程很复杂。 因而,咱们应剔除那些对Y影响较小自变量,保留对Y有显著影响自变量,方便咱们对变量间相关改变有更明确认识。 在此咱们对多元性回归分析作一简单介绍.在实际问题中多元线性回归应用非常广泛,有兴趣读者能够查阅相关专门书籍。线性回归分析与方差分析第41页习题91、2、3 1在一元线性回归模型中,试证:未知参数a、b最小二乘预

18、计恰是极大似然预计.2经过原点一元线性回归模型为 试由独立样本观察值(xi, yi)(i=1,2,n),采取最小二乘法预计b. 线性回归分析与方差分析第42页3为了研究钢线含碳量(单位:%)x对于电阻(单位:微欧)Y在20下效应,作了7次试验,得数据以下: 画出散点图; 求出经验回归方程; 试求相关系数R值,并在显著性水平 下检验 。 xi0.100.300.400.550.700.800.95yi1518192122.623.826线性回归分析与方差分析第43页4某种产品在生产时产生有害物质重量(单位:克)Y与它燃料消耗量(单位:千克)x之间存在某种相关关系。由以往生产统计得到以下数据。 求

19、经验回归方程; 试进行线性回归显著性检验( ); 试求x0=340时Y0预测区间( )。 xi289298316327329329331250yi43.542.942.139.138.538.038.037.0线性回归分析与方差分析第44页5气体体积(单位:立方米)v在压力(单位:标准大气压)p之间普通关系为pvk=c. 今对某种气体测试到以下数据: 试对参数k,c进行预计.vi1.6210.750.620.520.46pi0.511.522.53线性回归分析与方差分析第45页6今有4个物体,按下述方法称重,得到以下数据: 其中1表示该物体放在天平左端,-1表示该物体放在天平右端,Y是使天平到

20、达平衡时,在天平右端所加砝码重量。试用最小二乘法预计这4个物体重量。x1X2x3x4x5111120.21-11-18.011-1-19.21-1-111.4线性回归分析与方差分析第46页第四节 方差分析 一、单原因方差分析 在实际问题中,影响一事物原因往往是很多。比如,在化工生产中,有原料成份、原料剂量、催化剂、反应温度、压力、反应时间等原因,每一原因改变都有可能影响产品质量。有些原因影响较大,有些影响较小.方差分析就是依据试验结果进行分析,判别各相关原因对试验结果影响有效方法。线性回归分析与方差分析第47页在试验中,将要考查指标称为试验指标,影响试验指标条件称为原因原因所处状态称为该原因水

21、平假如试验仅考虑一个原因,则称为单原因试验,不然称为多原因试验.咱们先讨论单原因试验线性回归分析与方差分析第48页例1 某消防队要考查4种不一样型号冒烟报警器反应时间(单位:秒)。今将每种型号报警器5个安装在同一条烟道中,当烟量均匀时观察报警器反应时间,得数据以下:报警器型号反 应 时 间A1(甲型)5.26.34.93.26.8A2(乙型)7.48.15.96.54.9A3(丙型)3.96.47.99.24.1A4(丁型)12.39.47.810.88.5这里,试验指标是报警器反应时间,报警器为原因。线性回归分析与方差分析第49页4种不一样型号报警器是原因4个不一样水平。这是一个单原因试验.

22、咱们要考查:各种型号报警器反应时间有没有显著性差异?假如各种型号报警器反应时间有显著性差异,那么何种型号报警器最优? 线性回归分析与方差分析第50页上表中数据可看作来自4个不一样总体(每个水平对应一个总体)样本值,将各个总体均值依记为则各型号报警器反应时间有没有显著性差异问题相当于需检验假设不全相等。线性回归分析与方差分析第51页若再假定各总体均值为正态总体,且各总体方差相等,那么这是一个检验同方差多个正态总体均值是否相等问题。显然,检验假设H0能够用前面所讲t检验法,只要检验任何二个总体均值相等就能够了。下面所要讨论方差分析法就是处理这类问题一个检验方法。不过这么做要检验3次,比较繁琐.线性

23、回归分析与方差分析第52页总体均值样本均值Xs2X22X12Xs1X21X11AsA2A1 水平观察值 设影响指标值原因A有s个水平A1,A2,As在水平Ai(i=1,s)下,进行 次独立试验,得样本Xij,j=1,ni:线性回归分析与方差分析第53页假定水平Ai下样原来自正态总体 , 未知,且不一样水平Ai下样本独立记有j=1,,ni i=1,sXij相互独立线性回归分析与方差分析第54页于是为随机误差由假设在方差分析中,为了便于推广到多原因试验情形,习惯上又有以下表示式:j=1,,ni i=1,s 其中称 为总平均称 为水平Ai效应,满足线性回归分析与方差分析第55页现在,要检验等价于检验

24、不全为零下面从平方和分解着手,导出上述假设H0检验方案记ST能反应全部试验数据之间差异,所以称ST为总偏差平方和线性回归分析与方差分析第56页因为线性回归分析与方差分析第57页于是有平方和分解式:ST=SE+SA其中称SE为误差平方和,SA为原因A平方和SE反应了各水平Ai内因为随机误差而引发抽样误差SA反应了原因A水平不一样而引发误差外加随机误差线性回归分析与方差分析第58页定理1(1)(2)SE与ST相互独立;(3)当 时, 。线性回归分析与方差分析第59页为了检验取FF(s-1,n-s)当H0成立时,由定理1,直观上,当H0成立时,由原因水平不一样引发偏差相对于随机误差而言能够忽略不计,

25、即F值应较小;反之,若F值较大,自然认为H0不成立。线性回归分析与方差分析第60页若检验结果认为假设H0不成立,则可用 作为 点预计,或者对 进行区间预计。由得到:在显著性水平 下H0拒绝域:计算F值可用表9-1所表示方差分析表线性回归分析与方差分析第61页n-1ST总和n-sSE误差s-1SA原因AF值均方和自由度平方和偏差起源表9-1 单原因方差方析表线性回归分析与方差分析第62页起源平方和自由度均方和F值原因A56.29318.76F=6.15误差48.77163.05在实际应用中,普通在 下若仍不能拒绝H0时则接收原假设H0例2 在例1中,s=4,n1=n2=n3=n4=5,n=20,

26、经计算列方差分析表以下:查表,得F0.10(3.16)=2.46,F0.05(3.16)=3.24从而在显著性水平下检验结果拒绝H0线性回归分析与方差分析第63页由方差分析可知,4种型号报警器反应时间确有显著性差异计算:故即反应时间较短是甲,丙次之线性回归分析与方差分析第64页二、双原因方差分析。假定要考查两个原因A、B对某项指标值影响原因A取s个水平A1,A2,As原因B取r个水平B1,B2,Br在A、B每对组合水平(Ai,Bj)上作一次试验,试验结果为Xij,i=1,s;j=1,r。全部Xij独立,数据列于下表:线性回归分析与方差分析第65页XsrXs2Xs1AsX2rX22X21A2X1

27、rX12X11A1BrB2B1 原因B原因A其中要考查原因A、B是否指标值产生显著性影响?线性回归分析与方差分析第66页设则有为随机误差,且相互独立 i=1,s j=1,, r再假定在水平组合(Ai, Bj)下效应能够用水平Ai下效应(记为 )与水平Bj下效应(记为 )之和来表示,即其中线性回归分析与方差分析第67页作假设假如H01成立,那么 与i无关这表明原因A对指标值无显著影响一样,作假设假如H02成立,则 与i无关这表明原因B对指标值无显著影响线性回归分析与方差分析第68页类似于单原因方差分析,经过下面平方和分解式能够检验假设H01,H02记线性回归分析与方差分析第69页经过简单推导能够

28、证实以下平方和分解式:SA是由原因A不一样效应和 引发偏差SB是由原因B不一样效应和 引发偏差而SE表示由 引发偏差所以,可用比较SA与SE值来检验假设H01用比较SB与SE值来检验假设H02线性回归分析与方差分析第70页 定理2(1)ST,SA,SB相互独立,且(2)当H01成立时,(3)当H01成立时,线性回归分析与方差分析第71页由定理2于是有所以H01拒绝域为为显著性水平类似地,可给出H02拒绝域:其中线性回归分析与方差分析第72页总和误差原因B原因AF值均方和自由度平 方 和偏差起源表9-2 双原因方差分析表线性回归分析与方差分析第73页4339.537.536A339.53836.

29、533.5A238.535.53532A1B4B3B2B1氧化锌B促进剂A例3 在某种橡胶配方中,考虑了3种不一样促进剂,4种不一样氧化锌.各种配方试验一次,测得300%定强以下:问不一样促进剂、不一样份量氧化锌分别对定强有没有显著性影响?线性回归分析与方差分析第74页起源平方和自由度均方和F值原因A28.3214.15FA=36.3原因B66.1322.03FB=56.5误差2.3560.39总和96.7511解 由题意,影响定强这一指标值原因有二个:促进剂A、氧化剂Bs=4,r=3,列出以下方差分析表:取查表,得F0.05(2,6)=5.14 F0.05(3,6)=4.76比较可知 FA5

30、.14 FB4.76所以不一样促进剂和氧化锌不一样份量对橡胶定强都有显著影响线性回归分析与方差分析第75页在以上双原因方差分析中,咱们作了假定:假如此式不能成立,则需考虑二个原因A与B在不一样水平组合下交互作用。对有交互作用方差分析感兴趣读者可深入阅读相关书籍线性回归分析与方差分析第76页习 题 9-4工厂寿 命22628303234A339454350501有A1,A2,A3 3个工厂生产同一型号电池,各个随机抽取5个电池,测得使用寿命(单位:小时)以下:问各厂生产电池使用寿命有没有显著性差异?线性回归分析与方差分析第77页24种大白鼠经不一样剂量雌激素注射后子宫重

31、量(单位:克)以下: 试问: 鼠种影响是否显著? 剂量差异影响是否显著?( ) 鼠种雌激素剂量(毫克/100克)0.20.40.8甲106116445乙4268115丙70111133丁426387线性回归分析与方差分析第78页3为了考查某种合金中碳含量百分比(因子A)与锑铝含量和百分比(因子B)对合金强度影响,对因子A取3个水平,因子A取4个水平,在每个水平组合下做一次试验,得数据以下: 假设因子A与因子B无交互作用,试检验因子A或B效应是否显著(取 )? A/B3.3%3.4%3.5%3.6%0.03%63.163.965.666.80.04%65.166.467.869.00.05%67.171.071.973.6线性回归分析与方差分析第79页第九章总习题1在服装标准制作过程中,调查了很多人身材,得到了一系列服装各部位尺寸与身高、胸围等关系。下表给出是一组女青年身高x与裤长y数据: (1) 求裤长y对x身高线性回归方程。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论