第4章-回归与相关分析[114页]课件_第1页
第4章-回归与相关分析[114页]课件_第2页
第4章-回归与相关分析[114页]课件_第3页
第4章-回归与相关分析[114页]课件_第4页
第4章-回归与相关分析[114页]课件_第5页
已阅读5页,还剩109页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第四章 回归与相关分析 客观事物在发展过程中是相互联系、相互影响,常常要研究两个或两个以上变量间的关系。 第一节 回归与相关的概念一类是完全确定性的关系,又称函数关系,可以用精确的数学表达式来表示,即当变量x的值取定后,变量y有唯一确定的值与之对应。 如长方形的面积(S) 与 长(a)和宽(b)的关系: S=ab。它们之间的关系是确定性的,只要知道了其中两个变量的值就可以精确地计算出另一个变量的值,这类变量间的关系称为函数关系。各种变量间的关系大致可分为两类:确定性关系非确定性关系 如人的身高与体重的关系,作物种植密度与产量的关系,食品价格与需求量的关系等等,这些变量间都存在着十分密切的关系,

2、但不能由一个或几个变量的值精确地求出另一个变量的值。统计学中把这些变量间的关系称为相关关系,把存在相关关系的变量称为相关变量。 另一类是 非确定性关系,不能用精确的数学公式来表示,当变量x的值取定后,y有若干种可能取值。 在一定范围内,对一个变量的任意数值(xi),虽然没有另一个变量的确定数值yi与之对应,但是却有一个特定yi的条件概率分布与之对应,这种变量的不确定关系,称为相关关系。x=x1时y的分布x=x1时的E(y) 一种是因果关系,即一个变量的变化受另一个或几个变量的影响。如食品干燥速率受原料含水率、干燥温度、干燥方式等因素影响。子女的身高受父母身高的影响等; 另一种是平行关系,即两个

3、以上变量之间共同受到另外因素的影响,如人的身高和体重之间的关系,兄弟身高之间的关系等都属于平行关系。相关变量间的关系一般分为两种: 研究“一因一果”,即一个自变量与一个依变量的回归分析称为一元回归分析; 研究“多因一果”,即多个自变量与一个依变量的回归分析称为多元回归分析。 一元回归分析又分为直线回归分析与曲线回归分析两种;多元回归分析又分为多元线性回归分析与多元非线性回归分析两种。 统计学上采用回归分析 (regression analysis)方法研究呈因果关系的相关变量间的关系。表示原因的变量称为自变量,表示结果的变量称为依变量。一、回归分析回归分析的任务就是揭示出呈因果关系的相关变量间

4、的联系形式,建立它们之间的回归方程,利用所建立的回归方程,由自变量(原因)来预测、控制依变量(结果)。回归分析主要包括:找出回归方程;检验回归方程是否显著;通过回归方程来预测或控制另一变量。 对多个变量进行相关分析时,研究一个变量与多个变量间的线性相关称为复相关分析;研究其余变量保持不变的情况下两个变量间的线性相关称为偏相关分析。统计学上采用相关分析 (correlation analysis)来研究呈平行关系相关变量之间的关系。 对两个变量间的直线关系进行相关分析称为简单相关分析(也叫直线相关分析);二、相关分析图4-1 变量间的关系示意图三、回归与相关的关系(一) 相关分析与回归分析的联系

5、 相关分析是回归分析的基础和前提,回归分析则是相关分析的深入和继续。相关分析需要依靠回归分析来表现变量之间数量相关的具体形式,而回归分析则需要依靠相关分析来表现变量之间数量变化的相关程度。只有当变量之间存在高度相关时,进行回归分析寻求其相关的具体形式才有意义。如果在没有对变量之间是否相关以及相关方向和程度做出正确判断之前,就进行回归分析,很容易造成“虚假回归”。与此同时,相关分析只研究变量之间相关的方向和程度,不能推断变量之间相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况,因此,在具体应用过程中,只有把相关分析和回归分析结合起来才能达到研究和分析的目的。2. 相关分析与回

6、归分析的区别 (1) 相关分析中涉及的变量不存在自变量和因变量的划分问题,变量之间的关系是对等的;而在回归分析中,则必须根据研究对象的性质和研究分析的目的,对变量进行自变量和因变量的划分。因此,在回归分析中,变量之间的关系是不对等的。 (2) 在相关分析中所有的变量都必须是随机变量;而在回归分析中,自变量是确定的,因变量才是随机的,即将自变量的给定值代入回归方程后,所得到的因变量的估计值不是唯一确定的,而会表现出一定的随机波动性。 (3) 相关分析主要是通过一个指标(统计量)即相关系数来反映变量之间相关程度的大小,由于变量之间是对等的,因此相关系数是唯一确定的。而在回归分析中,对于互为因果的两

7、个变量 (如人的身高与体重),则有可能存在多个回归方程。需要指出的是,变量之间是否存在“真实相关”,是由变量之间的内在联系所决定的。相关分析和回归分析只是定量分析的手段,通过相关分析和回归分析,虽然可以从数量上反映变量之间的联系形式及其密切程度,但是无法准确判断变量之间内在联系的存在与否,也无法判断变量之间的因果关系。因此,在具体应用过程中,一定要注意把定性分析和定量分析结合起来,在定性分析的基础上开展定量分析。表4-1为直线相关与直线回归的比较。区别直线相关直线回归变量地位变量x变量y处于平等的地位,彼此相关关系变量y称为因变量,处在被解释的地位,x称为自变量,用于预测因变量的变化变量性质所

8、涉及的变量x和y都是随机变量,要求两个变量都服从正态分布因变量y是随机变量,自变量x可以是随机变量,也可以是非随机的确定变量实际作用主要是描述两个变量之间线性关系的密切程度(相关系数无单位)揭示变量x对变量y的影响大小(回归系数有单位),还可以由回归方程进行预测和控制表4-1 直线相关与直线回归第二节 一元线性回归 一、一元线性回归数学模型 对于两个相关变量,一个变量用x表示,另一个变量用y表示,如果通过试验或调查获得两个变量的n对观测值:(x1,y1),(x2,y2),(xn,yn)。 (i=1,2, , n) 若呈因果关系的两个相关变量y(依变量)与x(自变量)间的关系是直线关系,那么,由

9、于依变量y的实际观测值总是带有随机误差,因而依变量y的实际观测值yi可用自变量x的实际观测值xi表示为: 式中: 、 为未知参数, i为相互独立,且服从N(0, )的随机变量。这就是一元线性回归数学模型。 总体线性回归模型的图示YX观察值观察值总体线性回归模型因变量自变量参数随机误差y条件平均数设回归直线方程为:二、 参数、的估计其中, 是的估计值,b是的估计值。最小二乘估计法一元线性回归分析就是根据样本观测数据资料对未知参数、进行估计。,建立 样本线性回归方程的方法最小二乘法实际观察值与样本回归线上的点的距离的平方和最小xy e1e2e3e4最小 、b应使回归估计值 与实际观测值y的偏差平方

10、和最小,即:总的离回归平方和,即剩余平方和 根据微积分学中的求极值的方法,令 Q对a、b的一阶偏导数等于0,即:最小 经整理,得关于a、b的正规方程组: 解正规方程组,得: 其中,分子为自变量x的离均差与依变量y的离均差的乘积和 ,简称乘积和,记作 ,分母是自变量x的离均差平方和,记作SSx。 所以 a为回归截距(regression intercept),是回归直线与y轴交点的纵坐标,当x=0时, ; b为回归系数(regression coefficient),表示x变化一个单位,y平均变化的数量;b的符号反映了x影响y的性质,b的绝对值大小反映了x 影响y的程度; 为回归估计值,是当x在

11、其研究范围内取某一个值时,y值平均数 的估计值。 如果x和y变量间并不存在直线关系, 但由n对观测值(xi,yi)也可以根据上面介绍的方法求得一个回归方程 。 显然,这样的回归方程所反应的两个变量间的直线关系是不真实的。 由样本数据建立了变量y与x之间的回归关系,但并不能说明两个变量关系密切。那么如何判断所配置的回归方程有意义的,需要进行回归方程的显著性检验。如果y与x之间没有线性关系,那么回归模型中的=0,所以回归方程显著性检验就是检验是否等于0 。要检验假设H0:=0 是否成立,可采用F检验法,也可采用t检验法。 三、回归方程的显著性检验图4-2 的分解图1. 平方和与自由度的分解y总变异

12、的分解 由于所以于是由图4-2可以看出:则有所以有反映了y的总变异程度,称为y的总偏差平方和,记为SSy;反映了由于y与x间存在直线关系所引起的y的变异程度,称为回归平方和,记为SSR; 反映了除y与x存在直线关系以外的一切因素(包括x对y的非线性影响及其他一切未加控制的随机因素)所引起的y的变异程度,称为离回归平方和或剩余平方和,记为SSr或SSe。 所以,y的总变异平方和可分解为: 表明y的总平方和可剖分为 回归平方和 与离回归平方和两部分。与此相对应,y的总自由度dfy也可分解为回归自由度dfr与离回归自由度dfr两部分,即 在直线回归分析中,回归自由度等于自变量的个数,即 ;y的总自由

13、度 ;离回归自由度 。所以离回归均方 回归均方 x与y两个变量间是否存在直线关系,可用F检验法进行检验。 无效假设HO:=0,备择假设HA:0。 在无效假设成立的条件下,回归均方与离回归均方的比值服从 和 的F分布,所以,可以用下式来检验回归方程的显著性。2. 回归方程的显著性检验F检验df1=1,df2=n-2回归平方和的计算:所以,离回归平方和的计算公式为:回归方程显著性检验结果见表4-2。表4-2 直线回归方程显著性检验方差分析表对于给定的显著水平,查F分布表得 ,如果 ,则F检验不显著,回归方程没有意义,变量x与y没有明显的线性关系。若 ,则F检验显著,说明x与y有显著的线性关系,所建

14、回归方程有意义。 若回归方程检验不显著时有以下几种可能:影响y的因素除x外,可能还有其他不可忽略的因素;x与y之间不是直线关系,有可能是曲线关系;x与y根本无任何关系。 应该指出,上述用剩余平方和去检验回归平方和所作出的“回归方程显著”这一判断,只是表明相对其他因素及试验误差来说,因素x的一次项对指标y的影响是主要的,但并不能说明影响y的因素除x外,是否还有一个或几个不可忽视的其他因素,以及x和y的关系确是线性关系,也就是说,在上述意义下“回归方程显著”并不表明这个回归方程是拟合得很好。3. 回归系数的显著性检验t检验采用回归系数的显著性检验t检验也可检验x与y间是否存在直线关系。回归系数显著

15、性检验时,原假设 备择假设 。 在原假设 成立的条件下,t的计算公式为 其中,Sb为回归系数标准误,Syx反映回归估测值 与实测值y的偏离程度。t与临界值ta(n-2)比较,以判断显著性。例4-1 某食品干制加工试验中,10批物料平均含水率x/%与干燥初速度y/(kg/h)的测定结果见表4-3,试建立干燥初速度y对平均含水率x的回归关系。四、一元线性回归分析实例表4-3 物料平均含水率与干燥初速度的试验结果 平均含水率x/%3.604.054.274.584.604.855.235.405.585.90干燥初速度y/ (kg/h)5.255.435.646.155.856.136.386.60

16、6.716.891. 作散点图 以物料平均含水率x为横坐标,干燥速度y为纵坐标作散点图,如图4-3所示。可以看出,物料平均含水率x与干燥初速度y之间存在直线关系,所以有必要建立其线性回归关系。 图4-3 物料平均含水率x与干燥初速度y的关系散点图2. 计算回归截距a,回归系数b,建立直线回归方程根据实际观测值计算:所以,y对x的直线回归方程为:然后计算出b、a:3. 回归方程的显著性检验F检验由SSx、SPxy、SSy,计算回归平方和SSR和剩余平方和SSrdfy=n-1=10-1=9,dfR=1,dfr=10-2=8构造F统计量,计算F统计量值 列方差分析表进行回归关系显著性检验变异来源自由

17、度平方和均方F显著性回归12.6932.693269.3*剩余80.0800.010总和92.773表4-4 方差分析表查F表可得 ,因为 表明y与x之间具有高度显著线性关系,回归直线方程有效。物料干燥初速度y与平均含水率x之间的关系可以用 来描述。 4. 回归系数的显著性检验t检验由资料计算得构造t统计量,计算 当 ,查t值表,得 因 ,P0.01 , 否定HO:0,接受HA:0,表明直线回归系数b=0.754是极显著的,回归直线方程有意义,可用所建立的直线回归方程来进行 预测和控制。 最后需要指出的是,一元线性回归分析中,回归方程的显著性检验(F检验)和回归系数的显著性检验(t检验)效果一

18、致,在实际应用时选择一种即可。但多元回归分析中,应分别进行回归方程的显著性检验和回归系数的显著性检验。以上计算也可在回归计算表中进行。序号kxkykxk2xkykyk213.60 5.25 12.96 18.90 27.56 24.05 5.43 16.40 21.99 29.48 34.27 5.64 18.23 24.08 31.81 44.58 6.15 20.98 28.17 37.82 54.60 5.85 21.16 26.91 34.22 64.85 6.13 23.52 29.73 37.58 75.23 6.38 27.35 33.37 40.70 85.40 6.60 29

19、.16 35.64 43.56 95.58 6.71 31.14 37.44 45.02 105.90 6.89 34.81 40.65 47.47 48.0661.03235.7136296.882375.2395回归方程计算表1(一级数据)xk=48.06yk=61.03n=10 =4.806=6.103xk2=235.714xk yk=296.882yk2=375.240(xk)2/n=230.976(xk)(yk)/n=293.310(yk)2/n=372.466SSx=4.738SPxy=3.572SSy=2.774b= SPxy/SSx0.754 a=y-bx6.103-0.754

20、4.806=2.479 y=2.479+0.754x回归方程计算表2(二级数据) 特别要指出的是:利用直线回归方程进行预测或控制时,一般只适用于原来研究的范围,不能随意把范围扩大,因为在研究的范围内两变量是直线关系,这并不能保证在这研究范围之外仍然是直线关系。若需要扩大预测和控制范围,则要有充分的理论依据或进一步的实验依据。利用直线回归方程进行预测或控制 , 一 般只能内插,不要轻易外延。Excel数据分析库-回归分析Excel回归分析结果复相关系数R决定系数R2校正决定系数回归方程显著性检验回归系数显著项检验y=13.958+1.255x,方程显著。五、可直线化的曲线回归 曲线回归分析:是通

21、过两个相关变量x与y的实际观测数据建立曲线回归方程,以揭示x与y间的曲线联系的形式。 曲线回归分析最困难和首要的工作是确定变量y与x间的曲线关系的类型。通常通过两个途径来确定: 1、利用有关的专业知识,根据已知的理论规律和实践经验。 2、在没有已知的理论规律和经验可资利用时,则可用描点法将实测点在直角坐标纸上描出,观察实测点的分布趋势与哪一类已知的函数曲线最接近,然后再选用该函数关系式来拟合实测点。可线性化的曲线函数类型(1) 双曲线型方法:变量替换(2) 指数曲线型令v=lny,得到:指数曲线型令y=lny,x1/x,得到:(3) 幂函数型v=lny,u=lnx,得到:4. 对数曲线型令u=

22、lgx,得到:(5) S曲线型令:得到:Excel绘制散点图根据散点图选择合适的模型!Excel非线性回归分析结果第三节 直线相关分析 在前面讨论的事例中,x和y有自变量和因变量之分,或具有由x决定y的性质。但是也有不少的变数资料,其散点图呈现明显的线性关系,却并不能区别出自变量和因变量。例如大豆蛋白质含量与脂肪含量的测定结果呈负相关,但既不能认为蛋白质含量决定脂肪含量,又不能认为脂肪含量决定蛋白质含量。在这种情况下,求取回归方程并不是恰当的,而需确定一个不因自变量和因变量区分而变化的统计量即相关系数(coefficient of correlation)。 直线相关分析的基本任务在于根据x、

23、y的实际观测值,计算表示两个相关变量x、y间线性相关程度和性质的统计量相关系数r,并进行显著性检验。一、决定系数和相关系数 直线回归分析中: 由这个等式不难看出,y与x直线回归效果的好坏取决于回归平方和 与离回归平方和 的大小,或者说取决于回归平方和在y的总平方和 中所占的比例的大小。这个比例越大,y与x的直线回归效果就越好,反之则差。 我们把比值 叫 做 x 对 y 的决定系数( determination coefficient ),记为 r2,即 决定系数的大小表示了回归方程估测可靠程度的高低,或者说表示了回归直线拟合度的高低,或者表示x对y的变异影响大小。显然有0r21。如r20.81

24、,表明SSR占SSy的81,也就是说,x决定了y变异的81,决定作用强。 SPxy/SSx是以x为自变量、y为依变量时的回归系数byx。 若把y作为自变量、x作为依变量 ,则回归系数 bxy =SPxy/SSy ,所以决定系数r2等于y对x的回归系数与 x对y的回归系数的乘积。这就是说,决定系数反应了x为自变量、y为依变量和y为自变量、x为依变量时两个相关变量x与y直线相关的信息 ,即决定系数表示了 两个互为因果关系的相关变量间直线相关的程度。但决定系数介于0和1之间,不能反应直线关系的性质是同向增减或是异向增减。 相关系数可表示y与x的直线相关的密切程度,也可表示直线相关的性质,记为r,即r

25、 = 0(h)r 0(f)r-1(d)r1(b)0r1(a)-1r0时,表示两个变量正相关;(2) r 0时,表示两个变量为负相关;(3)当| r |=1时,表示两个变量为完全线性相关;(4)当r =0时,表示两个变量间无线性相关关系;(5)当0| r |1时,表示两个变量存在一定程度的线性相关,且| r |越接近1,两个变量间线性关系越密切;(6)|r|越接近于0,表示两个变量的线性相关程度越弱。二、相关系数的计算例4-2 操作压力与水果出汁率的关系测定结果见表4-5,计算二者的相关系数。批次12345678910操作压力/kg68707071717173747676水果出汁率/%50606

26、865697271737577表4-5 操作压力与水果出汁率的数据资料x偏差平方和y偏差平方和x、y离差积和根据表4-5所列数据计算:操作压力与果实出汁率的相关系数为0.8475。所以, 由实际观测值计算的相关系数r是样本相关系数, 它是双变量正态总体中的总体相关系数的估计值。样本相关系数r是否来自0的总体,也需对样本相关系数r 进行显著性检验。 此时无 效假设、备择假设为H0:=0,HA:0。与直线回归关系显著性检验一样,可采用t检验法与F检验法对相关系数r的显著性进行检验。 三、相关系数的显著性检验 其中 为相关系数标准误。df1=1,df2=n-2df=n-2t检验:F检验: 为了方便应

27、用,统计学家已根据相关系数r显著性t检验法计算出了临界r值并列出了表格。 所以可以直接采用查表法对相关系数r进行显著性检验。 具体作法是: 先根据 自由度 n-2 查临界 r 值 (附表9 ),得 , 。 若|r| ,P0.05,则相关系数r不显著,在r的右上方标记“ns”;若 |r| ,0.01P0.05,则相关系数 r 显著,在r的右上方标记“*”;若|r| , P 0.01, 则相关 系 数 r 极显著,在 r 的右上方标记“*”。 而实际计算的r = 0.8475 ,P0.01,表明操作压力与果实出汁率的相关系数极显著,两个变量高度相关。 对于【例4-2】,df =n-2=10-2=8

28、,查附表9得: 直线回归和相关分析由于方法简单、结果直观,在科学研究中得到了广泛的应用,是普及和应用最广的统计方法之一。但虽然简单,实践中也出现了不少的误用,或者对结果的不恰当的解释与推断。为了正确应用这一工具,必须注意以下几点: 第四节 应用直线回归与相关的注意事项(1)回归和相关分析要有学科专业知识作指导。变量间是否存在相关以及在什么条件下会发生什么相关等问题,都必须由各具体学科本身来决定。客观规律要由各具体学科根据自己的理论和实践去发现,回归和相关分析只是作为一种工具,帮助完成有关的认识和解释。如果不以一定的科学依据为前提,把风马牛不相及的资料随意地凑到一起作回归或相关分析,那是根本性的

29、错误。 (2)要严格控制研究对象(x和y)以外的有关因素,即要在x和y的变化过程中尽量使其它因素保持稳定一致。由于自然界各种事物间的相互联系和相互制约,一事物的变化通常都会受到许多其他事物的影响。因此,如果仅研究该事物(y)和另一事物(x)的关系,则要求其余事物的均匀性必须得到尽可能严格的控制。否则,回归和相关分析有可能导致完全虚假的结果。例如研究种植密度和产量的关系,由于品种、播期、肥水条件等的不同也影响产量,所以这些条件必须尽可能地控制一致,才能比较真实地反映出密度和产量的关系。 (3)直线回归和相关分析结果不显著,并不意味着x和y没有关系,而只说明x和y没有显著的线性关系,但并不能排除两

30、变量间存在曲线关系的可能性。(4)一个显著的r或b并不代表x和y的关系就一定是线性的,因为它并不排斥能够更好地描述x和y的各种曲线的存在。一般地说,如x和y的真实关系是抛物线、双曲线或指数曲线等,当仅仅观察(x,y)的某一区间时,完全有可能给出一个极显著的线性关系。对这一问题的正确认识更有赖于专业知识的支持。(5)虽然显著的线性相关和回归并不意味着x和y的真实关系就是线性,但在农学和生物学研究中要发现x和y的真实曲线关系又是相当困难的。因此,在x和y的一定区间内,用线性关系作近似描述是允许的,它的精确度至少要比仅用描述y变量有显著提高。但是,研究结果的适用范围应加以限制,一般应以观察区间为准。

31、外推到这一区间之外是危险的,因为该区间外的x和y的关系是否仍为线性,试验未给出任何信息。(6)一个显著的相关或回归并不一定具有实践上的预测意义。例如当n50时,|r|=0.273检验显著,但这表明x和y可用线性关系说明的部分仅占总变异的7.4%,未被说明的部分高达92.6%,显然由x预测y并不可靠。一般而言,当需要由x预测y时,|r|必须在0.7以上,此时y的变异将有49%以上可以为x的变异说明。(7)为了提高回归和相关分析的准确性,两个变量的样本容量n(观察值对数)要尽可能大一些,至少应有5对以上。同时,x变量的取值范围也应尽可能宽些,这样一方面可降低回归方程的误差,另一方面也能及时发现x和

32、y间可能存在的曲线关系。第五节 多元线性回归分析(选学内容)一元线性回归是对客观现象进行高度简化的结果。在实际问题中,一个变量往往受许多因素(或变量)的影响,要研究它们之间的关系就是多元回归问题(multiple regression)。而其中最为简单、常用的是多元线性回归分析(multiple linear regression analysis),许多非线性回归(non-linear regression)和多项式回归(polynomial regression)都可以转化为多元线性回归来解决,多元线性回归分析有着广泛的应用。 多元线性回归分析的基本任务:根据依变量与多个自变量的实际观测值

33、建立依变量对多个自变量的多元线性回归方程;检验、分析各个自变量对依自变量的综合线性影响的显著性;检验、分析各个自变量对依变量的单纯线性影响的显著性,选择仅对依变量有显著线性影响的自变量,建立最优多元线性回归方程;评定各个自变量对依变量影响的相对重要性以及测定最优多元线性回归方程的偏离度等。 设因变量 y 与 m 个自变量 x1, x2, , xm 共有 n 组实际观测数据,数据模式见表4-6。 表4-6 因变量y与m个自变量x1、x2、xm对应的n组观测数据 一、多元线性回归方程的建立试验号 假定依变量y与自变量x1、x2、xm间存在线性关系,那么式中,x1、x2、xm为可以观测的一般变量(可

34、以观测的随机变量);y为可以观测的随机变量,随x1、x2、xm而变,受试验误差影响; 为相互独立且都服从 的随机变量。上式就是多元线性回归的数学模型。若假设y对x1、x2、xm的m元线性回归方程为: 式中 b0、b1、b2、bm为 的最小二乘估计值。即要求b0、b1、b2、bm应使实际观测值y与回归估计值 的偏差平方和最小。即 最小。是关于b0、b1、b2、bm的m+1元非负二次函数,存在最小值。根据微分学中复合函数求极值的方法,要使Q最小,则应使即 称为正规方程组, 对正规方程组求解,获得b0, ,bj. 经整理可得到关于偏回归系数b1、b2、bm的正规方程组(normal equation

35、s)为:若记解此正规方程组即可得偏回归系数b1、b2、bm的解。 附:可直接由原始观测值的结构矩阵出发来解正规方程组正规方程组如果令A为正规方程组的系数矩阵,即 :(m+1) (m+1)方阵 (m+1) nn (m+1)为X的转置阵(p+1) NN 1令B为正规方程组右端的常数项矩阵,即:令 则正规方程组对上式求解,得: 可以写成矩阵形式:例欲建立的二元线性回归方程为: 试建立x1 、 x2与y之间的二元线性回归方程。 表6-2 试验数据序号x1x2y116291392163215031432133412391425182614361437160716311478143816191440169

36、101628134常数项矩阵y 矩阵结构矩阵结构矩阵y 矩阵常数项矩阵对 求解得:A-1 是方程系数矩阵的逆矩阵, 称相关矩阵。自变量x1、x2与因变量y之间的二元线性回归方程为 二、 多元线性回归方程的显著性检验 与一元线性回归分析一样,将因变量y的总平方和SSy分解为回归平方和SSR与剩余平方和SSr两部分 (一) 回归方程的显著性检验 建立了多元线性回归方程后,还必须对因变量与多个自变量间的线性关系假设进行显著性检验,也就是进行多元线性回归关系的显著性检验,采用F检验法。1. 平方和与自由度的分解SSy = SSr + SSR反映了因变量y的总变异。 反映了由于依变量y与多个自变量x1、

37、x2、xm间存在线性关系所引起的变异,或者反映了多个自变量对依变量的综合线性影响所引起的变异。 反映了除依变量与多个自变量间线性关系以外的其他因素(包括试验误差)所引起的变异。 平方和的计算自由度的分解2. 计算回归均方与离回归均方总自由度: dfy = n 1 回归自由度: df回 = m 剩余自由度: df剩 = dfy - df回 = n 1 mm为回归方程中自变量的个数,n为实际观测数据的组数。3. 构造F统计量,进行显著性检验检验多元线性回归关系是否显著,实质也就是检验各自变量的总体偏回归系数 是否全部等于零。所以显著性检验的无效假设为 ,备择假设 不全为零。在H0成立条件下,有服从F分布,且df1=dfR,df2=dfr 由F统计量进行F检验即可推断多元线性回归关系的显著性。 这里特别要说明的是,上述显著性检验实质上是测定各自变量对因变量的综合线性影响的显著性,或者是测定因变量与各自变量的综合线性关系的显著性。如果经过F检验,多元线性回归关系或多元线性回归方程是显著的,但并不一定说明每一个自变量与依变量的线性关系都是显著的,或者说每一个偏回归系数不一定都是显著的。在上述多元线性回归关系显著性检验中,无法区别全部自变量中,哪些是对依变量的线性影响是显著的,哪些是不显著的。因此,当多元线性回归关系经检验为显著时,还必须逐一对各偏回归系数进行显著性

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论