版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1第九章第九章 回归分析回归分析 第一节第一节 相关与回归的概念相关与回归的概念 2一变量关系的分类一变量关系的分类函数与相关函数与相关 (一)函数关系:也称确定性关系。当其中一个(一)函数关系:也称确定性关系。当其中一个变量(自变量)在其变化范围内取定某值时,另变量(自变量)在其变化范围内取定某值时,另一个变量(因变量)按照一定法则总有确定的数一个变量(因变量)按照一定法则总有确定的数值和它对应。这种关系称为函数关系。值和它对应。这种关系称为函数关系。 3(二)相关关系:当自变量在其变化范围内取定某(二)相关关系:当自变量在其变化范围内取定某一数值时,因变量虽然没有一个确定的数值与之对一数值
2、时,因变量虽然没有一个确定的数值与之对应,而却有一个因变量特定的条件概率分布与之对应,而却有一个因变量特定的条件概率分布与之对应。也就是在一次抽样中,因变量出现的数值具有应。也就是在一次抽样中,因变量出现的数值具有偶然性,在多次抽样中,因变量出现的数值便具有偶然性,在多次抽样中,因变量出现的数值便具有一定的规律性,即服从一定的概率分布。这种关系一定的规律性,即服从一定的概率分布。这种关系称称相关关系相关关系。变量的相关关系按其在坐标图上的形状可分为线性变量的相关关系按其在坐标图上的形状可分为线性和非线性。和非线性。4二回归分析的概念与意义二回归分析的概念与意义 回归分析回归分析就是处理相关关系
3、中变量与变量间数量关就是处理相关关系中变量与变量间数量关系的一种数学方法。系的一种数学方法。 在回归分析中需要明确在回归分析中需要明确自变量自变量和和因变量因变量。当两个变。当两个变量具有原因和反应的关系时,量具有原因和反应的关系时,原因变量即为自变量原因变量即为自变量,反应变量则为因变量反应变量则为因变量。当两个变量是平等关系时,则。当两个变量是平等关系时,则哪一个作为自变量都可。哪一个作为自变量都可。 只有一个自变量的回归称只有一个自变量的回归称一元一元回归,有两个或两回归,有两个或两个以上自变量的回归问题称个以上自变量的回归问题称多元多元回归。回归。 5三相关分析的概念与意义三相关分析的
4、概念与意义 相关分析就是用一个数量性指标来描述变量之间的相关分析就是用一个数量性指标来描述变量之间的相关关系的密切程度。这个指标称为相关关系的密切程度。这个指标称为相关系数相关系数。 通常将相关分析与回归分析配合起来应用。一般通常将相关分析与回归分析配合起来应用。一般在研究变量之间的直线关系时,多在配回归方程之在研究变量之间的直线关系时,多在配回归方程之前,先计算相关系数,以确定所研究的变量之间的前,先计算相关系数,以确定所研究的变量之间的相关关系是否密切,如关系密切才值得去配回归方相关关系是否密切,如关系密切才值得去配回归方种作估测之用。种作估测之用。 6 第二节第二节 直线回归直线回归 一
5、利用散点图作初步判断:一利用散点图作初步判断:从散点图可以直观地看出两个变量之间的大致关从散点图可以直观地看出两个变量之间的大致关系,而且它们之间大致成一直线关系。系,而且它们之间大致成一直线关系。 直线回归直线回归就是一元线性回归,它处理的是就是一元线性回归,它处理的是一个自变量与因变量之间的线性关系。一个自变量与因变量之间的线性关系。如何配置直线回归方程如何配置直线回归方程7二直线回归方程的配置:二直线回归方程的配置: 直线方程的通式为:直线方程的通式为:y=a+bxy = -0.1571+0.2055xy = -0.1571+0.2055xR R2 2 = 0.9804 = 0.9804
6、0 00.20.20.40.40.60.60.80.81 11.21.21.41.41.61.61 12 23 34 45 56 67 78 881确定直线回归方程的原则确定直线回归方程的原则:所得到的直线是一切直线中最:所得到的直线是一切直线中最接近所有实测点的直线,亦即,以这条直线来代表接近所有实测点的直线,亦即,以这条直线来代表x与与y的关系,的关系,它与所有实测数据的误差比任何其他直线都要小(误差为最小值)它与所有实测数据的误差比任何其他直线都要小(误差为最小值)误差平方和:误差平方和:所以,回归直线就是所有直线中误差平方和所以,回归直线就是所有直线中误差平方和Q最小和一条直线最小和一
7、条直线,也就是说,求出的回归直线方程的系数,也就是说,求出的回归直线方程的系数b及常数项及常数项a,必须满足必须满足使使Q达到最小值,达到最小值, 分别对分别对ab求偏导数并等于求偏导数并等于0,就可得下列值,就可得下列值yyxyniniiininiiniiiiniiiniillxnxyxnyxxxyyxxb112111121)(1)(1)()(2112)(iniiniiyydQ9 B:回归直线通过点(回归直线通过点( , )。)。直线回归方程的特点:直线回归方程的特点:xyb0时,时,x增加,则增加,则y增加增加A.b0时,时,x增加,则增加,则y降低降低y = 50.083-5.5952x
8、y = 50.083-5.5952xR R2 2 = 0.9931 = 0.99310 01010202030304040505060600 02 24 46 68 8y =10.917+ 5.5952xy =10.917+ 5.5952xR R2 2 = 0.9931 = 0.99310 01010202030304040505060600 02 24 46 68 8102直线回归方程的具体计算格式:直线回归方程的具体计算格式:x的离均差平方和的离均差平方和 lxx= =y的离均差平方和的离均差平方和 lyy= =xy的乘积和的乘积和 lxy= = b=lxy/lxx a=2)(xx22)(
9、1xnx2)(yy22)(1yny)(yyxx)(1yxnxyxby 11直线回归方程的配置实例直线回归方程的配置实例有人研究了黏虫孵化历期平均温度与历期天数有人研究了黏虫孵化历期平均温度与历期天数之间的关系,数据如下。试配置直线回归方程。之间的关系,数据如下。试配置直线回归方程。X,平均温度平均温度11.514.715.616.817.118.819.520.4Y,历期天数历期天数30.117.316.713.611.910.78.36.712=134.7 =2323.19=115.3 =2039.03=1801.67x2xy2yxylxx=55.1788 lyy=377.2688 lxy=
10、-139.6937b=lxy/lxx=-139.6938/55.1788=-2.531704.57xbyay=57.0400-2.5317x13三直线回归方程的方差分析三直线回归方程的方差分析 回归方程的方差分析就是把因变量回归方程的方差分析就是把因变量y的变的变异分解为两部分,一部分是由于异分解为两部分,一部分是由于自变量自变量x的的相关性所引起的差异;一部分是由相关性所引起的差异;一部分是由偶然因素偶然因素所引起的变异。把这两部分变异进行比较,所引起的变异。把这两部分变异进行比较,可以判断可以判断x与与y相关的密切程度。相关的密切程度。 141回归方程方差分析的一般步骤:回归方程方差分析的
11、一般步骤:(1)总变异的分解:因变量)总变异的分解:因变量y的总变异用的总变异用y的总离均的总离均差平方和差平方和 来表示,简称为来表示,简称为y的总平方和的总平方和Y的总变异是由两种原因引起的:的总变异是由两种原因引起的: 自变量自变量x的相关性所引起的的相关性所引起的 其它偶然因素引起的其它偶然因素引起的2)(yylyy15222)() ()(yyyyyyxyblyyxxbxxbxbabxayyu)()()()(2222回归平方和xyyyyybllulyyQ2) (剩余平方和.,:)(,:) (:22变异的那部分变因而引起的相关性与回归平方和剩余平方和总误差理论值yyxuyyQyyy16(
12、2)自由度的确定:自由度的确定: 总自由度总自由度=回归自由度回归自由度+剩余自由度剩余自由度 dfT=dfu+dfQ 总自由度总自由度= dfT=n-1 回归自由度回归自由度= dfu=自变量的个数(直线回自变量的个数(直线回归方程只有归方程只有1个)个) 剩余自由度剩余自由度= dfT- dfu=n-1-1=n-217(3)回归关系显著性检验:回归关系显著性检验: 同方差分析的原理同方差分析的原理F检验检验 直线回归的方差分析直线回归的方差分析kuSk222nQSe22/ekSS变异因素变异因素自由度自由度平方和平方和方差方差F回归回归dfu=ku=blxy剩余剩余dfQ=n-2Q = l
13、 y y -blxy 总变异总变异n-1 lyyyy2)(18有人研究了黏虫孵化历期平均温度与历期天数之间的有人研究了黏虫孵化历期平均温度与历期天数之间的关系,数据如下。试配置直线回归方程。关系,数据如下。试配置直线回归方程。X,平均温度平均温度11.514.715.616.817.118.819.520.4Y,历期天数历期天数30.117.316.713.611.910.78.36.72.回归方程方差分析的实例回归方程方差分析的实例 上面的例子来进行方差分析上面的例子来进行方差分析y=57.0400-2.5317x19lxx=55.1788 lyy=377.2688 lxy=-139.693
14、7y=57.0400-2.5317xu= = blxy=-2.5317*(-139.6937)=353.6628Q= =lyy-u=377.2688-353.6628=23.60602)(yy2) (yy20变异来源变异来源dfdfSSSSS S2 2F FF F0.050.05F F0.010.01回归回归1 1353.6628353.6628353.66353.663 389.8989.89* * *5.995.9913.7413.74剩余剩余6 623.606023.60603.93433.9343 总变异总变异7 7377.5688377.5688 21具有重复观察值的直线回归分析具有
15、重复观察值的直线回归分析 m个重复试验,个重复试验,n个试验点。个试验点。xxxyaaaaaaaaaaallxnxyxnyxb22)(1)(1aiaiaiaaaiyyynmyyyl222)(1)()()() (2yyxxmbxxmbyymuaaaaaa22aiaiaiaaaiyyynmyyyl222)(1)()()() (2yyxxmbxxmbyymuaaaaaadf总总=nm-1 dfu=1 Q=lyy-u剩余平方和剩余平方和Q反映的是试验误差与其它未加控制的因反映的是试验误差与其它未加控制的因素的影响,在试验有重复的情况下,可以求出试验误差平方和素的影响,在试验有重复的情况下,可以求出试验
16、误差平方和lle,因而也就可以求出未加控制的因素的平方和,这部分平方和因而也就可以求出未加控制的因素的平方和,这部分平方和称称失拟平方和失拟平方和,记作,记作lle0. dfQ=nm-2dfe=n(m-1)dfe0=nm-2-n(m-1)=n-223F1=SeF1=Se0 02 2/Se/Se2 2如果如果F1F1显著,说明失拟平方和中除含有试验显著,说明失拟平方和中除含有试验误差外,还含有其它因素的影响,需进一步误差外,还含有其它因素的影响,需进一步查明原因。如果查明原因。如果D1D1不显著,说明失拟平方和不显著,说明失拟平方和基本是由试验误差引起的,这时可将两者合基本是由试验误差引起的,这
17、时可将两者合并起来。并起来。2)(aaeeoyymSSQSS2)(aayyeyymlSS24例:测定例:测定7种密度(种密度(x)下玉米的千粒重各两次,结下玉米的千粒重各两次,结果如下,试作直线回归分析果如下,试作直线回归分析 ay xaya1ya21125325725522249253251332452432444424223824055229221225662162242207820320920625ay xaya1ya211253257255222492532513324524324444242238240552292212256621622422078203209206 aax2914
18、29. 4xaay164143.234yaax1552aay3866232aaayx65421429.120)(12aaxn2857.384697)(12aayn4286.6798)(1aaaayxn26b=36. 71429.1201554286.67986542)(1)(122aaaaaaaaaaaxnxyxnyxa=234.43-(-7.36)4.1429=264.92y=264.92-7.36xSSe0= Q- lle=m=184.80-108=76.8F1=Se02/Se2=0.996F(1,12)说明配置的方程拟合很好。说明配置的方程拟合很好。108)1432822.)257253
19、(43.3959)(222aayyeyymlSS273根据回归方程估测根据回归方程估测y的取值问题的取值问题 Y的取值有两种:的取值有两种:Y的条件期望的条件期望Uyx0:x取定值取定值x0条件下条件下Y的所的所有值的平均数有值的平均数 Y的个体值:的个体值:x取定值取定值x0条件下条件下Y的个体的可的个体的可能值能值)(xxbyyiiexxbyy)(28(1)对)对Y的条件平均值的条件平均值Uyx的估测:的估测: Y的条件平均值的条件平均值Uyx0的置信区间为:的置信区间为: Uyx0 yaSty0yaSty0)()(12202xxxxnSeyS29(2)对)对y的个体值的估计:的个体值的估
20、计:Y的个体值的置信区间为:的个体值的置信区间为: yyaSty0yaSty0)()(11 2202xxxxNSeyS30四相关系数及其显著性检验四相关系数及其显著性检验 1相关系数的定义和性质:相关系数的定义和性质: r= =(1)r的符号也决定于乘积和的符号也决定于乘积和lxy 的符号,的符号,亦即与亦即与b的符号一致。的符号一致。(2)r的绝对值愈大,两变量的相关愈显著的绝对值愈大,两变量的相关愈显著(3)相关系数)相关系数r的取值范围是:的取值范围是: 0 1lxxlyylxy22)()()(yyxxyyxxr31决定系数及与相关系数的关系决定系数及与相关系数的关系决定系数决定系数定义
21、为由定义为由x x(y)y)不同而引起的不同而引起的y(x)y(x)的平方和变化占的平方和变化占y(x)y(x)总平方和的比率总平方和的比率. .决定系数与相关系数的关系决定系数与相关系数的关系1 1、除、除r=1r=1或或0 0外,外,R R2 2总是小于总是小于r.r.可以防止相关系数对相关程度可以防止相关系数对相关程度的夸张解释。的夸张解释。2 2、 r r可正可负,可正可负, R R2 2只有正值。一般,只有正值。一般, r r的正负表示相关的的正负表示相关的性质;性质; R R2 2的大小表示相关的程度。的大小表示相关的程度。yyxxlllxyR22)(322相关系数的计算实例相关系
22、数的计算实例 上面的例子来进行方差分析上面的例子来进行方差分析r= = = -0.9682R2=(-0.9682)2=0.9374lxxlyylxy2688.3771788.556937.139X,平均温度平均温度11.514.715.616.817.118.819.520.4Y,历期天数历期天数30.117.316.713.611.910.78.36.7lxx=55.1788 lyy=377.2688 lxy=-139.6937有人研究了黏虫孵化历期平均温度与历期天数之间的关系,有人研究了黏虫孵化历期平均温度与历期天数之间的关系,数据如下。试配置直线回归方程。数据如下。试配置直线回归方程。3
23、33相关系数显著性检验相关系数显著性检验 t = =不同自由度的相关系数不同自由度的相关系数r的界限,可查表的界限,可查表 212nrr212rnr34测定测定7种玉米密度(种玉米密度(x)下玉米的千粒重各下玉米的千粒重各两次,结果如下,试作直线回归分析。两次,结果如下,试作直线回归分析。ax1ay2ayay11253257255222492532513324524324444242238240552292212256621622422077203209206 ax35b = = =-7.36a=234.43-(-7.36)*4.1429=264.92 回归方程为:回归方程为:y=264.92
24、-7.36x检验可用检验可用F,t,r三种方法,检验的方法同前,只是三种方法,检验的方法同前,只是自由度增加了。自由度增加了。 aaaaaaaaaaaxnxyxnyx22)(1)(11429.1201554286.6798654236第三节第三节 多元线性回归多元线性回归 用方程式表达一个变量与多个变量之间的用方程式表达一个变量与多个变量之间的关系,并能从多个变量的数值推算出一个变量关系,并能从多个变量的数值推算出一个变量的数值的方法,称为多元回归或复回归。当各的数值的方法,称为多元回归或复回归。当各自变量与因变量的关系呈线性关系时自变量与因变量的关系呈线性关系时多元多元线性回归。线性回归。
25、37一多元线性回归方程的配置及检验一多元线性回归方程的配置及检验 (一)解正规方程组求出偏回归系数(一)解正规方程组求出偏回归系数bi及同及同时求出逆阵元素的数值。时求出逆阵元素的数值。1写出多元线性回方程的通式:写出多元线性回方程的通式: 其中其中bi(I=1,2,k)称为称为y对对xi的偏回归系数的偏回归系数,b0称为常数项。称为常数项。kiiikkkbbxbxbxbby1022110.382写出正规方程组的通式:写出正规方程组的通式:令令 lij=lji= = liy=所以正规方程组的通式为:所以正规方程组的通式为: 求求b0的通式为:的通式为:b0=)(jjiixxxx)(1jijix
26、xnxx)(yyxxiiykklblblbl11212111.ykklblblbl22222121.kykkkkklblblbl.2211kkxbxbxby.2211393解正规方程组同时求出逆矩阵元素解正规方程组同时求出逆矩阵元素顺序消元法顺序消元法 40(二)多元回归的方差分析(二)多元回归的方差分析 检验因变量与各自变量之间关系的密切程度检验因变量与各自变量之间关系的密切程度Y的总平方和分解公式是:的总平方和分解公式是: 自由度为自由度为n-1 222) ()()(yyyyyylyy41回归平方和的计算公式:回归平方和的计算公式: 自由度为自由度为k 剩余平方和的计算公式是:剩余平方和的
27、计算公式是: 自由度为自由度为n-1-k 方差分析的方差分析的F检验:检验: F=回归平方和回归平方和/剩余平方剩余平方和和kiijilbyyu12)(ulyyQyy2) (42(三)每个自变量在多元回归中作用大小的检验(三)每个自变量在多元回归中作用大小的检验 取消一个自变量后,回归平方和减少的数值,称为取消一个自变量后,回归平方和减少的数值,称为y对这个变量的偏回归平方和。因此,利用偏回归平方对这个变量的偏回归平方和。因此,利用偏回归平方和可以衡量每个因素在回归中所起作用的大小。和可以衡量每个因素在回归中所起作用的大小。 计算偏回归平方和的公式是:计算偏回归平方和的公式是:Pi=偏回归系数
28、偏回归系数 /逆逆矩阵的一个元素矩阵的一个元素Cii对偏回归平方和的对偏回归平方和的F检验:检验:2ib222eiiieiiSCbSpF43偏相关系数偏相关系数 要正确反映某两个变量的真实关系,就必要正确反映某两个变量的真实关系,就必须在固定其他变量影响的情况下,计算它们须在固定其他变量影响的情况下,计算它们的相关系数,这种相关系数称为的相关系数,这种相关系数称为偏相关系数偏相关系数,也叫净相关系数,纯相关系数等。也叫净相关系数,纯相关系数等。 44一级偏相关系数:一级偏相关系数:)1)(1 (2232132313123 ,12rrrrrr)1)(1 (2232122312132,13rrrr
29、rr)1)(1 (2312213121231 ,23rrrrrr45二级偏相关系数:二级偏相关系数:偏相关系数的显著性检验,同简单偏相关系数的显著性检验,同简单相关系数检验一样,可按自由度相关系数检验一样,可按自由度(n-m,观观察组数察组数-变量数变量数)查查r表。表。)1)(1 (23 ,2423 ,143 ,243 ,143 ,1234,12rrrrrr46第四节第四节 逐步回归逐步回归 建立多元线性回归方程的目的,在于通过对各自变量建立多元线性回归方程的目的,在于通过对各自变量xi的观测来预报或控制因变量的观测来预报或控制因变量y的变化。所以要求配得的回归方的变化。所以要求配得的回归方
30、程包含的自变量程包含的自变量xi必须是对因变量必须是对因变量y有显著作用的。有显著作用的。 前面所介绍的方法是将所有的自变量都包含进方程中,前面所介绍的方法是将所有的自变量都包含进方程中,然后再通过统计检验,逐个把检验不显著的自变量从方程中然后再通过统计检验,逐个把检验不显著的自变量从方程中剔除出去。该方法的缺点就在于:(剔除出去。该方法的缺点就在于:(1)自变量的数目越多,)自变量的数目越多,计算工作越繁重;(计算工作越繁重;(2)在方程中剔除不显著的自变量是不能)在方程中剔除不显著的自变量是不能一次完成的,每次只能剔除一个。一次完成的,每次只能剔除一个。 47 采用受逐步回归就能克服这些缺
31、点。采用受逐步回归就能克服这些缺点。 逐步回归逐步回归:从全部自变量中,先排除一个自变量组:从全部自变量中,先排除一个自变量组成一元线性回归方程,然后逐个增加直至多元。引入成一元线性回归方程,然后逐个增加直至多元。引入自变量的条件是:该自变量在待选的自变量中的偏回自变量的条件是:该自变量在待选的自变量中的偏回归平方和最大且显著,并且引入一个自变量就作一次归平方和最大且显著,并且引入一个自变量就作一次检验,发现原有的老自变量不显著时,随即剔除之。检验,发现原有的老自变量不显著时,随即剔除之。 48一逐步回归方法的具体实施步骤一逐步回归方法的具体实施步骤 (一)建立标准化的正规方程组:组成标准化的
32、增广(一)建立标准化的正规方程组:组成标准化的增广矩阵以及确定检验水平。矩阵以及确定检验水平。1正规方程组:正规方程组: bi= :标准回归系数标准回归系数yrbrbrbr1313212111.yrbrbrbr2323222121.nynnnrbrbrbr.332211iiyyillb/ib492组成相关系数矩阵组成相关系数矩阵 r11 r12 r1i r21 r22 r2iA(0)= rj1 rj2 rji503确定检验水平确定检验水平 51二逐步变换计算二逐步变换计算 (一)选取第一个自变量进入回归方程:(一)选取第一个自变量进入回归方程:1计算偏回归平方和:计算偏回归平方和: 一元偏回归平方和一元偏回归平方和2对最大的偏回归平方和作显著性检验:对最大的偏回归平方和作显著性检验:3为自变量为自变量xk进入回归方程作矩阵变换。进入回归方程作矩阵变换。)0()0()1(iiiyirrP
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2(2024版)虚拟现实游戏内容开发与分销合作协议
- 2024年中外合作研发协议
- 建筑经营年终总结
- 2024年人力资源与雇佣合同
- 小学班主任心理辅导经验交流发言稿
- 2024年化工生产设备采购与安装合同
- 电子产品制造厂施工方案
- 2024年住房转让协议:补偿与赔偿责任详解
- 卧式自动翻洗过滤机相关项目投资计划书范本
- 2024年二手房买卖合同中的付款方式与时间
- 农业信息技术 chapter5 地理信息系统
- 浅谈新形势下加强企业税务管理的对策研究
- 部编版六年级上语文阅读技巧及解答
- 必看!设备管理必须要懂的一、二、三、四、五
- 空冷岛专题(控制方案、谐波及变压器容量选择)
- 结合子的机械加工工艺规程及铣槽的夹具设计
- 林武樟 完整阳宅讲义 笔记版[方案]
- 液氧汽化站安全技术操作规程2018-07.docx
- 《会滚的汽车》ppt课件
- 督学与校长应彼此“亦师亦友”
- 了不起的盖茨比经典台词
评论
0/150
提交评论