回归分析基本思想及其初步应用_第1页
回归分析基本思想及其初步应用_第2页
回归分析基本思想及其初步应用_第3页
回归分析基本思想及其初步应用_第4页
回归分析基本思想及其初步应用_第5页
已阅读5页,还剩86页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

§3.1回归分析的基本思想及其初步应用自主学习通过本节的学习,了解回归分析的基本思想,会对两个变量进行回归分析,明确建立回归模型的基本步骤,并对具体问题进行回归分析,来解决实际应用问题.课标导学分析为

.2.表示具有相关关系的两个变量组成一组数据,将各组1.回归分析是处理变量之间

具有相关关系的一种统计方法.若两个变量之间具有线性相关关系,则称相应的回归数据在平面直角坐标系中用的方法得到,这种图形叫做

散点图

.导读线性回归分析描点∧

∧3.回归直线方程y=bx+a,其中b=2n

i1

n(x

x)(xi

x)(

yi

y)

ii1∧

∧1a=

y

-b

x

(

x

=nni11xi

y

=nni1iy

).(

x

y

)称为样本点的

中心

.∧

∧如何理解回归直线方程中的系数b,a?∧

∧∧∧

∧提示:线性回归方程中a与b是通过样本估计而来的,存在着误差,它刻画了两个变量之间的变化趋势,其中b表示x

变化一个单位时,y

的平均变化量,而a不随y的变化而变化.2

2nn

ni

ii1

i1(x

x)(

y

y)(xi

x)(

yi

y)

4.样本相关系数

r=

i1

用它来衡量两个变量之间的

线性相关关系.当r>0

时,表明两个变量

正相关

;当r<0

时,表明两个变量_负相关.r

的绝对值越接近1,表明两个变量的线性相关性

越强;r

的绝对值接近于0

时,表明两个变量之间

几乎不存在线性相关关系,通常当|r|大于0.75

时,认为两个变量有很强的_线性相关关_系_.5.从散点图中还看到,样本点散布在某一条直线的附近,而不是在一条直线上,所以不能用一次函数y=bx+a来描述它们之间的关系,而是用线性回归模型表示:

y_=bx+a_+e.其中a

和b

为模型的未知参数,e

称为

随机误差

.随机误差e

产生的主要原因是什么?提示:性函数不恰当引起的误差;(2存在观测误差.∧∧

∧n∧2后

(yi

y

i)

为6.数据点和它在回归直线上相应位置的差异(yi-yi)是随机误差的效应,称ei=yi-yi

残差

,将所得的值平方i1

残差平方和

,它代表了随机误差的效应.来刻画回归的效果,其计算公式是:7.用相关指数_R2,R2

的值越大,说明残差平方和越小,也就是说模型的拟合效果越好性回归模型中,R2

表示解释变量对预报变量变化的贡献率.R2

越接近于

1

,表示回归的效果越好

(因为R2

越接近于1,表示解释变量和预报变量的线性相关性越强).8.在研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线性相关,是否可以用线性回归模型来拟∧

∧合数据,然后,通过残差e1,e2,…,en

来判断模型拟合的效果,判断原始数据中是否存在可疑数据,这方面的分析工作称为

残差分析

.9

.利用图形来分析残差特性,作图时纵坐标为

残差

,横坐标可以选为样本

,或身高数据,或体重估计值等,这样作出的图形称为

残差图

.如何利用残差图说明模型拟合的精确度?提示:残差图中的异常样本点和样本点的带状分布区域的宽窄.残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精确度越高.1.在下列各组量中:①正方体的体积与棱长;②一块农田的水稻产量与施肥量;③人的身高与;④家庭的支出与收入;⑤某户家庭的用电量与电价,其中量与量之间是相关关系的是(

)A.②③C.④⑤B.③④D.②③④基础自测解析:①是函数关系

V=a3;⑤电价是 规定的,与用电量有一定的关系,这种关系是确定的关系.②③④中的两个变量之间的关系都是相关关系,因为水稻产量与施肥量在一定范围内成正比、反比或其他关系,并不确定;人的身高一开始随着 的增长而增长,之后则不变化,在身高增长时,也不是均匀增长的,家庭的支出与收入有一定的关系在一开始,支出会随着收入的增加而增加,而当收入增加到一定的值时,家庭支出趋向于一个常数,也不是确定关系.答案:D∧2.对于回归方程y=3-5x,自变量x

每增加一个单位时(

)A.y

平均增加3

个单位B.y

平均减少5

个单位C.y

平均增加5

个单位D.y

平均减少3

个单位解析:因为-5

是斜率的估计值,说明x

每增加一个单位时,y

平均减少5

个单位,故应选B.答案:B∧3.回归直线y=bx+a

必过点()A.(0,0)C.(0,

y

)B.(

x

,0)D.(

x

y

)解析:因为回归直线一定过样本点的中心(x

,y

),所以应选D.答案:D∧4.若施化肥量

x(单位:kg)与小麦产量

y(单位:kg)之间的回归直线方程为y=250+4x,当施化肥量为

50

kg

时,预计小麦产量为

.∧

∧解析:把x=50

代入y=250+4x,可求得y=450.答案:450kg5.某产品的 费用

x(单位:百万元)与销售额

y(单位:百万元)之间有如下对应数据:x24568y3040605070画出散点图;求出y

与x

之间的回归方程.解:(1)作散点图如下图所示.(2)由上图可以看出,样本点分布在一条直线附近,x

和y

线性相关,可以用线性回归方程来近似刻画它们之间的关系,列出下表,并用科学计算器进行有关计算.i12345xi24568yi3040605070xiyi60160300300560x2i416253664x

=5,

y

=50,5

5

x2

=145,

x

y

=1380i

i

ii1

i1∧于是可得b=5

22

5xyi

i1

5i1x

5x

xi

yi=1380-5×5×50145-5×52=6.5,∧

∧a=

y

-b x

=50-6.5×5=17.5.∧于是所求的回归方程是y=6.5x+17.5.合作学习1.求回归直线方程的一般方法:(1)画出散点图,从散点图中我们可以看出样本点是否呈条状分布,判断两个变量是否具有线性相关关系;思维聚焦∧

∧(2)求回归系数a,b,回归方程的截距a和斜率b的最小二乘估计∧

∧公式分别为:a=

y

-b

x

,b=2n

i

i1

(x

x)(xi

x)(

yi

y)=2n

ni

i1

ni1

i1

nxyx

nx2

xi

yi

.其中x

=1nnix

y

=1nni1

i1

iy

.(x

,y

)称为样本点的中心;∧

∧(3)写出回归直线方程y=bx+a,并用回归直线方程进行预报.2.随机误差e

的主要来源:a.用线性回归模型近似真实模型所引起的误差,可能存在非线性的函数能够更好地描述

y

与x

之间的关系,但是用线性函数表示这种关系就会产生误差,这种误差包含在e

中;b.忽略某些因素的影响,影响

y

的因素不仅是变量x,可能还包括其他许多因素,其影响都包含在e

中;c.观测误差,由于测量工具等原因,导致y的观测值产生误差,这种误差也包含在e

中.3.在残差分析中,通过残差来判断线性回归模型拟合的效果.在残差图中,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高.另外,我们也可以用相关指数R2来刻画回归的效果,R2取值越大,说明残差平方和越小,即模型的拟合效果越好,R2越接近于1,表示回归的效果越好.4.一般地,建立回归模型的基本步骤为:确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存

性关系等);由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程y=bx+a);按一定规则估计回归方程中的参数(如最小二乘法);得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差呈现不随机的规律性等等),若存在异常,则检查数据是否有误,或模型是否合适等.5.非线性相关问题在实际问题中,我们所研究的两个变量不一定都呈线性相关关系,它们之间可能呈指数关系或对数关系等等.在某些情况下可以借助线性回归模型研究呈非线性关系的两个变量之间的关系,这时可考虑对原始数据进行相应的变换,把非线性问题转化为线性问题.基本概念辨析例

1

有下列说法:①线性回归分析就是由样本点去寻找一条直线,贴近这些样本点的数学方法;②利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系表示;③∧

∧通过回归方程y=bx+a及其回归系数b,可以估计和观测变量的取值和变化趋势;④因为由任何一组观测值都可以求得一个回归直线方程,所以没有必要进行相关性检验.其中正确命题的个数是(

)A.1C.3B.2D.4思维激活[解析]①反映的正是最小二乘法思想,故正确.②反映的是画散点图的作用,也正确.∧

∧③反映的是回归模型y=bx+a+e,其中e

为随机误差,故也正确.④是不正确的,在求回归方程之前必须进行相关性检验,以体现两变量的关系.[答案]

C[评析]确定关系和相关关系并没有一条不可逾越的鸿沟,由于实验误差、测量误差的存在,变量之间的确定关系往往通过相关关系表现出来.反过来,在有些问题上,我们可以通过研究相关关系来深入了解变量内在规律,从而找到它们的确定关系.练

1

下列说法中错误的是(

)A.如果变量x

与y

之间存在着线性相关关系,则我们根据实验数据得到的点(xi,yi)(i=1,2,…,n)将散布在某一条直线的附近B.如果两个变量

x

y

之间不存 性关系,那么根∧

∧据它们的一组数据(xi,yi)(i=1,2,…,n)不能写出一个线性方程C.设x、y

是具有相关关系的两个变量,且y

关于x

的线性回归方程为y=bx+a,则b叫做回归系数D.为使求出的线性回归方程有意义,可以求出相关系数来判断变量

y

x

之间是否存 性相关关系[答案]

B求回归直线方程例

2

某城区为研究城镇居民每户家庭月人均生活费支出和月人均收入的相关关系,随机抽取

10

户 ,其

结果如下:月人均收入x(元)3003904205045707007608008501080月人均生活费支出y(元)255324330345450520580650700750利用上述资料:画出散点图:如果变量x与y

之间具有线性相关关系,求出回归直线方程;预报月人均收入为280

元时,月人均生活费支出应为多少元?[分析]首先利用描点法得到散点图,再按求回归方程的步骤和公式求出回归方程,最后利用回归直线方程来预报.[解]

(1)作出散点图如下图所示.(2)

x

=637.4,

y

=490.4.∧b=10

2ii1(x

x)10

(xi

x)(

yi

y)

i1

≈0.70761,∧∧∧a=

y

-b

x

≈490.4-0.70761×637.4≈39.36939.所以y=0.70761x+39.36939.∧(3)把x=280

代入,得y≈237.5

元.对于月人均收入为280

元的家庭,利用回归直线方程预报其月人均生活费支出约为237.5

元.[评析]利用回归方程可以进行预报,回归直线方程将部分观测值所反映的规律进行延伸,它是我们对有线性相关关系的两个变量进行分析和控制的依据.练2

随着我国经济的快速发展,城乡居民的生活水平不断提高,为研究某市家庭月平均收入x

与月平均生活支出

y

的关系,该市统计部门随机了10

户家庭,所得数据如下表:家庭编号i12345678910收入xi/千元0.81.11.31.51.51.82.02.22.42.8支出yi/千元0.71.01.21.01.31.51.31.72.02.5判断家庭月平均收入与月平均生活支出是否线性相关,若二者线性相关,求回归直线方程.[解]

作出散点图(如下图).观察发现各个数据对应的点分布在一条直线附近,所以二者呈线性相关关系.10因为x

1

×(0.8+1.1+1.3+1.5+1.5+1.8+2.0+2.2+2.4+2.8)=1.74.10y

1×(0.7+1.0+1.2+1.0+1.3+1.5+1.3+1.7+2.0+2.5)=1.42.∧b=10

2ii1(x

x)10

(xi

x)(

yi

y)

i1

≈0.8136,∧∧∧a=

y

-b

x

≈1.42-1.74×0.8136≈0.0043.所以回归直线方程为y=0.8136x+0.0043.的体重平均值如下求非线性回归方程例3

某地区不同身高的未成年表:身高x/cm60708090100110体重y/kg6.137.909.9912.1515.0217.50身高x/cm120130140150160170体重y/kg20.9226.8631.1138.8547.2555.05试建立y

与x

之间的回归方程.[分析]首先要作出散点图,根据散点图判定x

与y

之间是否具有线性相关关系,若具有线性相关关系,再求线性回归方程.在散点图中,样本点并没有分布在某个带状区域内,因此两个变量不呈线性相关关系,所以不能直接利用线性回归方程来建立两个变量之间的关系.根据已有的函数知识,可以发现样本分布在某一条指数函数曲线y=c1ec2x

的周围,其中c1

和c2

是待定参数.[解]

根据上表中数据画出散点图.由图看出,样本点分布在某条指数函数曲线y=c1ec2x

的周围,于是令z=lny.x60708090100110120130140150160170z1.812.072.302.502.712.863.043.293.443.663.864.01画出散点图如下图所示.由表中数据可得z

与x

之间的回归直线方程:∧

∧z=0.693+0.020x,则有y=e0.693+0.020x.[评析]研究两个变量的关系时,根据样本数据作出散点图,观察散点图中样本点的分布,从整体看,如果样本点没有分布在某一条直线附近,我们就称这两个变量之间不具有线性相关关系.当回归方程不是形如y=bx+a(a,b∈R)时,称之为非线性回归方程.列举通过变量代换,把非线性回归方程转化为线性回归方程:y=axm(a,m

为常数,a,x,y

取正值),令u=lny,v=lnx,b=lna,则u=mv+b.y=cax(a>0,c>0,a,c

为常数),令u=lny,k=lna,b=lnc,则u=kx+b.x(3)y=a+b

u=y,v,令1=x,则u=a+bv.练

3

若体重超过相同身高

体重平均值的

1.2

倍为偏胖,低于0.8

倍为偏瘦,由例3

中求出的回归方程,那么这个地区一名身高为

175 cm

体重为

82 kg

的在校男生体重是否正常?∧[

解]

x

175

时,

平均体重

y

e0.693+0.020×175≈66.22,由于66.22×1.2≈79.46<82,所以这个男生偏胖.残差分析的应用例4

19

世纪末,德计学家

根据统计资料,对消费结构变化得出一个规律:一个家庭收入越少,家庭收入中(或总支出中)用来

食物的支出所占的比例就越大,随着家庭收入的增加,家庭收入中(或总支出中)用来

食物的支出所占的比例就会降低.推而广之,一个国家越穷,每个国民的平均收入中(或平均支出中)用于食物的支出所占的比例就越大,随着国家的富裕,这个比例呈下降趋势.系数是根据定律得出的比例系数,是表示生活水平高低的一个指标,其计算公式为:食物支出金额系数(%)=

总支出金额

×100%.在我国,判定生活发展阶段的标准是:贫困>59%,温饱50%~59%,小康40%~50%,富裕30%~40%,最富裕<30%.根据国家城镇居民家庭的统计显示,随着中国经济的不断增长,系数不断下降,居民消费已从温饱型向享受型、发展型转变.如下表所示:年份197819901992199419961998200020022003尔系列(%)57.554.253.050.048.844.739.437.737.1(1)求根据年份预报 系数的回归方程;系数;根据回归方程预报2007

年的求相关指数;

(4)作出残差图.[分析]由于问题中要求根据年份预报系数,因此选取年份为自变量x,系数为因变量y,作出散点图,并根据散点图判断x,y

是否具有相关关系,若有,则利用最小二乘法求出回归直线方程.[解]

(1)散点图:∧并求得线性回归方程为:y=-0.8971x+1836.5.(2)由线性回归方程可知,2007

年的0.8971×2007+1836.5=36.0203.系数为:-(4)列表如下:123456789年份197819901992199419961998200020022003尔系数(%)57.554.253.050.048.844.739.437.737.1残差∧e-4.52.93.52.32.90.6-2.7-2.8-2.5由上表可得残差图:[评析]作残差图是残差分析的一种重要方法,在作图时,横坐标可以选用样本,或有关数据,这样作出的图形称为残差图.如果残差点比较均匀地分布在水平带状区域内,说明选用的模型比较适合,这样的带状区域越窄,说明所选用的模型的拟合效果越好,回归方程的预报精度也越高.如果残差点分布不均匀,应首先确认的样本点是否有误,如果有误,就予以纠正,然后再重新利用线性回归模型来拟合数据,如果没有错误,则需要寻找其他原因.在实际工作中,残差平方和越小,预报精确度越高,相关指数取值越大,说明模型的拟合效果越好.练

4

为了研究某种细菌随时间

x

变化,繁殖个数

y的变化,收集数据如下:时间x(天)123456繁殖个数y612254995190用时间作解释变量,繁殖个数作预报变量,作出这些数据的散点图;求y

与x

之间的回归方程;描述解释变量与预报变量之间的关系,计算残差、相关指数R2.[解]

(1)散点图:(2)由散点图看出样本点分布在一条指数函数y=c1ec2

x的周围,于是令z=lny,则x123456z1.792.483.223.894.555.25∧由计数器算得,相关系数r≈0.9999>0.75,所以z

与x有很强的线性相关关系.因此得z=0.69x+1.112,∧则有y=e0.69x+1.112.(3)∧y6.0612.0924.0948.0495.77190.9y6122549951902ˆ2ˆni

ii1n

i

i1e

(

y

y

)

=3.1643,2ni1i(

y

y)

ny2ny2i1

i=24642.83,R2=1-

3.1643

≈0.9999.24642.83即解释变量时间对预报变量繁殖细菌的个数解释了99.99%.测一、选择题1

1

11.在一次试验中,当变量x

的取值分别为1,2,3,41时,变量y

的值分别为2,3,4,5,则y

与x的回归曲线方程为(

)∧∧1

2∧A.y=x+1C.y=2x+1∧B.y=x+3D.y=x-1∧1解析:由数据可得,四个点都在曲线y=x+1

上.答案:A2.某地财政收入x

与支出y

满足线性回归方程y=bx+a+e(单位:亿元),其中b=0.8,a=2,|e|<0.5,如果今年该地区财政收入

10亿元,年支出预计不会超过(

)A.10

亿C.10.5

亿B.9

亿D.9.5

亿解析:代入数据y=10+e,因为|e|<0.5,所以|y|≤10.5,故不会超过10.5

亿.答案:C3.观察两个相关变量的如下数据:x-1-2-3-4-554321y-0.9-2-3.1-3.9-5.154.12.92.10.9则两个变量间的回归直线方程为(

)∧∧∧A.y=0.5x-1C.y=2x+0.3∧B.y=xD.y=x+1解析:本题主要考查回归直线方程经过样本点的中心(x

,y

),因此只需求x

,y

即可.故选B.答案:B4.为了表示

n

个点与相应直线在整体上的接近程度,我们常用

表示.(

)∧

∧解析:由回归直线方程y=a+bx可知,y为一个量的估计值,而yi

为它的实际值,在最小二乘估计中(yi-a-bxi)2∧2,故选C.即(yi-yi)答案:C5.甲、乙、丙、丁四位同学各自对A、B

两变量的线性相关性作试验,并用回归分析方法分别求得相关系数r

与残差平方和m

如下表:甲乙丙丁r0.820.780.690.85m106115124103则试验结果体现A、B

两变量更强的线性相关性的是同学()A.甲

B.乙

C.丙

D.丁解析:由表可知,丁同学的相关系数r

最大且残差平方和m

最小,故丁同学的试验结果体现A、B

两变量更强的线性相关性.答案:D为了 两个变量

x

y

之间的线性相关性,甲、乙两位同学各自独立做了

10

次和

15次试验,并且利用线性回归方程,求得回归直线分别为

l1、l2,已知两人所得试验数据中,变量

x

y

的数据的平均值都相等,且分别都是

s、t,那么下列说法正确的是(

)直线l1

和l2

一定有公共点(s,t)直线l1

和l2

相交,但交点不一定是(s,t)必有l1∥l2l1

和l2

必定重合∧解析:线性回归直线方程为y=bx+a,而a=

y

-b

x

,即a=t-bs.∴t=bs+a.∴(s,t)在回归直线上.∴直线l1

和l2

一定有公共点(s,t).答案:A二、填空题∧7.对于回归直线方程y=4.75x+257,当

x=28

时,y的估计值为

.解析:把x=28

代入即可.答案:3908.若一组观测值(x1,y1),(x2,y2),…,(xn,yn)之间满足yi=a+bxi+ei(i=1,2,…,n),若ei

恒为0,则R2

.解析:∵ei=0恒成立,则变量xi

和yi

间成函数关系,此时R2=1.答案:19.已知x,y

之间的一组数据如下表:x1.081.121.191.25y2.252.372.432.55∧

∧则

y

x

之间的线性回归方程:

y

bx+a必过点

.解析:回归方程y^=b^x+a^必过样本中心(x

,y

),1.08+1.12+1.19+1.254∵

x

=1.16.y

=2.25+2.37+2.43+2.554=2.4.∴样本中心为(1.16,2.4).答案:(1.16,2.4)三、解答题10.为了研究三月下旬的平均气

)与四月二十号前棉花害虫化蛹 日(y)的关系,某地区观察了

2006

年至

2011年的情况,得到下面的数据:年份200620072008200920102011x(℃)24.429.632.928.730.328.9y19611018据气象

,该地区在

2012

年三月下旬平均气温为27℃,试估计

2012

年四月化蛹 日为哪天.解:运用科学计算器,得x

=66ii1x

≈29.13,

y

=1

166i1iy

=7.5,62

ii1x

=5130.92,6

i

ii1x

y

=1222.6,6

6xy622x

6x

xi

yi

i∴b=

i1

≈-2.2,∧∧i1a=

y

-b

x

=7.5-(-2.2)×29.13≈71.6.∴回归直线方程为y=-2.2x+71.6.当x=27

时,y=-2.2×27+71.6=12.2据此,可估计该地区2012年4月12日或13日为化蛹日.11.假设关于某设备的使用年限x

和所支出的y(万元)有如下的统计资料:使用年限x23456y2.23.85.56.57.0∧若由资料知y

对x

呈线性相关关系.试求:(1)线性回归方程y=bx+a

的回归系数a、b;(2)估计

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论