




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一章统计案例
1.1回归分析的基本思想及其初步应用
k知识
i.回归分析
回归分析是对具有的两个变量进行统计分析的一种常用方法,回归分析的基本步骤是
画出两个变量的,求,并用回归方程进行预报.
2.线性回归模型
Z(%—x)(y,-y)Ex^^rixy
(1)在线性回归方程$=2+九中,b=J------------=号----------,a=________________.
才(七一亍)2Jx,2-nx2
/=!;=1
其中元=,7=,(元,刃称为样本的中心.
(2)线性回归模型y=fex+a+e,其中e称为,自变量x称为变量,
因变量y称为变量.
温馨提示:6是回归直线的斜率的估计值,表示》每增加一个单位,V的平均增加单位数.
3.刻画回归效果的方式
方式方法计算公式刻画效果
R2R2=________________心越_____________,表示回归的效果越好
残差点________________地落在水平的带
自称为相应于点(%,%)的残差,状区域中,说明选用的模型比较合适,其中
残差图
这样的带状区域的宽度一•_____________,
ei=yi-yi
说明模型拟合精确度越高
残差平方和越________________,模型的拟
残差平方和E(x-^)2
i=\合效果越好
K知识参考答案:
1.相关关系散点图回归方程
]II
2.(1)y-bx一£苍-VJyi(2)随机误差解释预报
〃/=!n,,1
E(x-x)2
3.1-与---------接近于1比较均匀越窄小
之(>二刃2
i=\
重占
了解随机误差、残差、残差分析的概念,会用残差分析判断线性回归模型的
K一重点
拟合效果,掌握建立回归模型的步骤
K一难点通过对典型案例的探究,了解回归分析的基本思想方法和初步应用
K一易错不能准确理解概念和参数的含义
—留鼠迷&概念辨析
,有下列说法:
①线性回归分析就是由样本点去寻找一条直线,使之贴近这些样本点的数学方法;
②利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系表示;
③通过回归方程e=九+4可以估计观测变量的取值和变化趋势;
④因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.
其中正确命题的个数是
A.1B.2
C.3D.4
【答案】C
【解析】①反映的正是最小二乘法思想,故正确;
②反映的是画散点图的作用,也正确;
③解释的是回归方程亍=以+6的作用,故也正确;
④是不正确的,在求回归方程之前必须进行相关性检验,以体现两变量的关系.
因此正确命题的个数为3,故选C.
【名师点睛】由题目可获取以下信息:①线性回归分析;②散点图;③相关性检验等的相关概念及意义.解
答本题可先逐一核对相关概念及其性质,然后再逐一作出判断,最后得出结论.
看•留舅感&线性回归模型
|一台机器由于使用时间较长,生产的零件有一些会缺损,按不同转速生产出来的零件有缺损的统
计数据如下表:
转速X(转/秒)1614128
每小时生产缺损零件数y(件)11985
(1)作出散点图;
(2)如果y与%线性相关,求出回归直线方程;
(3)若实际生产中,允许每小时生产的产品中有缺损的零件最多为10个,那么,机器的转速应控制在什
么范围内?(结果保留整数)
附:线性回归方程》=晟+&中,否=丹----------,a=y-bx,其中元歹为样本平均值.
V"'2—2
1=1
【答案】(1)见解析;(2)y=0.73x-0.875;(3)机器的运转速度应控制在15转/秒内.
【解析】(1)根据表中的数据画出散点图如下图:
y
15
10.
*
5•
0810121416工
(2)由题中数据列表如下:
i1234
Xi1614128
yi11985
Xiyi1761269640
x=12.5,y=8.25,gx;=660,gx*=438,
X=1/=1
b=---------—70.73,«=8.25-0.73x12.5=-0.875,;.》=O.73x-0.875.
660-4x12.5?
(3)令0.73x—0.875W10,解得xW14.9al5,
故机器的运转速度应控制在15转/秒内.
【名师点睛】(1)求回归直线方程的一般步骤如下:①作出散点图,依据问题所给的数据在平面直角坐标系
中描点,观察点的分布是否呈条状分布,即是否在一条直线附近,从而判断两变量是否具有线性相关关系;
②当两变量具有线性相关关系时,求回归系数原石,写出回归直线方程.
(2)回归直线方程m=4+位中的白表示x每增加1个单位时,亍的变化量的估计值为几
(3)可以利用回归直线方程y=a+bx预报在x取某个值时y的估计值.
(4)由于回归直线方程中的系数4和£是通过样本估计而来的,存在着误差,这种误差可能导致预报结果有
偏差.
三留四速&线性回归分析
为研究重量1(单位:克)对弹簧长度y(单位:厘米)的影响,对不同重量的6个物体进行测
量,数据如下表所示:
X51015202530
y7.258.128.959.9010.911.8
(1)作出散点图,并求回归方程:
(2)求相关指数R2,并判断模型的拟合效果;
(3)进行残差分析.
【答案】(1)散点图见解析,回归方程为9=6.285+0.183%;(2)回归模型的拟合效果较好;(3)见解析.
【解析】(1)散点图如下图所示:
y
12
10
8
6
4
2
05101520253035%
从散点图,可以看出这些点大致分布在一条直线的附近,因此,可用公式求得线性回归方程的系数.
因为jf=」x(5+10+15+20+25+30)=17.5,
6
(7.25+8.12+8.95+9.90+10.9+11.8)®9.487,
6
66
Zx;=2275,Zx,x=1076.2.
i=li=I
计算,得Ba().183,2a6.285.
所以所求回归方程为9=6.285+0.183x.
(2)列表如下:
0.050.005-0.08-0.0450.040.025
X-9-2.24-1.37-0.540.411.412.31
66nn।Qio
£(X—LA”0.01318,£(>广歹>=14.6781,所以R?a1—J°«0.9991,
普,,M14.6784
所以回归模型的拟合效果较好.
(3)由表中数据可以看出残差点比校均匀地落在比较狭窄的水平带状区域中,说明选用的线性回归模型的
精度较高,由以上分析可知,弹蓄长度与拉力呈线性关系.由残差表中的数值可以看出第3个样本点的残
差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正数据,重新建立回
归模型.
【名师点睛】(1)线性回归分析的过程:①随机抽取样本,确定数据,形成样本点;②由样本点形成散点图,
判定是否具有线性相关关系;③由最小二乘法求线性回归方程;④进行残差分析,分析模型的拟合效果,
不合适时,分析错因,予以纠正:⑤依据回归方程作出预报.
(2)用散点图可粗略判断两个变量间有无线性相关关系,用相关指数R2可以描述两个变量之间的密切程度.
四’里里邕&非线性回归分析
,在一次抽样调查中测得样本的5个样本点,数值如表:
X0.250.5124
y1612521
试建立y与X之间的回归方程.
【答案】见解析.
【解析】作出变量y与x之间的散点图如图所示:
01234X
由图可知变量y与x近似地呈反比例函数关系.
k1
设〉=一,令,=一,则丁=灯.由y与x的数据表可得y与f的数据表:
xx
t4210.50.25
y1612521
作出y与f的散点图如图所示:
由图可知y与/呈近似的线性相关关系.
55
又亍=1.55,y=7.2,=94.25,Z,2=21.3125,
1=1/=!
5
£我一5亍了
94.25-5x1.55x7.2
------------«4.1344,
21.3125-5xl.552
ZC-5P
/=1
2=歹一片=7.2-4.1344x1.55^0.8,
:.y=4.1344r+0.8.
41344
所以y与x的回归方程是£——+0.8.
x
【名师点睛】求非线性回归方程的步骤如下:
①确定变量,作出散点图;
②根据散点图,选择恰当的拟合函数;
③变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程;
④分析拟合效果,通过计算相关指数或画残差图来判断拟合效果:
⑤根据相应的变换,写出非线性回归方程.
五更遏里&不能准确理解概念和参数的含义
,关于X与y有如下数据:
X24568
y3040605070
为了对总丁两个变量进行统计分析,现有以下两种线性模型:甲模型5=6.5X+17.5,乙模型3=7X+17,
试比较哪一个模型拟合的效果更好.
55
180
【错解】•••猫=1-^--------=1-诉=0.845,--------=0.82,
Z(y,-7)21000Z(z-7)2WOO
i=li=l
蹄>破,乙模•型拟合的效果更好.
【错因分析】明确收的大小与拟合效果的关系,用相关指数收来比较模型的拟合效果,配越大,模型的
拟合效果越好,并不是片越小模型的拟合效果越好.
5
E(y,-y)2之业-4
155l180
【正解】•••赤=1一与--------=0.845,Rl=T---=0.82,
X(z-y)2W001000
;=|i=i
舄>夫3二甲模型拟合的效果更好・
■好题
基砒
1.己知回归方程9=2x+l,而试验得到一组数据是(2,4.9),(3,7.1),(4,9.1),则残差平方和是
A.0.01B.0.02
C.0.03D.0.04
2.对变量x、y有观测数据(H,W(i=l,2,…,10),得散点图①;对变量〃、u有观测数据(出,V/)(/=1,2,…,
10),得散点图②.由这两个散点图可以判断
A.变量x与y正相关,〃与v正相关B.变量x与y正相关,〃与v负相关
C.变量x与y负相关,M与v正相关•D.变量x与y负相关,〃与v负相关
3.已知x和y之间的一组数据如下表:
X0123
y1357
则y与x的线性回归方程£=R+4必过点
3
A.(2,2)B.(-,0)
2
3
C.(1,2)D.(-,4)
2
4.四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个
结论:①y与x负相关且1=2.3x—6.4;②y与x负相关且'夕=~~3.4x+5;③y与x正相关且》=5.3x+
8.4;④y与x正相关且$=—4.36x—4.5.其中一定不正确的结论的序号是
A.①②B.②③
C.③④D.①④
5.某学校开展研究性学习活动,某同学获得一组实验数据如下表:
X1.99345.16.12
y1.54.047.51218.01
对于表中数据,现给出下列拟合曲线,其中拟合程度最好的是
B.T
A.y=2x~2
D.y=log2x
6.已知x,y的取值如下表:
X0134
y2.24.34.86.7
若X,y具有线性相关关系,且回归方程为f,=0.95x+a,则。=.
7.某市居民2011〜2015年家庭年平均收入M单位:万元)与年平均支出M单位:万元)的统计资料如下表:
年份20112012201320142015
收入X11.512.11313.515
支出y6.88.89.81012
根据统计资料,居民家庭年平均收入的中位数是,家庭年平均收入与年平均支出有
线性相关关系.
8.随着我国经济的发展,居民的储蓄存款逐年增长,•某地区城乡居民人民币储蓄存款(年底余额)如下表:
年份20142015201620172018
时间代号r12345
储蓄存款义千亿元)567810
(1)求y关于f的回归方程$=6+△;
(2)用所求回归方程预测该地区2019年《=6)的人民币储蓄存款.
/__
-I?/一川>__
附:回归方程£=启+&中,--------,a^y-bt.
/=1
怩力
9.为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计表:
收入M万元)8.28.610.011.311.9
支出M万元)6.27.58.08.59.8
根据上表可得回归直线方程$=蜃+4,其中5=().76*=亍-5噎.据此估计该社区一户年收入为15万
元家庭的年支出为
A.11.4万元B.11.8万元
C.12.0万元D.12.2万元
10.具有线性相关关系的变量X,y有一组观测数据(如y)(i=l,2,…,8),其回归直线方程是亍=;x+a
且X|+/+…+/=6,%+%+…+%=3,则实数。=
11.已知具有线性相关关系的两个变量x、y之间的一组数•据如下表:
X01234
y2.24.34.54.86.7
且回归方程£=八+3.6,则当x=6时,y的预测值为
A.8.46B.6.8
C.6.3D.5.76
12.关于x与y有如下数据:
X24568
y3040605070
为了对x,y两个变量进行统计分析,现有以下两种线性模型:甲:y=6.5x+17.5,乙:»=7x+17,
则(填“甲”或“乙”)模型拟合的效果更好.
13.以下是某地收集到的新房屋的销售价格y和房屋的面积x的数据:
房屋面枳(m2)11511080135105
销售价格(万元)24.821.618.429.222
(1)画出数据对应的散点图;
(2)求线性回归方程,并在散点图中加上回归直线;
(3)根据(2)的结果估计当房屋面积为150m2时的销售价格.
14.某电脑公司有6名产品推销员,其工作年限与年推销金额的数据如下表:
推销员编号12345
工作年限X/年35679
推销金额),/万元23345
(1)以工作年限为自变量,推销金额为因变量y,作出散点图;
(2)求年推销金额y关于工作年限X的线性回归方程;
(3)若第6名推销员的工作年限为11年,试估计他的年推销金额.
真M
15.(2016新课标全国HI)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图
x
M
st
京
W
K施
M巽
K
谷
卧
(1)由折线图看出,可用线性回归模型拟合y与f的关系,请用相关系数加以说明;
(2)建立y关于,的回归方程(系数精确到0.0r),预测2016年我国生活垃圾无害化处理量.
77n
参考数据:Zy=9.32,Zf,y,=40.17氐(%一歹)2=0-55,币=2646,
i=\i=\V/=]
X(^-D(x-y)
参考公式:相关系数“^=,
)22(y—a
Vf=l/=1
回归方程y^a+bt中斜率和截距的最小二乘估计公式分别为:b=~~~-,a=y—hT•
)2
/=!
16.(2017新课标全国I文节选)为了监控某种零件的一条生产线的生产过程,检验员每隔30min从该生
产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件
的尺寸:
抽取次序12345678
零件尺寸9.9510.129.969.9610.019.929.9810.04
抽取次序910111213141516
零件尺寸10.269.9110.1310.029.2210.0410.059.95
116Pi~161-116-
经计算得八记少=9.97年斗-%)2=J—(£%,2-16%2)«0.212,
-J616
-8.5)2。18.439,£(X,-X)(I-8.5)=-2.78,其中七为抽取的第i个零件的尺寸,
JM<=1
7=1,2,…,16.求(x”i)(1=1,2,…,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不
随生产过程的进行而系统地变大或变小(若|川<0.25,则可以认为零件的尺寸不随生产过程的进行而
系统地变大或变小).
君(必一刃
附:样本(x,.,x)(i=1,2,-,n)的相关喙数rV0.008x0.09.
一-.一皑♦熙
1.【答案】C
【解析】因为残差自=%-9,所以残差的平方和为(4.9—5)2+(7.1-7)2+(9.1—9)2=0.03.故选C.
2.【答案】C
【解析】题图①中的数据y随x的增大而减小,因此变量x与y负相关;题图②中,随着“的增大,v也
增大,因此变量”与v正相关,故选C.
3.【答案】D
-13-13
【解析】因为彳=7*(0+1+2+3)=],y=1X(l+3+5+7)=4,所以回归方程5>=云+4必过点(5,
4).•故选D.
4.【答案】D
【解析】由回归直线方程卞=公+3,知当6>0时,,■与x正相关;当6<0时,丁与x负相关,所以①
④一定错误.故选D.
5.【答案】C
【解析】可以代入检验,当x取相应的值时,所求y与已知),相差平方和最小的便是拟合程度最高的.故
选C.学++科一网
6.【答案】2.6
【解析】由已知得[=2,7=4.5,而回归方程过点丘,歹),则4.5=0.95x2+a,解得a=2.6.
7.【答案】13正
【解析】把2011〜2015年家庭年平均收入按从小到大顺序排列为11.5,12.1,13,13.5,15,因此中位数
为13,由统计资料可以看出,当年平均收入增多时,年平均支出也增多,因此两者之间具有正的线性相
关关系.
8.【答案】(1)9=1.21+3.6;(2)10.8千亿元.
【解析】(1)整理所给数据:
序号tyt2ty
11515
226412
337921
4481632
55102550
5
Z153655120
/,=]
由上表可得r=3,y=—=7.2,Zd=55,>J;y;=120.
5i=li=l
一…,120-5x3x7.2,3…一:一,
所以8=-------------=1.2,故a=y—4=72-1.2x3=3.6,
55-5x9.
故所求回归直线方程为9=L2/+3.6.
(2)当f=6时,%=1.2x6+3.6=10.8(千亿元).
所以预测该地区2019年的人民币储蓄存款为10.8千亿元.
9.【答案】B
…-8.2+8.6+10+11.3+11.9〃、-6.2+7.5+8.0+8.5+9.8。
[解析]x=---------------------=10,y=---------------------=8.
a=y-bJc=S-0.76xl0=0.4,线性回归方程为y=0.76%+0.4,
所以当x=15时,$=0.76x15+0.4=11.8.故选B.学#科%网
10.【答案】B
-63-3
【解析】因为F+为+…+m=6,用+必+…+判=3,所以x=7=:,y=->所以这组数据的
848
样本中心点是(:3,三3),把样本中心点代入回归直线方程f=1得,313解得。=三1,
4838348
故选B.
11.【答案】C
0+1+2+3+42.2+4.3+4.5+4S+6.7
【解析】因为工=2,y=4.5,所以将点工7)代入回归
55
方程$=的+3.6,可得2XB+3.6=4.5,解得g=0.45,所以g=0.45x+3.6,当x=6时,?=6.3,
故选C.
12.【答案】甲
5
£(%—色)2
[解析】设甲模型的相关指数为R;,则R;=l—与---------=1--=0.845;设乙模型的相关指
ZU-y)21000
/=1
180
数为长,则笈=1------=0.82.因为0.845>0.82,即R:>内,所以甲模型拟合效果更好.
■1000■
13.【答案】(1)见解析;(2)$=0.1962x+1.8142;(3)31.2442万元.
【解析】(1)散点图如图所示:
y销售价格(万元)
35y=0.1962x+1.8166
3()
25
20
15
90110130150面积(m?)
(2)
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 桩基冬季施工方案
- 农业项目资金筹措方案
- 汽车行业基础知识
- 大理石楼地面施工方案
- 红砖建筑加固施工方案
- 2025年非调质钢项目发展计划
- 山东省滨州市邹平市2024-2025学年七年级上学期期末考试数学试卷(原卷版+解析版)
- 非机动车棚工程施工方案
- 随州钢结构农村房施工方案
- 沂源公路标志牌施工方案
- 人文社科书籍《中国在梁庄》
- 2025年上海市中考语文备考之记叙文十大考点梳理(附模考练习及参考答案)
- 第12课 结交朋友-初识人工智能(教学设计)2023-2024学年第四册信息技术河大版(三起)
- 校园餐专项整治行动工作方案
- RB/T 223-2023国产化检测仪器设备验证评价指南气相色谱仪
- DB3417-T 031-2024 学校食堂场所布局设置规范
- FANUC机器人培训教程(完成版)
- 《孤独症谱系障碍:家长及专业人员指南》笔记
- 2024年全国职业院校技能大赛高职组(检验检疫技术赛项)考试题库(含答案)
- 博士后研究报告(出站)
- 2024年单招考试题
评论
0/150
提交评论