版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
十八回归分析的基本思想及其初步应用
基础全面练(15分钟30分)
1.设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相
关关系,根据一组样本数据⑶,yi)(i=1,2,…,n)用最小二乘法建
立的回归直线方程为,=0.85x-85.71,则下列结论中不正确的是
()
A.y与x具有正的线性相关关系
B.回归直线过样本点的中心(7,7)
C.若该大学某女生身高增加1cm,则其体重约增加0.85kg
D.若该大学某女生身高为170cm,则可断定其体重必为58.79kg
选D.因为回归直线方程中的G=0.85>0,所以y与x具有正的线性
相关关系,A选项正确汉因为回归直线过样本点的中心(7,7),
所以选项B正确;又因为线性回归直线方程得出的值是近似值,所
以选项C正确,选项D不正确.
2.如表是某厂1~4月份用水量(单位:百吨)的一组数据:
月份X1234
用水量y4.5432.5
由表中数据可知,用水量y与月份x之间有较好的线性相关关系,其
线性回归直线方程是£=-0.7x+a,则a=()
A.5.25B.5.15C.5.2D.10.5
选A.因为x=2.5,y=3.5,回归直线方程必过定点(x,y),
所以3.5=-0.7X2.5+a,所以a=5.25.
3.某学校开展研究性学习活动,某同学获得一组实验数据如表:
X1.99345.16.12
y1.54.047.51218.01
对于表中数据,现给出下列拟合曲线,其中拟合程度最好的是()
A.y=2x-2B.y=图
C.y=log2XD.y=2(x2-1)
选D.可以代入检验,残差平方和最小的拟合程度最高.
4.在研究身高和体重的关系时,求得R2k,可以叙述为“身
高解释了64%的体重变化,而随机误差贡献了剩余的36%”,所以身
高对体重的效应比随机误差的效应大得多.
结合相关指数的计算公式
Z(Yi-^)2
i=l
R2=l----------------可知,当RM.64时,身高解释了64%的体重
Z(yi-7)2
i=1
变化.
答案:0.64
5高二⑶班学生每周用于数学学习的时间x(单位⑴与数学成绩y(单
位:分)之间有如表所示数据:
x/h24152319161120161713
y/分92799789644783687159
若某同学每周用于数学学习的时间为18h,试预测该同学的数学成
绩.
显然学习时间与学习成绩间具有相关关系,可以列出下表,并用科学
计算器进行计算.
i12345678910
Xi24152319161120161713
yi92799789644783687159
Xiyi22081185223116911024517166010881207767
1()10
E"=3182,2Xiyi=13578
i=li=l
设回归方程为夕=bx+cz,
10____
gx'-lOxy5454
于是可得分二1=1--------------------------------------------------------3.53,
-154.4
£Xj-10x
i=l
a=y-方x-74.9-3.53x17.4=13.5.
因此可求得回归方程为3.53x+13.5.
当x=18时,>>=3.53x18+13.5=77.
故预测该同学可得77分.
【补偿训练】
某农场对单位面积化肥用量x(kg)和水稻相应产量y(kg)的关系进行
了统计,得到数据如下:
X15202530354045
y330345365405445450455
如果x和y之间具有线性相关关系,求出回归直线方程,并预测当单
位面积化肥用量为32kg时,水稻的产量大约是多少?(精确到0.01
kg)
用列表的方法计算2与回归系数方.
9
序号X3rxy
1153302254950
2203454006900
3253656259125
43040590012150
535445122515575
640450160018000
745455202520475
V2102795700087175
-1—1
xx210=30,yx2795-399.3,
87175-7x30x399.3
石=----------;--=4.746,
7000-7x302
«=399.3-4.746x30=256.92,
y对x的回归直线方程为£=+bx=256.92+4.746x,
当x=32时,?=256.92+4.746x32-408.79.
答:回归直线方程为夕=256.92+4.746X,当单位面积化肥用量为32
kg时,水稻的产量大约为408.79kg.
综合突破练(30分钟60分)
一、选择题(每小题5分,共25分)
A.63.6万兀B.65.5万兀
C.67.7万元D.72.0万元
选B.因为a=y-
49+26+39+544+2+3+5
=---------4----------Ax-------------=9.1,
所以回归方程为少=9.4x+9.L
令x=6,彳导少=9.4x6+9.1=65.5(万元).
2.下列四个命题中正确的是()
①在线性回归模型中,e是bx+a预报真实值y的随机误差,它是一
个观测的量;②残差平方和越小的模型,拟合的效果越好;③用R2
来刻画回归方程,R2越小,拟合的效果越好;④在残差图中,残差点
比较均匀地落在水平的带状区域中,说明选用的模型比较合适,带状
区域宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高.
A.①③B.②④C.①④D.②③
选B.e是预报变量y的随机误差,故①不正确;IV越接近1,拟合的
效果越好,故③不正确.
3.若一函数模型为y=sin2a+2sina+1,为将y转化为t的回归直线
方程,则需作变换t等于()
A.sin2aB.(sina+l)2
C.Qina+£)2D.以上都不对
选B.因为y是关于t的回归直线方程,实际上就是y关于t的一次函
数,又因为y=(sina+I)2,若令t=(sina+,则可得y与t的函数
关系式为y=t,此时变量y与变量t是线性相关关系.
4.两个变量的散点图如图,可考虑用如下函数进行拟合比较合理的是
()
A.y=a-xb
B.y=a+bInx
C.y=a-ebx
b
D.y=a-ex
选B.由散点图知,此曲线类似对数函数型曲线,因此可用函数y=a
+
bInx模型进行拟合.
5.已知x与y之间的几组数据如表:
X123456
y021334
假设根据表中数据所得线性回归方程为5>=方x+3,若某同学根据表
中的前两组数据(1,0)和(2,2)求得的直线方程为y,=b,x+a"则以
下结论正确的是()
A.石〉b',a>a'B.7>bz,a<a'
C.b<W,a>a'D.%<b',3<a'
选C.过(1,0)和(2,2)的直线方程为/=2x-2,画出六点的散点图,
回归直线的大概位置如图所示,
显然,b,>方,a>3,'.
二、填空题(每小题5分,共15分)
6如果某地的财政收入x与支出y满足线性回归方程y=bx+a+e(单
位:亿元),其中b=0.8,a=2,|e|W0.5,如果今年该地区财政收入为
10亿元,则年支出预计不会超过_______亿元.
因为当x=10时,y=0.8x10+2+e=10+e,又因为|把0.5,所以
y<10.5.
答案:10.5
7.已知x,y取值如表:
X0134
y2.24.34.86.7
若x,y具有线性相关关系,且回归方程为0.95x+3,则当x=10
时,y的值是_______.
由已知x=2,y=4.5,而回归方程过点(x,y).
则4.5=0.95x2+a,所以3=2.6.
所以当x=10时,y=0.95x10+2.6=12.1.
答案:12.1
8.已知方程,=0.85x-82.71是根据女大学生的身高预报她的体重的
回归方程,其中x的单位是cm『的单位是kg,那么针对某个体(160,
53)的残差是_________.
将x=160代入0.85x-82.71,
得)=0.85x160-82.71=53.29,
所以残差合=y-P=53-53.29=-0.29.
答案:-0.29
三、解答题(每小题10分,共20分)
9.关于x与y有以下数据:
X24568
y3040605070
已知X与y线性相关,由最小二乘法得为=6.5,
⑴求y与x的线性回归方程.
(2)现有第二个线性模型:9=7x+17,且R2=0.82.
若与(1)的线性模型比较,哪一个线性模型拟合效果比较好,请说明
理由.
⑴依题意,设y与x的线性回归方程为,=6.5x+6.
―2+4+5+6+8_30+40+60+50+70
x==5,y==50,
因为?=6.5x+。经过(x,y),
所以50=6.5x5+«,所以3=17.5,
所以y与X的线性回归方程为9=6.5X+17.5.
⑵由⑴的线性模型得与-自与y-7的关系如表:
yi-y\-0.5-3.510-6.50.5
yi-y-20-1010020
5
所以Z(yi-?i)2=(-0.5)2+(-3.5)2+102+(-6.5)2+0.52=155.
i=1
5_
E(yi-y)2=(-20)2+(-io)2+io2+o2+202=1000.
i=1
5
一(…)2
i=l155
所以Ry=1--------------=1-痛前=0.845.
Z(Yi-7)2
i=1
由于R?=0.845,R2=0.82知R?>R2,
所以⑴的线性模型拟合效果比较好.
10.(2020.全国II卷)某沙漠地区经过治理,生态系统得到很大改善,
野生动物数量有所增加.为调杳该地区某种野生动物的数量,将其分
成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取
20个作为样区,调查得到样本数据垂,y»(i=1,2,…,20),其中
士和山分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生
2020
动物的数量,并计算得£>i=60,£>=1200,
i=li=l
20—20—20——
Z(Xi-x)2=80(yi-y)2=9000,Z(Xi-x)(yi-y)
i=li=li=l
=800.
⑴求该地区这种野生动物数量的估计值(这种野生动物数量的估计值
等于样区这种野生动物数量的平均数乘以地块数);
⑵求样本(Xi,yi)(i=1,2,,20)的相关系数(精确到0.01);
⑶根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样
本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一
种你认为更合理的抽样方法,并说明理由.
£(x「x)(yi—y)
附:相关系数「二7声---------------,啦-1.414.
、位(x「i苣(y「7)2
Vi=li=l
1201
⑴样区这种野生动物数量的平均数为表£>=之xl200=60地块
乙U4U
i=l
数为200,该地区这种野生动物数量的估计值为200x60=12000.
(2)样本3,%)的相关系数
20___
g(x「x)(y「y)800^2…
=
人鼠£(x「一x)2£部(y「y.)2=而嬴而3加94.
Vi=li=l
⑶分层抽样:根据植物覆盖面积的大小对地块分层,再对200个地
块进行分层抽样.
理由如下:由⑵知各地块的这种野生动物数量与植物覆盖面积有很
强的正相关.由于各地块间植物覆盖面积差异很大,从而各地块间这
种野生动物数量差异也很大,采用分层抽样的办法较好地保持了样本
结构与总体结构的一致性,提高了样本代表性,从而可以获得该地区
这种野生动物数量更准确的估计.
创新迁移练
1•为了考查两个变量x和y之间的线性相关性,甲、乙两位同学各
自独立地做了100次和150次试验,并且利用线性回归方法,求得回
归直线分别为/i和,2.已知两个人在试验中发现对变量x的观测数据的
平均值都是s,对变量y的观测数据的平均值都是t,那么下列说法
正确的是()
A.和,2有交点G,t)
B./]与/2相交,但交点不一定是(s,t)
C./1与〃必定平行
D./1与/2必定重合
选A./1,/2都过样本点的中心(S,t),但斜率不确定.
2.随着新型冠状病毒肺炎疫情好转,某地为方便市民出行,推出利
用支付宝和微信扫码支付乘车活动,并采用随机优惠鼓励市民扫码支
付乘车.该公司某线路公交车队统计了第一周内使用扫码支付的情
况,其中x(单位:天)表示活动推出的天数,y(单位:十人次)表示当
天使用扫码支付的人次,整理后得到如图所示的统计表1和散点图.
表1:
X第1天第2天第3天第4天第5天第6天第7天
y71220335490148
由散点图分析后,可用
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2.2 大气受热过程和大气运动 第二课时课件 人教版(2019)必修一 地理高一上学期
- 工程数学(线性代数)
- 胫腓骨骨折护理查房课件
- 消防安全教育教案13749
- 婚庆策划居间合作协议范本
- 道 法走近老师+课件-2024-2025学年统编版道德与法治七年级上册
- 2024年哈尔滨客运资格证考试科目
- 2024年工厂员工手册范本
- 2024年拉萨客运从业资格考试题库
- 2024年厂房租赁合同范例
- 供应室护理责任组长竞聘
- 《工法编写要求》课件
- 新婚避孕知识讲座
- 黄精加工项目可行性方案
- LTC与铁三角从线索到回款
- 外贸业务员负责外贸业务开展
- 课程思政理念下的高中历史教学设计研究
- 工会福利培训课件
- 论文写作中文献综述的撰写技巧
- 财务理论-山东财经大学-期末整理
- 万千教育学前自主学习:支持幼儿成为热情主动的终身学习者
评论
0/150
提交评论