![变量相关性与统计案例_第1页](http://file4.renrendoc.com/view10/M02/1F/21/wKhkGWW_TfWANuteAAAsVQ9DRgU273.jpg)
![变量相关性与统计案例_第2页](http://file4.renrendoc.com/view10/M02/1F/21/wKhkGWW_TfWANuteAAAsVQ9DRgU2732.jpg)
![变量相关性与统计案例_第3页](http://file4.renrendoc.com/view10/M02/1F/21/wKhkGWW_TfWANuteAAAsVQ9DRgU2733.jpg)
![变量相关性与统计案例_第4页](http://file4.renrendoc.com/view10/M02/1F/21/wKhkGWW_TfWANuteAAAsVQ9DRgU2734.jpg)
![变量相关性与统计案例_第5页](http://file4.renrendoc.com/view10/M02/1F/21/wKhkGWW_TfWANuteAAAsVQ9DRgU2735.jpg)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
§11.3变量的相关性与统计案例高考文数
(课标Ⅱ专用)考点一变量的相关性五年高考A组
统一命题·课标卷题组1.(2018课标全国Ⅱ,18,12分)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)
的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根
据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:
=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:
=99+17.5t.(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由.解析(1)利用模型①,该地区2018年的环境基础设施投资额的预测值为
=-30.4+13.5×19=226.1(亿元).利用模型②,该地区2018年的环境基础设施投资额的预测值为
=99+17.5×9=256.5(亿元).(2)利用模型②得到的预测值更可靠.理由如下:(i)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上
下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资
额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据
对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性
增长趋势,利用2010年至2016年的数据建立的线性模型
=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ii)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1
亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预
测值更可靠.以上给出了2种理由,考生答出其中任意一种或其他合理理由均可得分.方法总结利用回归直线方程进行预测是对总体的估计,此估计值不是准确值,把自变量代入
回归直线方程即可对因变量进行估计,但需注意自变量的取值范围.2.(2017课标全国Ⅰ,19,12分)为了监控某种零件的一条生产线的生产过程,检验员每隔30min
从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的
16个零件的尺寸:抽取次序12345678零件尺寸9.9510.129.969.9610.019.929.9810.04
抽取次序910111213141516零件尺寸10.269.9110.1310.029.2210.0410.059.95经计算得
=
xi=9.97,s=
=
≈0.212,
≈18.439,
(xi-
)(i-8.5)=-2.78,其中xi为抽取的第i个零件的尺寸,i=1,2,…,16.(1)求(xi,i)(i=1,2,…,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过
程的进行而系统地变大或变小(若|r|<0.25,则可以认为零件的尺寸不随生产过程的进行而系统
地变大或变小);(2)一天内抽检零件中,如果出现了尺寸在(
-3s,
+3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.(i)从这一天抽检的结果看,是否需对当天的生产过程进行检查?(ii)在(
-3s,
+3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)附:样本(xi,yi)(i=1,2,…,n)的相关系数r=
.
≈0.09.解析本题考查统计问题中的相关系数及样本数据的均值与方差.(1)由样本数据得(xi,i)(i=1,2,…,16)的相关系数为r=
=
≈-0.18.由于|r|<0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.(2)(i)由于
=9.97,s≈0.212,由样本数据可以看出抽取的第13个零件的尺寸在(
-3s,
+3s)以外,因此需对当天的生产过程进行检查.(ii)剔除离群值,即第13个数据,剩下数据的平均数为
×(16×9.97-9.22)=10.02,这条生产线当天生产的零件尺寸的均值的估计值为10.02.
=16×0.2122+16×9.972≈1591.134,剔除第13个数据,剩下数据的样本方差为
×(1591.134-9.222-15×10.022)≈0.008,这条生产线当天生产的零件尺寸的标准差的估计值为
≈0.09.方法总结样本的数字特征.(1)样本数据的相关系数r,r=
反映样本数据的相关程度,|r|越大,则相关性越强.(2)样本数据的均值反映样本数据的平均水平;样本数据的方差反映样本数据的稳定性,方差越
小,数据越稳定;样本数据的标准差为方差的算术平方根.3.(2016课标全国Ⅲ,18,12分)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)
的折线图.
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:
yi=9.32,
tiyi=40.17,
=0.55,
≈2.646.参考公式:相关系数r=
,回归方程
=
+
t中斜率和截距最小二乘估计公式分别为:
=
,
=
-
.解析(1)由折线图中数据和附注中参考数据得
=4,
(ti-
)2=28,
=0.55,
(ti-
)(yi-
)=
tiyi-
yi=40.17-4×9.32=2.89,r≈
≈0.99.
(4分)因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟
合y与t的关系.
(6分)(2)由
=
≈1.331及(1)得
=
=
≈0.10,
=
-
=1.331-0.10×4≈0.93.所以y关于t的回归方程为
=0.93+0.10t.
(10分)将2016年对应的t=9代入回归方程得:
=0.93+0.10×9=1.83.所以预测2016年我国生活垃圾无害化处理量将约为1.83亿吨.(12分)评析本题考查线性回归知识,了解参考公式中每个变量的意义是求解关键,属中档题.24.(2015课标Ⅰ,19,12分)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单
位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费xi和年销售量yi
(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
(xi-
)2
(wi-
)2
(xi-
)(yi-
)
(wi-
)(yi-
)46.65636.8289.81.61469108.8表中wi=
,
=
wi.(1)根据散点图判断,y=a+bx与y=c+d
哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:(i)年宣传费x=49时,年销售量及年利润的预报值是多少?(ii)年宣传费x为何值时,年利润的预报值最大?附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu的斜率和截距的最小二乘估计分别
为
=
,
=
-
.解析(1)由散点图可以判断,y=c+d
适宜作为年销售量y关于年宣传费x的回归方程类型.
(2分)(2)令w=
,先建立y关于w的线性回归方程.由于
=
=
=68,
=
-
=563-68×6.8=100.6,所以y关于w的线性回归方程为
=100.6+68w,因此y关于x的回归方程为
=100.6+68
.
(6分)(3)(i)由(2)知,当x=49时,年销售量y的预报值
=100.6+68
=576.6,年利润z的预报值
=576.6×0.2-49=66.32.
(9分)(ii)根据(2)的结果知,年利润z的预报值
=0.2(100.6+68
)-x=-x+13.6
+20.12.所以当
=
=6.8,即x=46.24时,
取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.
(12分)1.(2019课标全国Ⅰ,17,12分)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每
位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:(1)分别估计男、女顾客对该商场服务满意的概率;(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?附:K2=
.
满意不满意男顾客4010女顾客3020考点二独立性检验P(K2≥k)0.0500.0100.001k3.8416.63510.828解析本题通过对概率与频率的关系、统计案例中两变量相关性检验考查学生的抽象概括
能力与数据处理能力,重点考查数学抽象、数据分析、数学运算的核心素养;倡导学生关注生
活,提高数学应用意识.(1)由调查数据,男顾客中对该商场服务满意的比率为
=0.8,因此男顾客对该商场服务满意的概率的估计值为0.8.女顾客中对该商场服务满意的比率为
=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6.(2)K2=
≈4.762.由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.思路分析(1)计算频率,通过频率估计概率.(2)将数据代入公式计算K2,与附表中的k比较大小,
作出判断.2.(2018课标全国Ⅲ,18,12分)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产
任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,
每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任
务的工作时间(单位:min)绘制了如下茎叶图:
(1)根据茎叶图判断哪种生产方式的效率更高,并说明理由;(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过
m的工人数填入下面的列联表;
超过m不超过m第一种生产方式
第二种生产方式
(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?附:K2=
,
.解析本题考查统计图表的含义及应用、独立性检验的基本思想及其应用.(1)第二种生产方式的效率更高.理由如下:(i)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分
钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种
生产方式的效率更高.(ii)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第
二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效
率更高.(iii)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二
种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.(iv)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于
茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关
于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所
需的时间更少.因此第二种生产方式的效率更高.以上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分.(2)由茎叶图知m=
=80.列联表如下:
超过m不超过m第一种生产方式155第二种生产方式515(3)由于K2=
=10>6.635,所以有99%的把握认为两种生产方式的效率有差异.思路分析(1)根据茎叶图中的数据大致集中在哪个茎,作出判断;(2)通过茎叶图确定数据的中位数,按要求完成2×2列联表;(3)根据(2)中2×2列联表,将有关数据代入公式计算得K2的值,借助临界值表作出统计推断.方法总结解决此类问题的步骤:(1)审清题意:弄清题意,理顺条件和结论;(2)找数量关系:把图形语言转化为数字,找关键数量关系;(3)建立解决方案:找准公式,将2×2列联表中的数值代入公式计算;(4)作出结论:依据数据,借助临界值表作出正确判断.解后反思独立性检验问题的常见类型及解题策略:(1)已知分类变量的数据,判断两个分类变量的相关性,可依据数据及公式计算K2,然后作出判
断;(2)独立性检验与概率统计的综合问题,关键是根据独立性检验的一般步骤,作出判断,再根据
概率统计的相关知识求解.3.(2017课标全国Ⅱ,19,12分)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收
获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:
(1)记A表示事件“旧养殖法的箱产量低于50kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;
箱产量<50kg箱产量≥50kg旧养殖法
新养殖法
(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较.附:
,K2=
.解析(1)旧养殖法的箱产量低于50kg的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62.因此,事件A的概率估计值为0.62.(2)根据箱产量的频率分布直方图得列联表:
箱产量<50kg箱产量≥50kg旧养殖法6238新养殖法3466K2=
≈15.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50kg到55kg之间,
旧养殖法的箱产量平均值(或中位数)在45kg到50kg之间,且新养殖法的箱产量分布集中程度
较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养
殖法优于旧养殖法.考点变量的相关性B组
自主命题·省(区、市)卷题组1.(2015湖北,4,5分)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是
()A.x与y正相关,x与z负相关
B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关
D.x与y负相关,x与z正相关答案
C由y=-0.1x+1,知x与y负相关,即y随x的增大而减小,又y与z正相关,所以z随y的增大而
增大,减小而减小,所以z随x的增大而减小,x与z负相关,故选C.2.(2015重庆,17,13分)随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民
币储蓄存款(年底余额)如下表:年份20102011201220132014时间代号t12345储蓄存款y(千亿元)567810(1)求y关于t的回归方程
=
t+
;(2)用所求回归方程预测该地区2015年(t=6)的人民币储蓄存款.附:回归方程
=
t+
中,
=
=
-
.解析(1)列表计算如下:这里n=5,
=
ti=
=3,
=
yi=
=7.2.又ltt=
-n
=55-5×32=10,lty=
tiyi-n
=120-5×3×7.2=12,从而
=
=
=1.2,
=
-
=7.2-1.2×3=3.6,故所求回归方程为
=1.2t+3.6.(2)将t=6代入回归方程可预测该地区2015年的人民币储蓄存款为
=1.2×6+3.6=10.8(千亿元).itiyi
tiyi11515226412337921448163255102550
153655120C组
教师专用题组考点一变量的相关性1.(2014湖北,6,5分)根据如下样本数据得到的回归方程为
=bx+a,则
()A.a>0,b<0
B.a>0,b>0C.a<0,b<0
D.a<0,b>0x345678y4.02.5-0.50.5-2.0-3.0答案
A由题中数据知,b<0,∵
=
=
,
=
=
,∴
=
b+a,∴a=
-
b.又∵b<0,∴a>0,故选A.2.(2012课标全国,3,5分)在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点
图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=
x+1上,则这组样本数据的样本相关系数为
()A.-1
B.0
C.
D.1答案
D所有点均在直线上,则样本相关系数最大即为1,故选D.评析本题考查了线性回归,掌握线性回归系数的含义是解题关键,本题易错选C.3.(2014课标Ⅱ,19,12分,0.866)某地区2007年至2013年农村居民家庭人均纯收入y(单位:千元)的
数据如下表:年份2007200820092010201120122013年份代号t1234567人均纯收入y2.93.33.64.44.85.25.9(1)求y关于t的线性回归方程;(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,
并预测该地区2015年农村居民家庭人均纯收入.附:回归直线的斜率和截距的最小二乘估计公式分别为:
=
,
=
-
.解析(1)由所给数据计算得
=
×(1+2+3+4+5+6+7)=4,
=
×(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,
(ti-
)2=9+4+1+0+1+4+9=28,
(ti-
)(yi-
)=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,
=
=
=0.5,
=
-
=4.3-0.5×4=2.3,所求回归方程为
=0.5t+2.3.(2)由(1)知,
=0.5>0,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.将2015年的年份代号t=9代入(1)中的回归方程,得
=0.5×9+2.3=6.8,故预测该地区2015年农村居民家庭人均纯收入为6.8千元.1.(2014江西,7,5分)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随
机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是
()考点二独立性检验答案
D
=
,令
=m,则
=82m,同理,
=m×(4×20-12×16)2=1122m,
=m×(8×24-8×12)2=962m,
=m×(14×30-6×2)2=4082m,∴
>
>
>
,则与性别有关联的可能性最大的变量是阅读量,故选D.2.(2014辽宁,18,12分)某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生中进行了抽
样调查,调查结果如下表所示:(1)根据表中数据,问是否有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方
面有差异”?(2)已知在被调查的北方学生中有5名数学系的学生,其中2名喜欢甜品,现在从这5名学生中随
机抽取3人,求至多有1人喜欢甜品的概率.附:χ2=
,
喜欢甜品不喜欢甜品合计南方学生602080北方学生101020合计7030100P(χ2≥k)0.1000.0500.010k2.7063.8416.635解析(1)将2×2列联表中的数据代入公式计算,得χ2=
=
=
≈4.762.由于4.762>3.841,所以有95%的把握认为南方学生和北方学生在选用甜品的饮食习惯方面有
差异.(2)从5名数学系学生中任取3人的一切可能结果所组成的基本事件空间Ω={(a1,a2,b1),(a1,a2,b2),
(a1,a2,b3),(a1,b1,b2),(a1,b2,b3),(a1,b1,b3),(a2,b1,b2),(a2,b2,b3),(a2,b1,b3),(b1,b2,b3)}.其中ai表示喜欢甜品的学生,i=1,2.bj表示不喜欢甜品的学生,j=1,2,3.Ω由10个基本事件组成,且这些基本事件的出现是等可能的.用A表示“3人中至多有1人喜欢甜品”这一事件,则A={(a1,b1,b2),(a1,b2,b3),(a1,b1,b3),(a2,b1,b2),(a2,
b2,b3),(a2,b1,b3),(b1,b2,b3)}.事件A是由7个基本事件组成的,因而P(A)=
.评析本题主要考查独立性检验及古典概型,考查数据处理能力及运算求解能力.3.(2014安徽,17,12分)某高校共有学生15000人,其中男生10500人,女生4500人.为调查该校学
生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时
间的样本数据(单位:小时).(1)应收集多少位女生的样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其
中样本数据的分组区间为:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动
时间超过4小时的概率;(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动
时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性
别有关”.附:K2=
P(K2≥k0)0.100.050.0100.005k02.7063.8416.6357.879
解析(1)300×
=90,所以应收集90位女生的样本数据.(2)由频率分布直方图得1-2×(0.100+0.025)=0.75,所以该校学生每周平均体育运动时间超过4
小时的概率的估计值为0.75.(3)由(2)知,300位学生中有300×0.75=225人的每周平均体育运动时间超过4小时,75人的每周平
均体育运动时间不超过4小时.又因为样本数据中有210份是关于男生的,90份是关于女生的,所
以每周平均体育运动时间与性别列联表如下:每周平均体育运动时间与性别列联表
男生女生总计每周平均体育运动时间不超过4小时453075每周平均体育运动时间超过4小时16560225总计21090300结合列联表可算得K2=
=
≈4.762>3.841.所以,有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.评析本题考查抽样方法、用样本的频率分布估计总体的频率分布及独立性检验等知识,同
时考查处理图表的能力和运算能力.考点一变量的相关性三年模拟A组2017—2019年高考模拟·考点基础题组1.(2017重庆巴蜀中学二诊,2)对两个变量x、y进行线性回归分析,计算得到相关系数r=-0.9962,则下列说法中正确的是
()A.x与y正相关B.x与y具有较强的线性相关关系C.x与y几乎不具有线性相关关系D.x与y的线性相关关系还需进一步确定答案
B因为相关系数r=-0.9962,所以x与y负相关,因为|r|=0.9962,非常接近1,所以相关性很
强,故选B.2.(2019陕西西安陕师大附中等八校联考,6)设两个变量x和y之间具有线性相关关系,它们的相
关系数为r,y关于x的回归直线方程为
=kx+b,则
()A.k与r的符号相同
B.b与r的符号相同C.k与r的符号相反
D.b与r的符号相反答案
A∵相关系数r为正,表示正相关,回归直线方程上升,r为负,表示负相关,回归直线方程
下降,∴k与r的符号相同.故选A.3.(2019黑龙江哈尔滨呼兰一中三模,5)已知x,y的取值如表所示:如果y与x呈线性相关且线性回归方程为
=
x+
,则
等于
()A.-
B.
C.-
D.
x234y645答案
A样本点中心(
,
)必在回归直线上,且
=3,
=5,代入回归方程可得b=-
.4.(2017内蒙古百校联盟质量监测)已知两个随机变量x,y之间的相关关系如下表所示:根据上述数据得到的回归方程为
=
x+
,则大致可以判定
()A.
>0,
>0
B.
>0,
<0C.
<0,
>0
D.
<0,
<0x-4-2124y-5-3-1-0.51答案
C由题中数据知,
>0,∵
=
=0.2,
=
=-1.7,∴-1.7=0.2
+
,∴
=-1.7-0.2
.又∵
>0,∴
<0,故选C.5.(2017黑龙江哈尔滨九中二模)为了研究某种细菌在特定环境下随时间变化的繁殖规律,得如
下实验数据,计算得回归直线方程为
=0.85x-0.25,由以上信息,得到下表中c的值为
.天数x(天)34567繁殖个数y(千个)2.5344.5c答案6解析
=
=5,
=
=
,将
代入回归直线方程得
=0.85×5-0.25,解得c=6.6.(2019甘肃兰州一中模拟,18)某地区某农产品近几年的产量统计如表:(1)根据表中数据,建立关于t的线性回归方程
=
t+
;(2)根据线性回归方程预测2019年该地区该农产品的年产量.附:对于一组数据(t1,y1),(t2,y2),…,(tn,yn),其回归直线
=
t+
的斜率和截距的最小二乘估计分别为
=
,
=
-
.(参考数据:
(ti-
)(yi-
)=2.8,计算结果保留小数点后两位)年份201220132014201520162017年份代码t123456年产量y(万吨)6.66.777.17.27.4解析(1)由题意可知
=
=3.5,
=
=7,
(ti-
)2=(-2.5)2+(-1.5)2+(-0.5)2+0.52+1.52+2.52=17.5,∴
=
=
=0.16,又
=
-
=7-0.16×3.5=6.44,∴y关于t的线性回归方程为
=0.16t+6.44.(2)由(1)可得,当年份为2019年时,年份代码t=8,此时
=0.16×8+6.44=7.72,所以,可预测2019年该地区该农产品的年产量约为7.72万吨.1.(2017内蒙古包头十校联考(改编))2016年1月1日起全国统一实施全面的两孩政策.为了解适
龄民众对放开生育二胎政策的态度,某市选取70后80后作为调查对象,随机调查了100人并对
调查结果进行统计,70后不打算生二胎的占全部调查人数的15%,80后打算生二胎的占全部被
调查人数的45%,100人中共有75人打算生二胎.根据调查数据,判断是否有90%以上的把握认为“打算生二胎与否与年龄有关”,并说明理由.附:K2=
,其中n=a+b+c+d.考点二独立性检验P(K2≥k)0.150.100.050.0250.0100.0050.001k2.0722.7063.8415.0246.6357.87910.828解析由题意得列联表如下:K2=
=
>2.706,所以有90%以上把握认为“打算生二胎与否与年龄有关”.
打算生二胎不打算生二胎合计70后30154580后451055合计75251002.(2019吉林第三次调研测试,18)2018年11月15日,我市召开全市创建全国文明城市动员大会,
会议向全市人民发出动员令,吹响了集结号.为了了解哪些人更关注此活动,某机构随机抽取了
年龄在15~75岁之间(包括15,不包括75)的100人进行调查,并按年龄绘制了频率分布直方图如
图所示,其分组区间为[15,25),[25,35),[35,45),[45,55),[55,65),[65,75).把年龄落在[15,35)和[35,7
5)内的人分别称为“青少年人”和“中老年人”,经统计“青少年人”与“中老年人”的人
数之比为2∶3.
(1)求图中a,b的值,若以每个小区间的中点值代替该区间的平均值,估计这100人年龄的平均值
;(2)若“青少年人”中有15人关注此活动,根据已知条件完成题中的2×2列联表,根据此统计结
果,问能否有99%的把握认为“中老年人”比“青少年人”更加关注此活动?
关注不关注合计青少年人15
中老年人
合计5050100P(K2≥k0)0.0500.0100.001k03.8416.63510.828附参考公式:K2=
,n=a+b+c+d.解析(1)依题意,青少年人,中老年人的频率分别为
,
,由10a+10×0.030=
,10b+10×0.015+20×0.005=
,得a=0.010,b=0.035,
=20×0.1+30×0.3+40×0.35+50×0.15+60×0.05+70×0.05=39.(2)由题意可知,“青少年人”共有100×
=40,“中老年人”共有100-40=60人.补全的2×2列联表如下:
关注不关注合计青少年人152540中老年人352560合计5050100所以K2=
≈4.17<6.635,故没有99%的把握认为“中老年人”比“青少年人”更加关注此活动.3.(2019陕西汉中略阳天津高级中学等12校联考,19)某市为了了解民众对开展创建文明城市工
作以来的满意度,随机调查了40名群众,并将他们随机分成A,B两组,每组20人,A组群众给第一
阶段的创文工作评分,B组群众给第二阶段的创文工作评分,根据两组群众的评分绘制了如图
所示的茎叶图.
(1)根据茎叶图比较群众对两个阶段的创文工作满意度评分的平均值和集中程度(不要求计算
出具体值,给出结论即可);(2)完成下面的2×2列联表,并通过计算判断是否有99%的把握认为民众对两个阶段创文工作
的满意度存在差异?参考公式:K2=
,n=a+b+c+d.
低于70分不低于70分合计第一阶段
第二阶段
合计
P(K2≥k)0.0500.0100.001k3.8416.63510.828解析(1)根据题中茎叶图可以看出,B组群众给第二阶段创文工作满意度评分的平均值高于A
组群众给第一阶段创文工作满意度评分的平均值,且给分相对于A组更集中些.(2)填写2×2列联表如下:
低于70分不低于70分合计第一阶段11920第二阶段31720合计142640∴K2=
≈7.033>6.635,∴有99%的把握认为民众对两个阶段创文工作的满意度存在差异.4.(2019陕西一模,18)按照国家质量标准:某种工业产品的质量指标值落在[100,120)内,则为合
格品,否则为不合格品.某企业有甲、乙两套设备生产这种产品,为了检测这两套设备的生产质
量情况,随机从两套设备生产的大量产品中各抽取了50件产品作为样本对规定的质量指标值
进行检测.下面是甲套设备的样本频数分布表和乙套设备的样本频率分布直方图.甲套设备的样本频数分布表质量指标值[95,100)[100,105)[105,110)[110,115)[115,120)[120,125]频数14192051(1)将频率视为概率,若乙套设备生产了5000件产品,则其中合格品约有多少件?(2)填写下面2×2列联表,并根据列联表判断是否有95%的把握认为这种产品的质量指标值与
甲、乙两套设备的选择有关;
甲套设备乙套设备合计合格品
不合格品
合计
(3)根据表和图,对甲、乙两套设备的优劣进行比较.参考公式及数据:K2=
.P(K2≥k)0.1000.0500.010k2.7063.8416.635解析(1)由题图知,乙套设备生产的不合格品率约为(0.01+0.022)×5=0.16,∴乙套设备生产的5000件产品中不合格品约为5000×0.16=800(件).(2)填写2×2列联表如下:
甲套设备乙套设备合计合格品484290不合格品2810合计5050100将列联表中的数据代入公式计算得K2=
=4>3.841,∴有95%的把握认为产品的质量指标值与甲、乙两套设备的选择有关.(3)由题意知,甲套设备生产的合格品的概率约为
=0.96,乙套设备生产的合格品的概率约为1-0.16=0.84,且甲套设备生产的产品的质量指标值主要集中在[105,115)之间,乙套设备生产的产品的质量
指标值与甲套设备相比较为分散,因此,可以认为甲套设备生产的合格品的概率更高,且质量指标值更稳定,所以甲套设备优于乙套设备.B组
2017—2019年高考模拟·专题综合题组(时间:45分钟分值:85分)一、选择题(共5分)1.(2017甘肃兰州一模,5)已知某种商品的广告费支出x(单位:万元)与销售额y(单位:万元)之间
的部分对应数据如下表:根据表中提供的数据,用最小二乘法得出x与y的线性回归方程为
=6.5x+17.5,则表中的M值为
()A.45
B.50C.55
D.60x24568y304050M70答案
D
=
=5,
=
=38+
,将点
代入
=6.5x+17.5中,解得M=60.故D正确.二、填空题(每小题5分,共20分)2.(2018东北三省三校二模)写出下列命题中所有真命题的序号:
.①两个随机变量线性相关性越强,相关系数r越接近1;②回归直线一定经过样本点的中心(
,
);③若线性回归方程为
=0.2x+10,则当样本数据中x=10时,必有相应的y=12;④回归分析中,相关指数R2的值越大说明残差平方和越小.答案②④解析①两个随机变量线性相关性越强,相关系数|r|越接近1,原命题错误;②回归直线一定经过样本点的中心(
,
),原命题正确;③若线性回归方程为
=0.2x+10,则当样本数据中x=10时,可以预测y=12,但是会存在误差,原命题错误;④回归分析中,相关指数R2的值越大说明残差平方和越小,原命题正确.综上可得,正确命题的序号为②④.3.(2018辽宁葫芦岛二模,15)下列说法:①线性回归方程
=
x+
必过(
,
);②命题“∀x≥1,x2+3≥4”的否定是“∃x<1,x2+3<4”;③相关系数r的越小,表明两个变量相关性越弱;④在一个2×2列联表中,由计算得K2=8.079,则有99%的把握认为这两个变量间有关系.其中正确的说法是
.(把你认为正确的结论都写在横线上)本题可参考独立性检验临界值表:P(K2≥k)0.1000.0500.0250.0100.001k2.7063.8415.0246.63510.828答案①④解析线性回归方程
=
x+
必过样本中心点(
,
),故①正确.命题“∀x≥1,x2+3≥4”的否定是“∃x≥1,x2+3<4”,故②错误.③相关系数r绝对值越小,表明两个变量相关性越弱,当相关系数r小于0时,越小,其绝对值反而
越大,故不正确;④在一个2×2列联表中,由计算得K2=8.079,则有99%的把握认为这两个变量间有关系,正确.故答案为①④.4.(2018吉林长春十一高中、东北师大附中等五校联合模拟)已知下列命题:①在线性回归模型中,相关指数R2表示解释变量x对于预报变量y变化的贡献率,R2越接近于1,
表示回归效果越好;②两个变量相关性越强,则相关系数r的绝对值就越接近于1;③在回归直线方程
=-0.5x+2中,当解释变量x每增加一个单位时,预报变量
平均减少0.5个单位;④对分类变量X与Y的随机变量K2的观测值k来说,k越小,“X与Y有关系”的把握程度越大.其中正确命题的序号是
.答案①②③解析①相关指数R2表示解释变量x对于预报变量y变化的贡献率,R2越接近于1,表示回归效果
越好,是正确的;②两个变量相关性越强,则相关系数r的绝对值就越接近于1,是正确的;③在回
归直线方程
=-0.5x+2中,当解释变量x每增加一个单位时,预报变量
平均减少0.5个单位,是正确的;④对分类变量X与Y的随机变量K2的观测值k来说,k越小,“X与Y有关系”的把握程度越
小,故原命题错误.故答案为①②③.5.(2017东北师大附中等三校第四次联考)下列命题中,正确的命题为
.①回归直线
=
x+
过样本点中心(
,
),且至少过一个样本点;②将一组数据的每个数据都加上一个相同的常数后,方差不变;③用相关指数R2来刻画回归效果,R2越接近0,说明模型的拟合效果越好;④用系统抽样法从160名学生中抽取容量为20的样本,将160名学生从1~160编号,按编号顺序
平均分成20组(1~8号,9~16号,…,153~160号),若第16组抽出的号码为126,则第一组中用抽签法
确定的号码为6号.答案②④解析回归直线
=
x+
恒过样本点中心(
,
),但样本点可能都不在回归直线上,①错误;将一组数据的每个数据都加上一个相同的常数后,数据的波动性不变,故方差不变,②正确;用相关
指数R2来刻画回归效果,R2越接近1,说明模型的拟合效果越好,③错误;按系统抽样方法,第一组
中用简单随机抽样确定的号码为126-15×8=6号,④正确.故答案为②④.三、解答题(共60分)6.(2019陕西榆林二模,18)某城市的公交公司为了方便市民出行,科学规划车辆投放,在一个人
员密集流动地段增设一个起点站,为了研究车辆发车间隔时间x与乘客等候人数y之间的关系,
经过调查得出了如下数据:间隔时间(x分钟)101112131415等待人数(y人)232526292831调查小组先从这六组数据中选取四组数据作线性回归分析,然后用剩下的两组数据进行检验.(1)求从这六组数据中选取四组数据后,剩下的两组数据不相邻的概率;(2)若先取的是后面四组数据,求y关于x的线性回归方程
=
x+
;(3)规定根据(2)中线性回归方程预测的数据与用剩下的两组实际数据相差不超过1人,则所求
出的线性回归方程是“最佳回归方程”,请判断(2)中所求的回归方程是不是“最佳回归方
程”.为了使等候的乘客不超过35人,则间隔时间设置为18分钟合适吗?附:对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其回归直线
=
x+
的斜率和截距的最小二乘估计分别为
=
=
,
=
-
.解析(1)记这六组数据分别为1,2,3,4,5,6,剩下的两组有以下15种可能:(1,2),(1,3),(1,4),(1,5),(1,
6),(2,3),(2,4),(2,5),(2,6),(3,4),(3,5),(3,6),(4,5),(4,6),(5,6).其中剩下的两组数据相邻的有(1,2),(2,
3),(3,4),(4,5),(5,6),这5种,故P(两组数据不相邻)=1-
=
.(2)
=13.5,
=28.5,
=
=1.4,
=
-
=28.5-1.4×13.5=9.6,∴y关于x的线性回归方程为
=1.4x+9.6.(3)当x=10时,
=23.6,23.6-23=0.6<1,当x=11时,
=25,25-25=0<1,故所求出的线性回归方程是“最佳回归方程”.由题意得1.4x+9.6≤35,解得x≤
,故间隔时间设置为18分钟合适.7.(2019黑龙江齐齐哈尔一模,18)某中学为研究学生的身体素质与体育锻炼时间的关系,对该
校200名高三学生平均每天体育锻炼时间进行调查,如表:(平均每天锻炼的时间单位:分钟)将学生日均体育锻炼时间在[40,60)的学生评价为“锻炼达标”.(1)请根据上述表格中的数据填写下面的2×2列联表,并通过计算判断,是否能在犯错误的概率
不超过0.025的前提下认为“锻炼达标”与性别有关;平均每天锻炼的时间/分钟[0,10)[10,20)[20,30)[30,40)[40,50)[50,60)总人数203644504010
锻炼不达标锻炼达标合计男
女
20110合计
(2)在“锻炼达标”的学生中,按男、女用分层抽样的方法抽出5人,进行体育锻炼体会交流,再
从这5人中选出2人作重点发言,求作重点发言的2人中,至少1人是女生的概率.参考公式:K2=
,其中n=a+b+c+d.临界值表:P(K2≥k0)0.100.050.0250.010k02.7063.8415.0246.635解析(1)填写的2×2列联表如下:所以K2=
=
≈6.061>5.024.所以在犯错误的概率不超过0.025的前提下能判断“锻炼达标”与性别有关.(2)“锻炼达标”的学生有50人,男、女生人数之比为3∶2,故用分层抽样的方法从中抽取5人,有3人是男生,记为a,b,c,有2人是女生,记为d,e,则从这5人中
选出2人,选法有ab,ac,ad,ae,bc,bd,be,cd,ce,de,共10种,设事件A表示“作重点发言的2人中,至少有1人是女生”,则事件A发生的情况为ad,bd,cd,ae,be,ce,de,共7种.所以所求概率P(A)=
.
锻炼不达标锻炼达标合计男603090女9020110合计150502008.(2018吉林长春下学期二模)为了打好脱贫攻坚战,某贫困县农科院针对玉米种植情况进行调
研,力争有效地改良玉米品种,为农民提供技术支援.现对已选出的一组玉米的茎高进行统计,
获得的茎叶图如下图(单位:厘米),设茎高大于或等于180厘米的玉米为高茎玉米,否则为矮茎
玉米.
(1)完成下面的2×2列联表,并判断是否可以在犯错误的概率不超过1%的前提下,认为抗倒伏与玉米矮茎有关;(2)为了改良玉米品种,现采用分层抽样的方法从抗倒伏的玉米中抽出5株,再从这5株玉米中选
取2株进行杂交试验,选取的植株均为矮茎的概率是多少?参考数据:
抗倒伏易倒伏合计矮茎
高茎
合计
P(K2≥k)0.150.100.050.0250.0100.0050.001k2.0722.7063.8415.0246.6357.87910.828解析(1)2×2列联表如下:K2=
≈7.287>6.635,因此可以在犯错误的概率不超过1%的前提下,认为抗倒伏与玉米矮茎有关.(2)分层抽样后,高茎玉米有2株,设为A,B,矮茎玉米有3株,设为a,b,c,从中取出2株的取法有AB,
Aa,Ab,Ac,Ba,Bb,Bc,ab,ac,bc,共10种,其中均为矮茎的选取方式有ab,ac,bc,共3种,因此选取的植
株均为矮茎的概率是
.
抗倒伏易倒伏合计矮茎15419高茎101626合计2520459.(2018陕西质量检测(一))随着资本市场的强势进入,互联网共享单车“忽如一夜春风来”,遍
布了一二线城市的大街小巷.为了解共享单车在A市的使用情况,某调查机构借助网络进行了
问卷调查,并从参与调查的网友中抽取了200人进行抽样分析,得到下表(单位:人):
经常使用偶尔或不用合计30岁及以下703010030岁以上6040100合计13070200(1)根据以上数据,能否在犯错误的概率不超过0.15的前提下认为A市使用共享单车情况与年龄
有关?(2)现从所抽取的30岁以上的网友中利用分层抽样的方法再抽取5人.①分别求这5人中经常使用、偶尔或不用共享单车的人数;②从这5人中,再随机选出2人赠送礼品,求选出的2人中至少有1人经常使用共享单车的概率.参考公式:K2=
,其中n=a+b+c+d.参考数据:P(K2≥k0)0.150.100.050.0250.010k02.0722.7063.8415.0246.635解析(1)由列联表可得,K2=
≈2.198>2.072.∴能在犯错误的概率不超过0.15的前提下认为A市使用共享单车情况与年龄有关.(2)①依题意可得,在每层中所抽取的比例为
=
.所以从经常使用共享单车的人中抽取60×
=3(人),从偶尔或不用共享单车的人中抽取40×
=2(人).②设这5人中,经常使用共享单车的3人分别为a,b,c;偶尔或不用共享单车的2人分别为d,e,则从
5人中选出2人的所有可能结果为(a,b),(a,c),(a,d),(a,e),(b,c),(b,d),(b,e),(c,d),(c,e),(d,e),共10种.选出的2人都偶尔或不使用共享单车的可能结果为(d,e),共1种.故选出的2人中至少有1人经常使用共享单车的概率P=1-
=
.10.(2017新疆乌鲁木齐三模)对某地区儿童的身高与体重的一组数据,我们用两种模型:①y=bx
+a,②y=cedx拟合,得到的回归方程分别为
=0.24x-8.81,
=1.70e0.022x,作残差分析,如表:身高x(cm)60708090100110体重y(kg)6810141518
0.410.01
1.21-0.190.41
-0.360.070.121.69-0.34-1.12(1)求表中空格内的值;(2)根据残差比较模型①,②的拟合效果,决定选择哪个模型;(3)残差大于1kg的样本点被认为是异常数据,应剔除,剔除后对(2)所选择的模型重新建立回归
方程.(结果保留到小数点后两位)附:对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其回归直线y=bx+a的斜率和截距的最小二乘估计公式
分别为
解析(1)根据残差分析,把x=80代入
=0.24x-8.81得
=10.39,10-10.39=-0.39,所以表中空格内的值为-0.39.(2)模型①残差的绝对值和为0.41+0.01+0.39+1.21+0.19+0.41=2.62,模型②残差的绝对值和为0.36+0.07+0.12+1.69+0.34+1.12=3.7.2.62<3.7,所以模型①的拟合效果比较好,选择模型①.(3)残差大于1kg的样本点被剔除后,剩余的数据如下表:身高x(cm)607080100110体重y(kg)68101518
0.410.01-0.39-0.190.41
1.(2019吉林长春质量监测(一),8)某运动制衣品牌为了成衣尺寸更精准,现选择15名志愿者,对
其身高和臂展进行测量(单位:厘米),图1为选取的15名志愿者身高与臂展的折线图,图2为身高
与臂展所对应的散点图,并求得其回归方程为
=1.16x-30.75,以下结论中不正确的为
()
图1C组
2017—2019年高考模拟·应用创新题组
图2A.15名志愿者身高的极差小于臂展的极差B.15名志愿者身高和臂展成正相关关系C.可估计身高为190厘米的人臂展大约为189.65厘米D.身高相差10厘米的两人臂展都相差11.6厘米答案
D身高的极差为18,臂展的极差为23,故A正确;很明显根据散点图以及回归直线得到,身高矮臂展就会短一些,身高高一些,臂展就长一些,故B
正确;身高为190厘米,代入回归方程可得到臂展估计值等于189.65厘米,但不是准确值,故C正确;身高相差10厘米的两人臂展的估计值相差11.6厘米,但并不是准确值,回归方程上的点并不都
是准确的样本点,故说法不正确,即D错.故选D.2.(2019陕西宝鸡中学二模,18)物价监督部门为调研某公司新开发上市的一种产品销售价格的
合理性,对某公司的该产品的销量与价格进行了统计分析,得到如下数据和散点图:
定价x(元/kg)102030405060年销量y(kg)115064342426216586z=2lny14.112.912.111.110.28.9参考数据:
(xi-
)·(yi-
)=-34580,
(xi-
)·(zi-
)=-175.5,
(yi-
)2=776840,
(yi-
)·(zi-
)=3465.2.(1)根据散点图判断,y与x和z与x哪一对具有的线性相关性较强(给出判断即可,不必说明理由);(2)根据(1)的判断结果及数据,建立y关于x的回归方程(方程中的系数均保留两位有效数字).附:对于一组数据(x1,y1),(x2,y2),(x3,y3),…,(xn,yn),其回归直线
=
x+
的斜率和截距的最小二乘估计分别为
=
=
,
=
-
.解析(1)由散点图可知,z与x具有的线性相关性较强.(2)
=
=35,
=
=11.55.
=
=-
≈-0.10,所以
=
-
=15.05≈15,所以
=
x+
=15-0.10x,又
=2ln
,故y关于x的回归方程为
=
=
.3.(2019辽宁葫芦岛调研考试,18)党的十八大将生态文明建设纳入中国特色社会主义事业“五
位一体”总体布局,“美丽中国”成为中华民族追求的新目标
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 尿路感染用药指导试题复习测试附答案
- 2024年商标共注册协议模板版B版
- 2024年工程专业建筑施工合作合同范本一
- 2024年度汽车抵押贷款合同解除条件合同3篇
- 2024年专用设备合作开发协议
- 2024年商场商品展示标准化协议范本版
- 2024年合作伙伴知识产权联合申报协议一
- 2024年度汽车经销商库存融资担保合同范本3篇
- 二零二四年度某互联网企业广告发布合同2篇
- 2024品牌产品销售与铺货协议样本一
- 2023年政府采购专家题(无解析)附有答案
- 体彩三人合伙协议书模板
- 新公司法修订要点和解读
- 甲状腺护理新进展
- 2024年秋新外研版(三起)英语三年级上册全册教案(2024年新教材)
- 幼儿园课件天气的变化
- 丽水市初中学业水平考试理化生实验操作考试标准化考点建设方案
- Unit 2 Different familiesPart B How are families different(教学设计)-2024-2025学年人教PEP版英语三年级上册
- 船舶采购建造 投标方案(技术方案)
- 2024年北京牌照租赁协议例文(五篇)
- 北京市文物局局属事业单位招聘笔试真题2023
评论
0/150
提交评论