第3讲 变量间相关关系与统计案例_第1页
第3讲 变量间相关关系与统计案例_第2页
第3讲 变量间相关关系与统计案例_第3页
第3讲 变量间相关关系与统计案例_第4页
第3讲 变量间相关关系与统计案例_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本文格式为Word版,下载可任意编辑——第3讲变量间相关关系与统计案例

第第3讲

变量间的相关关系与统计案例

[考纲解读]1.会作两个相关变量的数据的散点图,会利用散点图熟悉变量间的相关关系;根据最小二乘法求出回归直线方程.(重点)2.了解独立性检验(只要求22列联表)的根本思想、方法及其初步应用.

[考向预料]从近三年高考处境来看,本讲是高考中的一个热点测验内容.预料2021年将会测验:①回归直线方程的判断、求解及相关系数的意义,并用其解决实际问题;②独立性检验思想在实际问题中的应用.试题以解答题的形式呈现,难度为中等.此外,也可能展现在客观题中,此时试题难度不大,属中、低档题型.

1.相关关系与回归方程(1)相关关系的分类①正相关:从散点图上看,点散布在从01左下角到02右上角的区域内,如图1;②负相关:从散点图上看,点散布在从03左上角到04右下角的区域内,如图2.

(2)线性相关关系:从散点图上看,假设这些点从整体上看大致分布在05一条直线邻近,那么称这两个变量之间具有线性相关关系,这条直线叫做06回归直线.

(3)回归方程①最小二乘法:使得样本数据的点到回归直线的07距离的平方和最小的方法叫做最小二乘法.②回归方程:两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),,(xn,yn),其回归方程为y^=b^x+a^,那么b^=i=1nxi-x-yi-y-i=1nxi-x-2=i=1nxiyi-nx-y-i=1nx2i-nx-2,a^=y--b^x-.其中,b^是回归方程的08斜率,a^是在y轴上的09截距,x-=1nni=1xi,y-=1nni=1yi,10(x-,y-)称为样本点的中心.说明:回归直线y^=b^x+a^必过样本点的中心(x-,y-),这个结论既是检验所求回归直线方程是否切实的依据,也是求参数的一个依据.(4)样本相关系数r=i=1nxi-x-yi-y-i=1nxi-x-2i=1nyi-y-2,用它来衡量两个变量间的线性相关关系.①当r0时,说明两个变量11正相关;②当r0时,说明两个变量12负相关;③r的十足值越接近1,说明两个变量的线性相关性13越强;r的十足值接近于0,说明两个变量之间几乎不存在线性相关关系.通常当|r|0.75时,认为两个变量有很强的线性相关关系.2.残差分析(1)残差:对于样本点(x1,y1),(x2,y2),,(xn,yn),它们的随机误差为ei=yi-bxi-a,i=1,2,,n,其估计值为e^i=yi-y^i=yi-b^xi-a^,i=1,2,,n,

e^i称为相应于点(xi,yi)的残差.(2)残差平方和为ni=1

(yi-y^i)2.(3)相关指数:R2=1-01ni=1

yi-y^i2ni=1

yi-y-2.3.独立性检验(1)分类变量:变量的不同"值'表示个体所属的01不同类别,像这类变量称为分类变量.(2)列联表:列出两个分类变量的02频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为22列联表)为

22列联表

y1

y2

总计x1

aba+bx2

cdc+d总计a+cB+da+b+c+d构造一个随机变量K2=03nad-bc2a+bc+da+cb+d,其中n=04a+b+c+d为样本容量.(3)独立性检验利用随机变量05K2来判断"两个分类变量06有关系'的方法称为独立性检验.

1.概念辨析(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.(

)(2)"名师出高徒'可以解释为教师的教学水平与学生水平成正相关关系.(

)(3)只有两个变量有相关关系,所得到的回归模型才有预料价值.(

)(4)事情X,Y关系越紧密,那么由观测数据计算得到的K2的观测值越大.(

)(5)由独立性检验可知,有99%的把握认为物理劳绩优秀与数学劳绩有关,某人数学劳绩优秀,那么他有99%的可能物理优秀.(

)答案(1)(2)(3)(4)(5)2.小题热身(1)设回归方程为y^=3-5x,那么变量x增加一个单位时(

)A.y平均增加3个单位

B.y平均裁减5个单位C.y平均增加5个单位

D.y平均裁减3个单位答案B解析由于-5是斜率的估计值,说明x每增加一个单位,y平均裁减5个单

位.应选B.(2)在以下各图中,两个变量具有相关关系的图是(

)

A.①②

B.①③

C.②④

D.②③答案D解析①为函数关系;②鲜明成正相关;③鲜明成负相关;④没有明显相关性.(3)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简朴随机抽样方法从不同地区调查了100位育龄妇女,结果如表.

非一线一线总计愿生452065不愿生132235总计5842100算得K2=1004522-20222584235659.616.附表:

P(K2k0)0.0500.0100.001k0

3.8416.63510.828参照附表,得到的正确结论是(

)A.在犯错误的概率不超过0.1%的前提下,认为"生育意愿与城市级别有关'B.在犯错误的概率不超过0.1%的前提下,认为"生育意愿与城市级别无关'C.有99%以上的把握认为"生育意愿与城市级别有关'D.有99%以上的把握认为"生育意愿与城市级别无关'答案C

解析由于K29.6166.635,所以有99%以上的把握认为"生育意愿与城市级别有关'.(4)已知变量x,y具有线性相关关系,它们之间的一组数据如下表所示,若y关于x的回归方程为y^=1.3x-1,那么m=________.x1234y0.11.8m4答案3.1解析由已知得x-=14(1+2+3+4)=2.5,y-=14(0.1+1.8+m+4)=14(5.9+m).由于(x-,y-)在直线y^=1.3x-1上,所以y-=1.32.5-1=2.25,所以14(5.9+m)=2.25,解得m=3.1.

题型一相关关系的判断

1.以下两变量中不存在相关关系的是(

)①人的身高与视力;②曲线上的点与该点的坐标之间的关系;③某农田的水稻产量与施肥量;④某同学考试劳绩与复习时间的投入量;⑤匀速行驶的汽车的行驶距离与时间;⑥商品的销售额与广告费.A.①②⑤

B.①③⑥

C.④⑤⑥

D.②⑥答案A解析根据相关关系的定义知,①②⑤中两个变量不存在相关关系.2.以下命题中正确的为(

)

A.线性相关系数r越大,两个变量的线性相关性越强B.线性相关系数r越小,两个变量的线性相关性越弱C.残差平方和越小的模型,模型拟合的效果越好D.用相关指数R2来刻画回归效果,R2越小,说明模型的拟合效果越好答案C解析线性相关系数r的十足值越接近于1,两个变量的线性相关性越强,故A,B错误;残差平方和越小,相关指数R2越大,越接近于1,拟合效果越好,故C正确,D错误.3.对四组数据举行统计,获得如下图的散点图,关于其相关系数的对比,正确的是(

)

A.r2r40r3r1

B.r4r20r1r3

C.r4r20r3r1

D.r2r40r1r3

答案A解析易知题中图①与图③是正相关,图②与图④是负相关,且图①与图②中的样本点集中分布在一条直线邻近,那么r2r40r3r1.应选A.

1.判定两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r0时,正相关;r0时,负相关.|r|越趋近于1相关性越强.见

举例说明3.(3)线性回归直线方程中:b^0时,正相关;b^0时,负相关.2.判断拟合效果的两个方法(1)残差平方和越小,拟合效果越好.见举例说明2.(2)相关指数R2越大,越接近于1,拟合效果越好.

1.在一组样本数据(x1,y1),(x2,y2),,(xn,yn)(n2,x1,x2,,xn不全相等)的散点图中,若全体样本点(xi,yi)(i=1,2,,n)都在直线y=12x+1上,那么这组样本数据的样本相关系数为(

)A.-1

B.0

C.12

D.1答案D解析全体点均在直线上,那么样本相关系数最大即为1,应选D.2.四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得线性回归方程,分别得到以下四个结论:

①y与x负相关且y^=2.347x-6.423;②y与x负相关且y^=-3.476x+5.648;③y与x正相关且y^=5.437x+8.493;④y与x正相关且y^=-4.326x-4.578.其中确定不正确的结论的序号是(

)A.①②

B.②③

C.③④

D.①④答案D解析由回归方程y^=b^x+a^知当b^0时,y与x正相关,当b^0时,y与x负相关,①④确定错误.题型二回归分析

角度1线性回归方程及应用1.某汽车的使用年数x与所支出的修理总费用y的统计数据如表:

使用年数x/年12345修理总费用y/万元0.51.22.23.34.5根据上表可得y关于x的线性回归方程y^=b^x-0.69,若该汽车修理总费用超过10万元就不再修理,直接报废,据此模型预料该汽车最多可使用(缺乏1年按1年计算)(

)A.8年

B.9年

C.10年

D.11年答案D解析由y关于x的线性回归直线y^=b^x-0.69过样本点的中心(3,2.34),得b^=1.01,即线性回归方程为y^=1.01x-0.69,令y^=1.01x-0.69=10,得x10.6,所以预料该汽车最多可使用11年.应选D.2.(2022东北三省三校三模)现代社会,"鼠标手'已成为常见病.一次测验中,10名测验对象举行160分钟的连续鼠标点击嬉戏,每位测验对象完成的嬉戏关卡一样,鼠标点击频率平均为180次/分钟,测验研究人员测试了测验对象使用鼠标前后的握力变化,前臂外观肌电频率(sEMG)等指标.(1)10名测验对象测验前、后握力(单位:N)测试结果如下:

测验前:346,357,358,360,362,362,364,372,373,376.测验后:313,321,322,324,330,332,334,343,350,361.完成茎叶图,并计算测验后握力平均值比测验前握力的平均值下降了多少N?

(2)测验过程中测得时间t(分)与10名测验对象前臂外观肌电频率(sEMG)的中位数y(Hz)的九组对应数据(t,y)为(0,87),(20,84),(40,86),(60,79),(80,78),(100,78),

(120,76),(140,77),(160,75).建立y关于时间t的线性回归方程;(3)若肌肉肌电水平显著下降,提示肌肉明显进入疲乏状态,根据(2)中九组数据分析,使用鼠标多少分钟就该举行休息了?参考数据:9i=1

(ti-t)(yi-y-)=-1800;参考公式:回归方程y^=b^t+a^中斜率和截距的最小二乘估计公式分别为:b^=ni=1

ti-tyi-y-ni=1

ti-t2,a^=y--b^t.解(1)根据题意得到茎叶图如右图所示:

由图中数据可得x-1=110(346+357+358+360+362+362+364+372+373+376)=363,x-2=110(313+321+322+324+330+332+334+343+350+361)=333,x-1-x-2=363-333=30(N),故测验前后握力的平均值下降了30N.(2)由题意得t=19(0+20+40+60+80+100+120+140+160)=80,y-=19(87+84+86+79+78+78+76+77+75)=80,9i=1

(ti-t)2=(0-80)2+(20-80)2+(40-80)2+(60-80)2+(80-80)2+(100-80)2+(120-80)2+(140-80)2+(160-80)2=24000,又9i=1

(ti-t)(yi-y-)=-1800,

b^=9i=1

ti-tyi-y-9i=1

ti-t2=-180024000=-0.075,a^=y--b^t=80-(-0.075)80=86,y关于时间t的线性回归方程为y^=-0.075t+86.(3)九组数据中40分钟到60分钟y的下降幅度最大,提示60分钟时肌肉已经进入疲乏状态,故使用鼠标60分钟就该休息了.角度2非线性回归模型的应用3.(2022莆田二模)某芯片公司为制定下一年的研发投入筹划,需了解年研发资金投入量xi(单位:亿元)对年销售额yi(单位:亿元)的影响.该公司对历史数据举行比较分析,建立了两个函数模型:①y=+x2,②y=ex+t,其中,,,t均为常数,e为自然对数的底数.现该公司收集了近12年的年研发资金投入量xi和年销售额yi的数据,i=1,2,,12,并对这些数据作了初步处理,得到了如下的散点图及一些统计量的值.

令ui=x2,vi=lnyi(i=1,2,,12),经计算得如下数据:

x-

y-

i=112(xi-x-)2

i=112(yi-y-)2

u-

v-

20667702004604.20

i=112(ui-u-)2

i=112(ui-u-)i=112(vi-v-)2

i=112(xi-x-)

(yi-y-)(vi-v-)3125000215000.30814(1)设{ui}和{yi}的相关系数为r1,{xi}和{vi}的相关系数为r2,请从相关系数的角度,选择一个拟合程度更好的模型;(2)①根据(1)的选择及表中数据,建立y关于x的回归方程(系数精确到0.01);②若下一年销售额y需达成90亿元,预料下一年的研发资金投入量x是多少亿元?附:相关系数r=i=1nxi-x-yi-y-i=1nxi-x-2i=1nyi-y-2,回归直线y^=a^+b^x中斜率和截距的最小二乘估计公式分别为b^=i=1nxi-x-yi-y-i=1nxi-x-2,a^=y--b^x-;参考数据:308=477,909.4868,e4.499890.解(1)由题意,r1=i=112ui-u-yi-y-i=112ui-u-2i=112yi-y-2=215003125000200=2150025000=4350=0.86,r2=i=112xi-x-vi-v-i=112xi-x-2i=112vi-v-2=147700.308

=14770.2=10110.91,那么|r1||r2|,因此从相关系数的角度,模型y=ex+t的拟合程度更好.(2)①先建立v关于x的线性回归方程,由y=ex+t,得lny=t+x,即v=t+x;由于=i=112xi-x-vi-v-i=112xi-x-2=147700.018,t=v--x-=4.20-0.01820=3.84,所以v关于x的线性回归方程为v^=0.02x+3.84,所以lny^=0.02x+3.84,那么y^=e0.02x+3.84.②下一年销售额y需达成90亿元,即y=90,代入y^=e0.02x+3.84,得90=e0.02x+3.84,又e4.499890,所以4.49980.02x+3.84,所以x4.4998-3.840.02=32.99,所以预料下一年的研发资金投入量约是32.99亿元.

1.利用线性回归方程时的关注点(1)正确理解计算b^,a^的公式和切实的计算是求线性回归方程的关键.(2)回归直线方程y^=b^x+a^必过样本点中心(x-,y-).见举例说明1.(3)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,那么可通过线性回归方程来估计和预料.2.非线性回归方程的求法

(1)根据原始数据(x,y)作出散点图.(2)根据散点图选择恰当的拟合函数.(3)作恰当的变换,将其转化成线性函数,求线性回归方程.(4)在(3)的根基上通过相应变换,即可得非线性回归方程.见举例说明3.

1.(2022南宁二模)一汽车销售公司对开业4年来某种型号的汽车"五一'优待金额与销售量之间的关系举行分析研究并做了记录,得到如下资料.日期第1年第2年第3年第4年优待金额x(千元)10111312销售量y(辆)22243127经过统计分析(利用散点图)可知x,y线性相关.(1)用最小二乘法求出y关于x的线性回归方程y^=b^x+a^;(2)若第5年优待金额为8.5千元,估计第5年的销售量y(辆)的值.参考公式:b^=i=1nxi-x-yi-y-i=1nxi-x-2=i=1nxiyi-nx-y-i=1nx2i-nx-2,a^=y--b^x-.解(1)由题意,得x-=11.5,y-=26,i=14xiyi=1211,i=14x2i=534,b^=i=14xiyi-4x-y-i=14x2i-4x-2=1211-411.526534-411.52=155=3,那么a^=y--b^x-=26-311.5=-8.5.y^=3x-8.5.(2)当x=8.5时,y^=17,第5年优待金额为8.5千元时,销售量估计为17辆.

2.对某地区儿童的身高与体重的一组数据,我们用两种模型:①y=bx+a,②y=cedx拟合,得到回归方程分别为y^(1)=0.24x-8.81,y^(2)=1.70e0.022x,作残差分析,如下表:

身高x(cm)60708090100110体重y(kg)6810141518e^(1)

0.410.01

1.21-0.190.41e^(2)

-0.360.070.121.69-0.34-1.12(1)求表中空格内的值;(2)根据残差对比模型①②的拟合效果,抉择选择哪个模型;(3)若残差大于1kg的样本点被认为是奇怪数据,应剔除,剔除后对(2)所选择的模型重新建立回归方程.(结果留存到小数点后两位)附:对于一组数据(x1,y1),(x2,y2),,(xn,yn),其回归直线y^=b^x+a^的斜率和截距的最小二乘估计分别为b^=ni=1

xi-x-yi-y-ni=1

xi-x-2,a^=y--b^x-.解(1)根据残差分析,把x=80代入y^(1)=0.24x-8.81中,得y^(1)=10.39.∵10-10.39=-0.39,表中空格内的值为-0.39.(2)模型①残差的十足值的和为0.41+0.01+0.39+1.21+0.19+0.41=2.62,模型②残差的十足值的和为0.36+0.07+0.12+1.69+0.34+1.12=3.7.∵2.623.7,模型①的拟合效果对比好,选择模型①.(3)残差大于1kg的样本点被剔除后,剩余的数据如下表:

身高x(cm)607080100110体重y(kg)68101518e^(1)

0.410.01-0.39-0.190.41

那么x-=84,y-=11.4,i=15(xi-x-)(yi-y-)=412,i=15(xi-x-)2=1720,由公式b^=ni=1

xi-x-yi-y-ni=1

xi-x-2,a^=y--b^x-,得b^0.24,a^=-8.76,得回归方程为y^=0.24x-8.76.题型三独立性检验

1.假设有两个分类变量X和Y的22列联表如下:

YX

y1

y2

总计x1

a10a+10x2

c30c+30总计6040100对同一样本,以下数据能说明X与Y有关系的可能性最大的一组为(

)A.a=45,c=15

B.a=40,c=20C.a=35,c=25

D.a=30,c=30答案A解析根据22列联表与独立性检验可知,当aa+10与cc+30相差越大时,X与Y有关系的可能性越大,即a,c相差越大,aa+10与cc+30相差越大.应选A.2.(2022南昌三模)某校高三文科(1)班共有学生45人,其中男生15人,女生30人.在一次地理考试后,对劳绩作了数据分析(总分值100分),劳绩为85分以上的同学称为"地理之星',得到了如以下联表和条形图:

地理之星非地理之星合计男生

女生

合计

假设从全班45人中任意抽取1人,抽到"地理之星'的概率为13.

(1)完成"地理之星'与性别的22列联表,并回复是否有90%以上的把握认为获得"地理之星'与"性别'有关?(2)若已知此次考试中获得"地理之星'的同学的劳绩平均值为90,方差为7.2,请你判断这些同学中是否有得到总分值的同学,并说明理由.(得分均为整数分)参考公式:K2=nad-bc2a+bc+da+cb+d,其中n=a+b+c+d.临界值表:

P(K2k0)0.100.050.0100.0050.001k0

2.7063.8416.6357.87910.828解(1)根据题意知"地理之星'总人数为4513=15,填写列联表如下:

地理之星非地理之星合计男生7815女生82230合计153045根据表中数据,计算K2=45722-88215301530=1.82.706,所以没有90%的把握认为获得"地理之星'与性别有关.(2)没有得总分值的同学.记各个分值由高到低分别为x1,x2,,x15.

①若有2个以上的总分值,那么s2=115[(100-90)2+(100-90)2++(x15-90)2]4037.2,不符合题意.②若恰有1个总分值,为使方差最小,那么其他分值需集中分布在平均数90的邻近,且为保证平均值为90,那么有10个得分为89,其余4个得分为90,此时方差取得最小值,s2min=115[(100-90)2+4(90-90)2+10(89-90)2]=2237.2,与题意方差为7.2不符合,所以这些同学中没有得总分值的同学.

独立性检验的一般步骤(1)根据样本数据列出22列联表;(2)计算随机变量K2的观测值k,查表确定临界值k0;(3)假设kk0,就推断"X与Y有关系',这种推断犯错误的概率不超过P(K2k0);否那么,就认为在犯错误的概率不超过P(K2k0)的前提下不能推断"X与Y有关系'.

1.学生会为了调查学生对2022年俄罗斯世界杯的关注是否与性别有关,抽样调查100人,得到如下数据:

不关注关注总计男生301545女生451055总计7525100根据表中数据,通过计算统计量K2=nad-bc2a+bc+da+cb+d,并参考以下临界数据:

P(K2

k0)0.500.400.250.150.100.050.0250.0100.0050.001

k0

0.4550.7081.3232.0722.7063.8415.0246.6357.87910.828若由此认为"学生对2022年俄罗斯世界杯的关注与性别有关',那么此结论出错的概率不超过(

)A.0.10

B.0.05

C.0.025

D.0.01答案A解析由题意可得K2=1003010-15452455575253.0302.706,由此认为"学生对2022年俄罗斯世界杯的关注与性别有关'出错的概率不超过0.10.应选A.2.(2022全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为对比两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,其次组工人用其次种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:

(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:

超过m不超过m第一种生产方式

其次种生产方式

(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?附:K2=nad-bc2a+bc+da+cb+d,

P(K2k0)0.0500.0100.001k0

3.8416.63510.828解(1)其次种生产方式的效率更高.理由如下:

①由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间超过80分钟,用其次种生产方式的工人中,有75%的工人完成生产任务所需时间不超过79分钟.因此其次种生产方式的效率更高.②由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用其次种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此其次种生产方式的效率更高.③由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用其次种生产方式的工人完成生产任务平均所需时间低于80分钟,因此其次种生产方式的效率更高.④由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用其次种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布,又用两种生产方式的工人完成生产任务所需时间分布的区间一致,故可以认为用其次种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少,因此其次种生产方式的效率更高.(以上给出了4种理由,考生答出其中任意一种或其他合理理由均可)(2)由茎叶图知m=79+812=80.列联表如下:

超过m不超过m第一种生产方式155其次种生产方式515

(3)由于K2的观测值k=401515-55220222022=106.635,所以有99%的把握认为两种生产方式的效率有差异.

课时作业

组根基关1.查看以下各图形:

其中两个变量x,y具有相关关系的图是(

)A.①②

B.①④

C.③④

D.②③答案C解析查看散点图可知,两个变量x,y具有相关关系的图是③④.2.甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:

甲乙丙丁r0.820.780.690.85m106115124103那么哪位同学的试验结果表达A,B两变量有更强的线性相关性(

)A.甲

B.乙

C.丙

D.丁答案D解析在验证两个变量之间的线性相关关系时,相关系数的十足值越接近1,相关性越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果表达了A,B两个变量有更强的线性相关性.应选D.3.(2022湖北省七市(州)教科研协作体联考)为了规定工时定额,需要确定加

工零件所花费的时间,为此举行了5次试验,得到5组数据:(x1,y1),(x2,y2),(x3,y3),(x4,y4),(x5,y5).根据收集到的数据可知x1+x2+x3+x4+x5=100,用最小二乘法求得回归直线方程为y^=0.67x+54.8,那么y1+y2+y3+y4+y5的值为(

)A.68.2

B.341

C.355

D.366.2答案B解析由题意,得x-=1005=20,将其代入回归直线方程y^=0.67x+54.8中,得y-=0.6720+54.8=68.2,所以y1+y2+y3+y4+y5=5y-=341.应选B.4.(2022兰州模拟)根据如下样本数据:

x12345ya-1-10.5b+12.5得到的回归方程为y^=bx+a.样本点的中心为(3,0.1),当x增加1个单位,那么y近似(

)A.增加0.8个单位

B.裁减0.8个单位C.增加2.3个单位

D.裁减2.3个单位答案A解析由题意,知x-=15(1+2+3+4+5)=3,y-=15[(a-1)+(-1)+0.5+(b+1)+2.5]=a+b+25=0.1,①又回归直线方程过样本中心点(3,0.1),得3b+a=0.1,②由①②联立,解得a=-2.3,b=0.8,所以回归直线方程为y^=0.8x-2.3,所以当x增加1个单位时,y近似增加0.8个单位.5.已知两个随机变量x,y之间的相关关系如下表所示:

x-4-2124

y-5-3-1-0.51根据上述数据得到的回归方程为y^=b^x+a^,那么大致可以判断(

)参考公式:b^=ni=1xiyi-nx-y-ni=1x2i-nx-2,a^=y--b^x-A.a^0,b^0

B.a^0,b^0C.a^0,b^0

D.a^0,b^0答案C解析由已知得,x-=0.2,y-=-1.7,b^=20+6-1-1+4-50.2-1.716+4+1+4+16-50.22=991360,a^=-1.7-991360.20,或利用散点图,易判断b^0,a^0.应选C.6.(2022湛江二模)有人认为在机动车驾驶技术上,男性优于女性.这是真的么?某社会调查机构与交警合作随机统计了经常开车的100名驾驶员最近三个月内是否有交通事故或交通违法事情发生,得到下面的列联表:

男女合计无403575有151025合计5545100

附:K2=nad-bc2a+bc+da+cb+d

P(K2k0)0.500.400.250.150.10k0

0.4550.7081.3232.0722.706据此表,可得(

)A.认为机动车驾驶技术与性别有关的稳当性缺乏50%

B.认为机动车驾驶技术与性别有关的稳当性超过50%C.认为机动车驾驶技术与性别有关的稳当性缺乏60%D.认为机动车驾驶技术与性别有关的稳当性超过60%答案A解析由表中数据,计算K2=1004010-35152554575250.33670.455,认为机动车驾驶技术与性别有关的稳当性缺乏50%.应选A.7.在一组样本数据(x1,y1),(x2,y2),,(x6,y6)的散点图中,若全体样本点(xi,yi)(i=1,2,,6)都在曲线y=bx2-13邻近波动.经计算6i=1xi=11,6i=1yi=13,6i=1x2i=21,那么实数b的值为________.答案57

解析令t=x2,那么曲线的回归方程变为线性的回归方程,即y=bt-13,此时t=6i=1x2i6=72,y-=6i=1yi6=136,代入y=bt-13,得136=b72-13,解得b=57.8.(2022厦门二模)某种细胞的存活率y(%)与存放温度x(℃)之间具有线性相关关系,其样本数据如表所示:

存放温度x(℃)20151050-5-10存活率y(%)6142633436063计算得x-=5,y-=35,i=17xiyi=-175,i=17x2i=875,并求得回归直线为y^=-2x+45.但测验人员察觉表中数据x=-5的对应值y=60录入有误,更正为y=53.那么更正后的回归直线方程为________.参考公式:回归方程y^=b^x+a^中斜率和截距的最小二乘估计公式分别为b^=

i=1nxiyi-nx-y-i=1nx2i-nx-2,a^=y--b^x-.答案y^=-1.9x+43.5解析由题意,更正后,x-=5,y-=17(357-60+53)=34,i=17xiyi=-175+560-553=-140,i=17x2i=875,b^=i=1nxiyi-nx-y-i=1nx2i-nx-2=-140-7534875-725=-1.9,a^=y--b^x-=34-(-1.9)5=43.5.更正后的回归直线方程为y^=-1.9x+43.5.

组才能关1.变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,那么(

)A.r2r10

B.0r2r1

C.r20r1

D.r2=r1

答案C解析对于变量Y与X而言,Y随X的增大而增大,故Y与X正相关,即r10;对于变量V与U而言,V随U的增大而减小,故V与U负相关,即r20,应选C.

2.某人研究中学生的性别与劳绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,那么与性别有关联的可能性最大的变量是(

)表1

劳绩性别

不及格及格总计男61420女102232总计163652表2

视力性别

好差总计男41620女122032总计163652表3

智商性别

偏高正常总计男81220女82432总计163652表4

阅读量性别

丰富不丰富总计男14620女23032总计163652

A.劳绩

B.视力

C.智商

D.阅读量答案D解析K21=52622-1014216362032,令5216362032=m,那么K21=82m,同理,K22=m(420-1216)2=1122m,K23=m(824-812)2=962m,K24=m(1430-62)2=4082m,K24>K22>K23>K21,那么与性别有关联的可能性最大的变量是阅读量.应选D.3.(多项选择)某商品的销售量y(件)与销售价格x(元/件)存在线性相关关系.根据一组样本数据(xi,yi)(i=1,2,,n),用最小二乘法建立的回归方程为y^=-5x+150,那么以下结论正确的是(

)A.y与x具有负的线性相关关系B.若r表示y与x之间的线性相关系数,那么r=-5C.当销售价格为10元时,销售量为100件D.当销售价格为10元时,销售量为100件左右答案AD解析由回归直线方程知,y与x具有负的线性相关关系,A正确,若r表示y与x之间的线性相关系数,那么|r|1,B错误.当销售价格为10元时,y^=-510+150=100,即销售量为100件左右,C错误,D正确,应选AD.4.针对时下的"韩剧热',某校团委对"学生性别和热爱韩剧是否有关'作了一次调查,其中女生人数是男生人数的12,男生热爱韩剧的人数占男生人数的16,女生热爱韩剧的人数占女生人数的23.若有95%的把握认为是否热爱韩剧和性别有关,那么男生至少有________人.

P(K2k0)0.0500.0100.001

k0

3.8416.63510.828答案12解析设男生人数为x,由题意可得列联表如下:

热爱韩剧不热爱韩剧总计男生x6

5x6x女生x3

x6

x2

总计x2

x3x2若有95%的把握认为是否热爱韩剧和性别有关,那么k3.841,即k=3x2x6x6-5x6x32xx2x2x=3x83.841,解得x10.243.由于x6,x3,x2为整数,所以若有95%的把握认为是否热爱韩剧和性别有关,那么男生至少有12人.5.(2022惠州市其次次调研)某商场为了了解毛衣的月销量y(件)与月平均气温x(℃)之间的关系,随机统计了某4个月的月销售量与当月平均气温,其数据如下表:

月平均气温x/℃171382月销售量y/件24334055由表中数据算出线性回归方程y^=b^x+a^中的b^=-2,那么a^=________;气象部门预料下个月的平均气温约为6℃,据此估计该商场下个月毛衣销售量约为________件.答案5846解析由题中数据,得x-=10,y-=38,回归直线y^=b^x+a^过点(x-,y-),且b^=-2,代入得a^=58,那么回归方程y^=-2x+58,所以当x=6时,y=46.

6.(2022全国卷Ⅱ)下图是某地区2000年至2022年环境根基设施投资额y(单位:亿元)的折线图.为了预料该地区2022年的环境根基设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2022年的数据(时间变量t的值依次为1,2,,17)建立模型①:y^=-30.4+13.5t;根据2022年至2022年的数据(时间变量t的值依次为1,2,,7)建立模型②:y^=99+17.5t.(1)分别利用这两个模型,求该地区2022年的环境根基设施投资额的预料值;(2)你认为用哪个模型得到的预料值更稳当?并说明理由.

解(1)利用模型①,该地区2022年的环境根基设施投资额的预料值为y^=-30.4+13.519=226.1(亿元).利用模型②,该地区2022年的环境根基设施投资额的预料值为y^=99+17.59=256.5(亿元).(2)利用模型②得到的预料值更稳当.理由如下:

(ⅰ)从折线图可以看出,2000年至2022年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2022年的数据建立的线性模型①不能很好地描述环境根基设施投资额的变化趋势.2022年相对2022年的环境根基设施投资额有明显增加,2022年至2022年的数据对应的点位于一条直线的邻近,这说明从2022年开头环境根基设施投资额的变化规律呈线性增长趋势,利用2022年至2022年的数据建立的线性模型y^=99+17.5t可

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论