高中数学专项复习:回归分析与独立性检验(解析版)_第1页
高中数学专项复习:回归分析与独立性检验(解析版)_第2页
高中数学专项复习:回归分析与独立性检验(解析版)_第3页
高中数学专项复习:回归分析与独立性检验(解析版)_第4页
高中数学专项复习:回归分析与独立性检验(解析版)_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《数学(文)选考与统计部分二轮专项提升》

专题02回归分析与独立性检验

一、高考题型特点:

这部分属于高考必考内容,既考客观题,也考大题,难度中等。

二、重难点:

1.回归分析是处理变量相关关系的一种数学方法.主要解决:(1)确定特定量之间是否有相关关系,如果有

就找出它们之间贴近的数学表达式;(2)根据一组观察值,预测变量的取值及判断变量取值的变化趋势;(3)

求出线性回归方程.

2.独立性检验是根据片的值判断两个分类变量有关的可信程度.

三、易错注意点:

1.求回归方程,关键在于正确求出系数a"少,由于,,b-的计算量大,计算时应仔细谨慎,分步进

行,避免因计算而产生错误.

2.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性

回归方程才有实际意义,否则,求出的线性回归方程毫无意义.根据回归方程进行预报,仅是一个预报值,

而不是真实发生的值.

3.独立性检验中统计量片的观测值左的计算公式很复杂,在解题中易混淆一些数据的意义,代入公式时出

错,而导致整个计算结果出错.

四、典型例题:

例1.(2019全国1文17)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对

该商场的服务给出满意或不满意的评价,得到下面列联表:

满意不满意

男顾客4010

女顾客3020

(1)分别估计男、女顾客对该商场服务满意的概率;

(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?

,,n(ad-bc)2

IT:A.=-------------------------.

(a+/?)(c+d)(a+c)(b+d)

P(片NA)0.0500.0100.001

k3.8416.63510.828

【解析】(1)由调查数据,男顾客中对该商场服务满意的比率为E=0.8,因此男顾客对该商场服务满

50

意的概率的估计值为0.8.

女顾客中对该商场服务满意的比率为3二0=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6.

50

⑵q=100x(40x20-30x10)2-4'Z.

50x50x70x30

由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.

例2.(2015湖北)已知变量尤和y满足关系y=-O.lx+l,变量y与z正相关,下列结论中正确的是()

A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关

C.x与y负相关,x与z负相关D.%与y负相关,%与z正相关

【答案】C

【解析】因为变量x和y满足关系y=-0.1尤+1,其中-0.1<0,所以x与y成负相关;又因为变量y与z正

相关,不妨设z=.+6(Jt>0),贝ij将y=-0.1x+l代入即可得至(j:z=k(.-0.1x+V)+b=~0.1kx+(k+b),

所以-0.1左<0,所以x与z负相关,综上可知,应选C.

例3.(2012新课标)在一组样本数据(xi,71),(^2,姓),…,(Xn,为)(〃N2,xi,热,…,不全相等)

的散点图中,若所有样本点(为,K)(片1,2,…,〃)都在直线y=gx+l上,则这组样本数据的样本相

关系数为()

1

A.-1B.0C.-D.1

【答案】D

【解析】因为所有的点都在直线上,这组样本数据完全正相关,故其相关系数为1,故选D.

例4.(2015北京)高三年级267位学生参加期末考试,某班37位学生的语文成绩,数学成绩与总成绩在

全年级中的排名情况如下,甲、乙、丙为该班三位学生.

67一

267颠

•丙

次a

。O

总成绩年级名次总成绩年级名次267

从这次考试成绩看,

①在甲、乙两人中,其语文成绩名次比其总成绩名次靠前的学生是;

②在语文和数学两个科目中,丙同学的成绩名次更靠前的科目是.

【答案】乙数学

【解析】①由图可知,甲的语文成绩排名比总成绩排名靠后;而乙的语文成绩排名比总成绩排名靠前,故

填乙.②由图可知,比丙的数学成绩排名还靠后的人比较多;而总成绩的排名中比丙排名靠后的人数

比较少,所以丙的数学成绩的排名更靠前,故填数学.

例5.(2018全国卷II)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.

为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量/的两个线性回归模型.根据2000

年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:£=—30.4+13.5/;根据2010

年至2016年的数据(时间变量♦的值依次为1,2,…,7)建立模型②:,=99+17.5九

(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;

(2)你认为用哪个模型得到的预测值更可靠?并说明理由.

【解析】(1)利用模型①,该地区2018年的环境基础设施投资额的预测值为

£=—30.4+13.5x19=226.1(亿元).

利用模型②,该地区2018年的环境基础设施投资额的预测值为

$=99+17.5x9=256.5(亿元).

(2)利用模型②得到的预测值更可靠.

理由如下:

(i)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5,上

下.这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变

化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位

于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010

年至2016年的数据建立的线性模型9=99+17.5/可以较好地描述2010年以后的环境基础设施投资额

的变化趋势,因此利用模型②得到的预测值更可靠.

(ii)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1

亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理.说明利用模型②得到的预测值更

可靠.

以上给出了2种理由,考生答出其中任意一种或其他合理理由均可得分.

6.(2017新课标I)为了监控某种零件的一条生产线的生产过程,检验员每隔30min从该生产线上随机抽

取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:

抽取次序12345678

零件尺寸9.9510.129.969.9610.019.929.9810.04

抽取次序910111213141516

零件尺寸10.269.9110.1310.029.2210.0410.059.95

1161~1~161~116

经计算得【而白=9.97,s=而%.原之)

1616

—8.5)2土18.439,^(x,-x)(z-8.5)=-2.78,其中芯为抽取的第,个零件的尺

J;=11=1

寸,1=1,2,16.

(1)求(X,/)。=1,2,…,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过

程的进行而系统地变大或变小(若I川<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变

大或变小).

(2)一天内抽检零件中,如果出现了尺寸在(元-3s,元+3s)之外的零件,就认为这条生产线在这一

天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.

(i)从这一天抽检的结果看,是否需对当天的生产过程进行检查?

(ii)在(元-3s芝+3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸

的均值与标准差.(精确到0.01)

元)(%一9)

附:样本(七,%)(,=1,2,…,ri)的相关系数ri=l

程一电(-2

VO.008工0.09.

【解析】(1)由样本数据得(%,i)(i=l,2,…,16)的相关系数为

16

2(%-元)(,-8.5)

-2.78

i=l士一0.18.

[~[61~160.212x716x18.439

方(%-元)2£(>8.5)2

i=iVi=i

由于|川<0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.

(2)(i)由于元=9.97,6^0.212,由样本数据可以看出抽取的第13个零件的尺寸在(元—3s,元+3s)

以外,因此需对当天的生产过程进行检查.

(ii)剔除离群值,即第13个数据,剩下数据的平均数为

^(16x9.97-9.22)=10.02,

这条生产线当天生产的零件尺寸的均值的估计值为10.02.

16

=16x0.2122+16x9.972^1591.134,

i=l

剔除第13个数据,剩下数据的样本方差为

[(1591.134—9.22?一15x10.022)°0008,

这条生产线当天生产的零件尺寸的标准差的估计值为血丽土0.09.

五、强化提升训练:

L根据如下样本数据:

X34567

y4.0a—5.4-0.50.56—0.6

得到的回归方程为y=6x+a.若样本点的中心为(5,0.9),则当x每增加1个单位时,了就()

A.增加1.4个单位B,减少1.4个单位

C.增加7.9个单位D.减少7.9个单位

【答案】B

【解析】依题意得,—i-=。-9,故a+Q6.5①;

又样本点的中心为(5,0.9),故0.9=56+a@,

联立①②,解得6=—1.4,3=7.9,贝!Jp=-L4x+7.9,可知当x每增加1个单位时,p就减少1.4

个单位.

2.已知某种商品的广告费支出x(单位:万元)与销售额y(单位:万元)之间有如下对应数据:

X24568

y304050m70

根据表中提供的全部数据,用最小二乘法得出p与x的线性回归方程为y=6.5x+17.5,则表中力的值

为()

A.45B.50

C.55D.60

【答案】D

2+4+5+6+8

【解析】•・•x=-------------------=5

一30+40+50+/+70190+%

・••当x=5时,y=6.5X5+17.5=50,

190+/左力/日

工一--=50,解得勿=60.

3.(2019•焦作模拟)已知变量x和p的统计数据如下表:

A.6.4B.6.25C.6.55D.6.45

【答案】C

■左刀工厂.人口不以"—3+4+5+6+7

[解析]由越思矢口x==5,

5

2.5+3+4+4.5+6

y=---------------------------=4,

将点(5,4)代入尸法一0.25,解得8=0.85,

则尸0.85x—0.25,

所以当x=8时,y=0.85X8-0.25=6.55,故选C.

4.(2019•丹东教学质量监测)某校为了研究学生的性别和对待某一活动的态度(支持与不支持)的关系,运

用2X2列联表进行独立性检验,经计算*=6.705,则所得到的统计学结论是:有的把握认为“学

生性别与支持该活动没有关系”()

尸(♦》1)0.1000.0500.0250.0100.001

ko2.7063.8415.0246.63510.828

A.99.9%B.99%C.1%D.0.1%

【答案】C

【解析】因为6.635<6.705<10,828,因此有1%的把握认为“学生性别与支持该活动没有关系”,故选C.

5.(2019•衡水中学调研)已知变量x,y之间的线性回归方程为y=—0.7x+10.3,且变量x,y之间的一组

相关数据如下表所示,则下列说法母送的是()

X681012

y6m32

A.变量x,y之间呈负相关关系

B.可以预测,当x=20时,y=-3.7

C.必=4

D.该回归直线必过点(9,4)

【答案】C

【解析】由一0.7<0,得变量x,y之间呈负相关关系,故A正确;当x=20时,y=-0.7X20+10.3=

—3.7,故B正确;由表格数据可知x=,X(6+8+10+12)=9,旷=:(6+卬+3+2)则=-

0.7X9+10.3,解得0=5,故C错;由卬=5,得尸.7二=4,所以该回归直线必过点(9,4),故D

正确.故选C.

6.(2019•黄山一模)在吸烟与患肺癌这两个分类变量的独立性检验的计算中,下列说法正确的是()

A.若片的观测值为4=6.635,在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,那么在100

个吸烟的人中必有99人患有肺癌

B.由独立性检验可知,在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系时,我们说某人吸烟,

那么他有99%的可能患有肺癌

C.若从统计量中求出在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,是指有1%的可能性使

得判断出现错误

D.以上三种说法都不正确

【答案】C

【解析】独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一

个结论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就

可能对统计计算的结果作出错误的解释.若从统计量中求出在犯错误的概率不超过0.01的前提下认为吸烟

与患肺癌有关系,是指有1%的可能性使得判断出现错误.故选C.

7.(2019•承德期末)某城市收集并整理了该市2018年1月份至10月份各月最低气温与最高气温(单位:。C)

的数据,绘制了下面的折线图.

已知该城市各月的最低气温与最高气温具有较好的线性关系,则根据折线图,下列结论错误的是()

A.最低气温与最高气温为正相关

B.10月的最高气温不低于5月的最高气温

C.月温差(最高气温减最低气温)的最大值出现在1月

D.最低气温低于0℃的月份有4个

【答案】D

【解析】在A中,最低气温与最高气温为正相关,故A正确;

在B中,10月的最高气温不低于5月的最高气温,故B正确;

在C中,月温差(最高气温减最低气温)的最大值出现在1月,故C正确;

在D中,最低气温低于0℃的月份有3个,故D错误.故选D.

8.一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验,收集数据,第7

1010

次试验零件个数区(单位:个)与加工零件所花费时间K(单位:小时)的数据资料,算得Ex=80,E%=20,

2=12=1

1010

Zx,n=184,E舅=720,那么加工零件所花费时间y对零件个数X的线性回归方程为

【答案】y=0.3x—0.4

【解析】由题意知

刀=10,x=-YXi=—=8,yyi——=2,

nl10n10

J=12=1

n

又£无一刀x2=720—10X82=80,

ZXiy—nxy=184—10X8X2=24,

2=1

"24"一"一

由此得上=三;=0.3,a=y~bx=2—0.3X8=—0.4,

故所求回归方程为y=0.3x—0.4.

9.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据

(如下表):

零件数4个1020304050

加工时间

力分钟6268758189

由最小二乘法求得回归方程y=0.67x+a,贝~的值为

【答案】54.9

10+20+30+40+50

【解析】因为x-------------5-------------=3。,

—62+68+75+81+89

y==75,

所以回归直线一定过样本点的中心(30,75),

则由尸0.67x+a可得75=30X0.67+a,

求得a=54.9.

10.在西非“埃博拉病毒”的传播速度很快,这己经成为全球性的威胁,为了考察某种埃博拉病毒疫苗的

效果,现随机抽取100只小鼠进行试验,得到如下列联表:

感染未感染总计

服用104050

未服用203050

总计3070100

附表:

户(百人)0.100.050.025

Ao2.7063.8415.024

参照附表,在犯错误的概率7〈超过________的前提一F,认为“小动物是否被感染与服用疫苗有关”

【答案】0.05

【解析】由题意算得,

,产100义10X30—20X402

J50X50X30X70「4・762>3.841,

参照附表,可得:

在犯错误的概率不超过0.05的前提下,认为“小动物是否被感染与服用疫苗有关”.

11.某小卖部销售某品牌饮料的零售价与销量间的关系统计如下:

单价x/元3.03.23.43.63.84.0

销量y/瓶504443403528

已知x,y的关系符合回归方程y=6x+a,其中6=—20.若该品牌饮料的进价为2元,为使利润最大,

零售价应定为元.

【答案】3.75

【解析】依题意得:x=3.5,y=40,

所以a=40一(—20)X3.5=110,

所以回归直线方程为:y=-20x+110,

利润L=(x—2)(—20x+110)=—20x+150x—220,

所以x=7万=3.75元时,利润最大.

12.某公司为了准确地把握市场,做好产品生产计划,对过去四年的数据进行整理得到了第x年与年销售

量y(单位:万件)之间的关系如表:

X1234

y12284256

(1)在图中画出表中数据的散点图

(2)根据散点图选择合适的回归模型拟合y与x的关系(不必说明理由);

(3)根据y关于x的回归方程,预测第5年的销售量.

参考公式:回归直线的斜率和截距的最小二乘法估计分别为

nn

EXi-xy-yZ:Xiy-nxy

,Qi,=i-,一

b=---------n----------------------------------n-----------------,a=y—bx.

2v-'22

EXi-xLXi-nx

i=iy=i

【解析】(1)作出的散点图如图:

(2)根据散点图观察,可以用线性回归模型拟合y与x的关系.观察散点图可知各点大致分布在一条直

线附近,列出表格:

2

XyX灯

1112112

2228456

33429126

445616224

£1013830418

4

-ExJi:7418.4X|X^

7=13

所以----------=--------LiLi1

LA--4T230-4X

——69735

a=y—bx=Y__§-X2=-2-

"73

故回归直线方程为y=^x—2.

u

…73

(3)当x=5时,X5—2=71.

o

故预测第5年的销售量为71万件.

13.“黄梅时节家家雨”“梅雨如烟暝村树”“梅雨暂收斜照明”……江南梅雨的点点滴滴都流润着浓烈

的诗情.每年六、七月份,我国长江中下游地区进入持续25天左右的梅雨季节,如图是江南。镇2009〜2018

年梅雨季节的降雨量(单位:mm)的频率分布直方图,试用样本频率估计总体概率,解答下列问题:

频率

组距

0.004-----------1——

0.003------------------------

0.002---|——

0.001-——.

0^100200300400500ftMfi/mm

(1)“梅实初黄暮雨深”,请用样本平均数估计。镇明年梅雨季节的降雨量;

(2)“江南梅雨无限愁”,0镇的杨梅种植户老李也在犯愁,他过去种植的甲品种杨梅,亩产量受降雨

量的影响较大(把握超过八成),而乙品种杨梅2009〜2018年的亩产量(单位:kg)与降雨量的发生频数(年)

如2X2列联表所示(部分数据缺失),请你帮助老李排解忧愁,他来年应该种植哪个品种的杨梅受降雨量影

响更小?(完善列联表,并说明理由)

降雨量

[200,400)[100,200)U[400,500]合计

亩产

<6002

16001

合计10

门八?nad-be2,

附:片—a+力c+da+c什",其中〃—a+6+c+a

尸(片》左)0.500.400.250.150.10

ko0.4550.7081.3232.0722.706

【解析】(1)频率分布直方图中第四组的频率为1—100X(0.002+0.004+0.003)=0.1.

所以用样本平均数估计。镇明年梅雨季节的降雨量为

150X0.2+250X0.4+350X0.3+450X0.1=30+100+105+45=280(mm).

(2)根据频率分布直方图可知,降雨量在[200,400)内的频数为10X100X(0.003+0.004)=7.

进而完善列联表如下.

降雨量

[200,400)[100,200)U[400,500]合计

亩产

<600224

2600516

合计7310

210X2X1-5X2280

片―7X3X4X627°<L323.

故认为乙品种杨梅的亩产量与降雨量有关的把握不足75%.

而甲品种杨梅受降雨量影响的把握超过八成,故老李来年应该种植乙品种杨梅受降雨量影响更小.

14.在2019年女子世界杯期间,法国部分餐厅销售了来自中国的小龙虾,这些小龙虾均标有等级代码.为

得到小龙虾等级代码数值x与销售单价y(单位:元)之间的关系,经统计得到如下数据:

等级代码数值X384858687888

销售单价y/元16.818.820.822.82425.8

(1)已知销售单价y与等级代码数值x之间存在线性相关关系,求y关于x的线性回归方程(系数精确

到0.1);

(2)若莫斯科某餐厅销售的中国小龙虾的等级代码数值为98,请估计该等级的中国小龙虾销售单价为多

少元?

参考公式:对于一组数据(国,为),(如㈤,…,(局,y),其回归直线尸bx+a的斜率和截距的最小

-ZXiy-nxy_■_

二乘法估计分别为仁2^^----------,a=y—bx.

Lv-'X2i~nx2

i=i

66

参考数据:£%n=8440,£劈=25564.

i=\7=1

・左38+48+58+68+78+88

【解析】⑴由题忌,得-----------e-----------------=63,

—16.8+18.8+20.8+22.8+24+25.8

y-z=21.5,

I产%-6xy8440-6X63X21.5_

二―三——=25564-6X632^0-2

6x

i=\

a=y~bx=21.5—0.2X63=8.9.

故所求线性回归方程为p=0.2x+8.9.

(2)由⑴,知当x=98时,尸0.2X98+8.9=28.5.

估计该等级的中国小龙虾销售单价为28.5元.

15.某职称晋级评定机构对参加某次专业技术考试的100人的成绩进行了统计,绘制的频率分布直方图如

图所示.规定80分以上者晋级成功,否则晋级失败(满分为100分).

(1)求图中a的值;

(2)估计该次考试的平均分x(同一组中的数据用该组的区间中点值代表);

(3)根据已知条件完成下面2X2列联表,并判断能否有85%的把握认为“晋级成功”与性别有关.

晋级成功晋级失败合计

男16

女50

合计

参考公式:窗=—^—:%一西厂‘其中〃=a+O+°+d

0.400.250.150.100.050.025

k0.7081.3232.0722.7063.8415.024

【解析】⑴由频率分布直方图中各小长方形面积总和为1,得(2a+0.020+0.030+0.040)X10=1,

解得a=0.005.

(2)由频率分布直方图知各小组的中点值依次是

55,65,75,85,95,

对应的频率分别为0.05,0.30,0.40,0.20,0.05,

则估计该次考试的平均分为二=55X0.05+65X0.3+75X0.4+85X0.2+95X0.05=74(分).

(3)由频率分布直方图知,晋级成功的频率为0.2+0.05=0.25,

故晋级成功的人数为100X0.25=25,

填写2X2列联表如下:

晋级成功晋级失败合计

男163450

女94150

合计2575100

nad-be2

a-\-bc+da+cb+d

100X16X41-34X92

-^2.613>2,072,

25X75X50X50

所以有85%的把握认为“晋级成功”与性别有关.

16.(2019•湖南长沙雅礼中学、河南省实验中学联考)环境问题是当今世界共同关注的问题,我国环保总

局根据空气污染指数PM2.5浓度,制定了空气质量标准:

空气污染

(0,50](50,100](100,150](150,200](200,300](300,+8)

指数

空气质量

优良轻度污染中度污染重度污染严重污染

等级

某市政府为了打造美丽城市,节能减排,从2010年开始考察了连续六年11月份的空气污染指数,绘制了

频率分布直方图,经过分析研究,决定从

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论