2024高考数学教材-统计与统计案例_第1页
2024高考数学教材-统计与统计案例_第2页
2024高考数学教材-统计与统计案例_第3页
2024高考数学教材-统计与统计案例_第4页
2024高考数学教材-统计与统计案例_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2024高考数学教材一统计与统计案例

目录

i.随机抽样与用样本估计总体...................................................1

2.变量间的相关关系、统计案例................................................17

3.概率与统计的综合问题......................................................32

1.随机抽样与用样本估计总体

课程标准考向预测

1.通过实例,了解简单随机抽样的

含义及其解决问题的过程,掌握两种简

单随机抽样方法:抽签法和随机数法.会

计算样本均值和样本方差,了解样本与

总体的关系.

2.通过实例,了解分层随机抽样的

特点和适用范围,了解分层抽样的必要

性,掌握各层样本量比例分配的方法.结

考情分析:简单随机抽样、分层

合具体实例,掌握分层随机抽样的样本

抽样、分层抽样的相关概念、频率分布

均值和样本方差.

直方图、茎叶图及其应用.预计频率分

3.在简单的实际情境中,能根据实

布直方图及其应用是考查的热点.

际问题的特点,设计恰当的抽样方法解

学科素养:数据分析、数学运算.

决问题.

4.能根据实际问题的特点,选择恰

当的统计图表对数据进行可视化描述,

体会合理使用统计图表的重要性.

5.结合实例,能用样本估计总体的

集中趋势参数(平均数、中位数、众数),

理解集中趋势参数的统计含义.

6.结合实例,能用样本估计总体的

第1页共44页

离散程度参数(标准差、方差、极差),理

解离散程度参数的统计含义.

7.结合实例,能用样本估计总体的

取值规律.

分步落实

❷q精梳理、巧诊断,过好双基关

V学生用书P187

I整知识I........................................................>»

1.随机抽样

(1)简单随机抽样

①定义:设一个总体含有N个个体,从中逐个不放回地抽取“个个体作为

样本(〃WAO,如果每次抽取时总体内的各个个体被抽到的机会都相笠,就把这种

抽样方法叫做简单随机抽样.

②最常用的方法:抽签法和随机数法.

(2)分层抽样

①定义:在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各

层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样

方法叫做分层抽样.

②应用范围:当总体是由差异明显的几个部分组成时,往往选用分层抽样.

2.用样本的频率分布估计总体分布

(1)在频率分布直方图中,纵轴表示频率,数据落在各小组内的频率用各小

长形的面积表示.各小长方形的面积总和等于组噩.

(2)频率分布折线图和总体密度曲线

①频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到

频率分布折线图.

②总体密度曲线:设想如果样本容量不断增大,分组的组距不断缩小,则频

率分布直方图实际上越来越接近于总体的分布,它可以用一条光滑曲线y=")

来描绘,这条光滑曲线就叫做总体密度曲线.

(3)茎叶图

第2页共44页

茎是指中间的一列数,叶是从茎的旁边生长出来的数.

3.用样本的数字特征估计总体的数字特征

(1)众数:一组数据中重复出现次数最多的数.

(2)中位数:把一组数据按从小到大顺序排列,处在中间位置的一个数据

(或两个数据的平均数).

(3)平均数:T=也+承:…反映了一组数据的平均水平.

(4)标准差:是样本数据到平均数的一种平均距离,s=

-7)2-(?2—才)‘十…+(X,,-Z).

-

--[(-J)"+(XQ-X)'十…•卜(„—7)’]

(5)方差:.=〃(X”是样本数

据,〃是样本容量,x是样本平均数).

¥常用结论

1.必记结论

(1)众数的估计值是最高矩形底边中点的横坐标.

(2)平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底

边中点的横坐标之和.

(3)中位数的估计值的左边和右边小矩形的面积和是相等的.

2.常用公式

(1)若数据xi,X2,…,龙”的平均数是尤,则nw+a,tnxi+a,mxn

+a的平均数是加T+A.

(2)若数据XI,X2,•••,X"的方差为$2,则依1+/?,«%2+人,…,办"十/7的

方差为热2,标准差为好

I练基础I................................................m

1.判断下列结论是否正确(请在括号中打“J”或“X”)

(1)简单随机抽样是一种不放回抽样.()

(2)在分层抽样中,每个个体被抽到的可能性与层数及分层有关.()

(3)平均数、众数与中位数都可以描述数据的集中趋势.()

第3页共44页

(4)一组数据的方差越大,说明这组数据的波动越大.()

(5)频率分布直方图中,小矩形的面积越大,表示样本数据落在该区间内的

频率越大.()

(6)茎叶图中的数据要按从小到大的顺序写,相同的数据可以只记一

次.()

(7)频率分布表和频率分布直方图是一组数据频率分布的两种形式,前者准

确,后者直观.()

答案:⑴J(2)X⑶J(4/⑸J⑹X⑺J

2.(必修3P64习题T5改编)某公司有员工500人,其中不到35岁的有125

人,35〜49岁的有280人,50岁及50岁以上的有95人,为了调查员工的身体

健康状况,从中抽取100名员工,则应在这三个年龄段分别抽取人数为()

A.33,34,33B.25,56,19

C.20,40,30D.30,50,20

B[因为125:280:95=25:56:19,所以抽取人数分别为25,56,19.]

3.(多选)如图的折线图是某超市2020年一月份至五月份的营业额与成本数

据.根据该折线图,下列说法正确的是()

A.该超市2020年的前五个月中五月份的利润最高

B.该超市2020年的前五个月的利润一直呈增长趋势

C.该超市2020年的前五个月的利润的中位为0.8万元

D.该超市2020年前五个月的总利润为3.5万元

AD[第1个月的利润为3—2.5=0.5(万元),第2个月的利润为3.5—2.8=

0.7(万元),第3个月的利润为3.8—3=0.8(万元),第4个月的利润为4-3.5=

0.5(万元),第5个月的利润为5—4=1(万元),其中第5个月利润最高,为1万

元,所以A正确.第4个月利润相比第3个月在下降,所以B错误.前五个月

第4页共44页

的利润的中位数为0.7万元,所以C错误,前五个月的总利润为0.5+0.7+0.8

+0.5+1=3.5(万元),所以D正确,故选AD.]

4.(必修3P71练习T1改编)如图所示是一样本的频率分布直方图.若样本

容量为100,则样本数据在[15,20]内的频数是.

解析:因为[15,20]对应的小矩形的面积为1-0.04X5-0.1X5=0.3,所

以样本落在[15,20]内的频数为0.3X100=30.

答案:30

5.(必修3P79练习T1改编)已知一组数据6,7,8,8,9,10,则该组数据

的方差是.

解析:这组数据的平均数为8,故方差为X[(6-8)2+(7-8)2+(8-

8)2+(8-8)2+(9-8)2+(10-8)2]=|.

答案:|

6暂分类突破微点拨、多维练,研透命题点。

〈学生用书P188

随机抽样自练型

[题组练透]

1.(多选X2020.全国高一专题练习)下列抽样方法不是简单随机抽样的是

()

A.从平面直角坐标系中抽取5个点作为样本

B.某可乐公司从仓库中的1000箱可乐中一次性抽取20箱进行质量检查

C.某连队从120名战士中,挑选出50名最优秀的战士去参加抢险救灾活

D.从10个手机中逐个不放回地随机抽取2个进行质量检验(假设10个手

第5页共44页

机已编号)

AC[对于A,平面直角坐标系中有无数个点,这与要求总体中的个体数有

限不相符,故A中的抽样方法不是简单随机抽样;对于B,一次性抽取与逐个

不放回地抽取是等价的,故B中的抽样方法是简单随机抽样;对于C,挑选的

50名战士是最优秀的,不符合简单随机抽样的等可能性,故C中的抽样方法不

是简单随机抽样;对于D,易知D中的抽样方法是简单随机抽样.故选AC.]

2.(多选X2020•全国高三专题练习)某中学高一年级有20个班,每班50人;

高二年级有30个班,每班45人.甲就读于高一,乙就读于高二.学校计划从这

两个年级中共抽取235人进行视力调查,下列说法中正确的是()

A.应该采用分层随机抽样法

B.高一、高二年级应分别抽取100人和135人

C.乙被抽到的可能性比甲大

D.该问题中的总体是高一、高二年级的全体学生的视力

ABD[由于各年级的年龄段不一样,因此应采用分层随机抽样法.由于比

2351

例为20X5+30X45=10,因此高一年级1000人中应抽取100人,高二年级

1350人中应抽取135人,甲、乙被抽到的可能性都是古,因此只有C不正确,

故应选ABD.]

3.为应对新冠肺炎疫情,许多企业在非常时期转产抗疫急需物资,某工厂

转产甲、乙、丙、丁四种不同型号的防疫物资,产量分别为200,400,300,100(单

位:件).为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽取60件

进行检验,则应从甲种型号的产品中抽取件.

解析:依题意,注意到在甲、乙、丙、丁四种不同型号的防疫物资中,甲

种型号的产品占赤,而=1.因此,采用分层抽样的方法从这些产

NUUI3I八■/IDUUI1UUJ

品中抽取60件进行检验,应从甲种型号的产品中抽取60X,=12(件).

答案:12

疗练后悟通

(1)抽签法与随机数法的适用情况

第6页共44页

①抽签法适用于总体中个体数较少的情况,随机数法适用于总体中个体数

较多的情况。

②一个抽样试验能否用抽签法,关键看两点:

一是制签是否方便;二是号签是否易搅匀.一般地,当总体容量和样本容量

都较小时可用抽签法.

(2)分层抽样问题类型及解题思路

①求某层应抽个体数量,根据该层所占总体的比例计算.

②已知某层个体数量,求总体容量,根据分层抽样即按比例抽样,列比例式

进行计算.

③确定是否应用分层抽样:分层抽样适用于总体中个体差异较大的情况.

样本的数字特征讲练型

区TH(2019•全国卷H)某行业主管部门为了解本行业中小企业的生产情况,

随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增

长率),的频数分布表.

y的分[-[0,[0.20,[0.40,[0.60,

组0.20,0)0.20)0.40)0.60)0.80)

企业

22453147

(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长

的企业比例;

(2)求这类企业产值增长率的平均数与方差(同一组中的数据用该组区间的

中点值为代表).

解析:(1)根据产值增长率频数分布表得,所调查的100个企业中产值增

14+7

长率不低于40%的企业频率为一如=0.21.

2

产值负增长的企业频率为而=0.02.

用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业

比例为21%,产值负增长的企业比例为2%.

—1

(2)y=而(-0.10X2+0.10X24+0.30X53+0.50X14+0.70X7)=

第7页共44页

0.30,

,]5一,

/=而i(y-y)2

/=i

=击[(-0.40)2X2+(-0.20)2X24+02X53+0.202X14+0.402X7]

=0.0296.

用归纲升华

众数、中位数、平均数'方差的意义及常用结论

(1)平均数与方差都是重要的数字特征,是对总体的一种简明的描述,它们

所反映的情况有着重要的实际意义,平均数、中位数、众数描述其集中趋势,

方差和标准差描述波动大小.

(2)方差的简化计算公式:$2=([(X1+%2H---F焉)一〃X2],或写成$2

=1(4+/+…+焉)-72,即方差等于原数据平方的平均数减去平均数

的平方.

变式训练

1.(多选)(2020.湖北鄂州市高二期中)下列命题中是真命题的有()

A.有A,B,。三种个体按3:1:2的比例分层抽样调查,如果抽取的A

个体数为9,则样本容量为30

B.一组数据1,2,3,3,4,5的平均数、众数、中位数相同

C.若甲组数据的方差为5,乙组数据为5,6,9,10,5,则这两组数据中

较稳定的是甲

D.某一组样本数据为125,120,122,105,130,114,116,95,120,134,

则样本数据落在区间[114.5,124.5]内的频率为0.4

BD[对于选项A:根据样本的抽样比等于各层的抽样比,样本容量为

3

9-f+2+3=18,故选项A不正确;对于选项B:数据1,2,3,3,4,5的平

均数为((14-2+3+3+44-5)=3,众数和中位数都是3,故选项B正确;对于

选项C:乙组数据的平均数为](5+6+9+10+5)=7,乙组数据的方差为][(5

第8页共44页

-7)2+(6-7)2+(9-7)2+(10-7)2+(5-7)2]=4.4<5,所以这两组数据中较稳

定的是乙,故选项C不正确;对于选项D:样本数据落在区间[114.5,124.5]有

120,122,116,120有4人,所以样本数据落在区间[114.5,124.5]内的频率为

4

正=0.4,故D正确.故选BD.]

2.已知样本7,8,9,x,y的平均数是8,方差是4,则孙=.

解析:由平均数是8可得x+y=16①.由方差是4得][1+0+1+(x-

x—11[x=5

8)2+(y-8)2]=4②,联立①②解得彳u或《,,,所以孙=55.

ly=5ly=ll

答案:55

3.(2020.广东惠州调研)某工厂为了解产品的生产情况,随机抽取了100个

样本.若样本数据XI,X2,…,xioo的方差为8,则数据2xi—1,2x2—1,…,

2x100—1的方差为.

解析:因为样本数据XI,尤2,…,xioo的方差为8,所以数据2xi—1,2x2

—1,…,2xioo—1的方差为22X8=32.

答案:32

统计图表及应用多维型

角度一扇形图

某贫困村经过一年的精准扶贫,该村农民的经济收入增加了一倍,实

现翻番,全村已经实现脱贫,为更好地了解该村的经济收入变化情况,统计了该

村精准扶贫前后农民的经济收入构成比例,得到如下饼图:

精准扶贫前经济收入构成比例精准扶贫后经济收人构成比例

则下面结论中不正确的是()

A.精准扶贫后,种植收入减少

B.精准扶贫后,其他收入增加了一倍以上

C.精准扶贫后,养殖收入增加了一倍

D.精准扶贫后,养殖收入与第三产业收入的总和超过了经济收入的一半

第9页共44页

A[设精准扶贫前经济收入为加,则精准扶贫后经济收入为2加,精准扶贫

前养殖收入为0.25m,种植收入为0.7"?,第三产业收入为0.03〃?,其他收入为

0.02加,精准扶贫后养殖收入为0.5〃?,种植收入为0.88相,第三产业收入为0.52加,

其他收入为0.1加,所以种植收入增加了,A选项错误.]

角度二折线图

EI31(多选)郑州市某一景区为了了解游客人数的变化规律,提高旅游服务

质量,收集并整理了2016年1月至2018年12月期间接待游客量(单位:万人)

的数据,绘制了下面的折线图.

月接待游客殳(万人)

45

40

35

30

0123456789101112123456789101112123456789101112

根据该折线图,下列结论正确的是()

A.月接待游客量逐月增加

B.年接待游客量逐年增加

C.各年的月接待游客量高峰期大致在7,8月

D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变

化比较平稳

BCD[由折线图知,每月接待游客的人数有增有减,故A项错误;从折线

图可以看出,每年接待游客的人数呈上升趋势,故B项正确;由三年接待游客

的人数情况来看,每年的游客量高峰期大致在7,8月,故C项正确;由折线图

易知,D项也正确.故选BCD.]

角度三茎叶图

区1不1(多选)(2020.龙岩期中)某赛季甲、乙两名篮球运动员5场比赛得分的

茎叶图如图所示,乙知甲得分的极差为32,乙得分的平均值为24,则下列结论

正确的是()

A.x=8

第10页共44页

B.甲得分的方差是736

C.y=26

D.乙得分的方差小于甲得分的方差

AD•甲得分的极差为32,

,30+无-6=32,解得尤=8,故A正确;

;乙得分的平均值为24,

(12+25+26+20+^+31)=24,

解得y=6,故C错误;

甲得分的平均数为:

|(6+14+28+38+34)=24,

二甲得分的方差是:

s?=1[(6—24)2+(14—24)2+(28—24>+(38—24/+(34—24月=147.2,故

B错误;乙得分的方差是:

S2=|[(12-24)2+(25-24)2+(26-24)2+(26-24)2+(31-24)2]=125.2,

二乙得分的方差小于甲得分的方差,故D正确.故选AD.]

角度四频率分布直方图

区T&:(2019•全国卷HI)为了解甲、乙两种离子在小鼠体内的残留程度,进行

如下试验:将200只小鼠随机分成A,8两组,每组100只,其中A组小鼠给服

甲离子溶液,B组小鼠给服乙离子溶液.每只小鼠给服的溶液体积相同、摩尔浓

度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分

比.根据试验数据分别得到如下直方图:

t频率7组距

;狈率阑距«---------

030------------

o.20

o.a15

10

o.050

1.52.53.54.55.56.57.5百分比O2.53.54.55.56.57.58.5百分比

甲离子残留百分比宜方图乙肉子残留百分比直方图

记。为事件:“乙离子残留在体内的百分比不低于5.5”,根据直方图得到

P(0的估计值为0.70.

(1)求乙离子残留百分比直方图中a,8的值;

第11页共44页

(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间

的中点值为代表).

解析:(1)由已知得0.70=a+0.20+0.15,故

rz=0.35.

/?=1-0.05-0.15-0.70=0.10.

(2)甲离子残留百分比的平均值的估计值为

2X0.15+3X0.20+4X0.30+5X0.20+6X0.10+7X0.05=4.05.

乙离子残留百分比的平均值的估计值为

3X0.05+4X0.10+5X0.15+6X0.35+7X0.20+8X0.15=6.00.

平归纳升华

(1)通过扇形统计图可以很清楚地表示出各部分数量同总数之间的关系.

(2)折线图可以显示随时间(根据常用比例放置)而变的连续数据,因此非常

适用于显示在相等时间间隔下数据的趋势.

(3)由茎叶图可以清晰地看到数据的分布情况,这一点同频率分布直方图类

似.它优于频率直方图的第一点是从茎叶图中能看到原始数据,没有任何信息

损失,第二是从茎叶图便于记录和表示.其缺点是当样本容量较大时,作图较

烦琐.

(4)准确理解频率分布直方图的数据特点

①频率分布直方图中纵轴上的数据是各组的频率除以组距的结果,不要误

认为纵轴上的数据是各组的频率,不要和条形图混淆.

②频率分布直方图中各小长方形的面积之和为1,这是解题的关键,常利用

频率分布直方图估计总体分布.

变式训练

1.(多选)(2020.福州市质量检测)某工厂有甲、乙两条流水线同时生产直径

为50mm的零件,各抽取10件进行测量,其结果如图所示.则以下结论正确的

是()

第12页共44页

A.甲流水线生产的零件直径的极差为0.4mm

B.乙流水线生产的零件直径的中位数为50.0mm

C.乙流水线生产的零件直径比甲流水线生产的零件直径稳定

D.甲流水线生产的零件直径的平均值小于乙流水线生产的零件直径的平均

ABC[由图知甲流水线生产的零件直径的极差为50.2—49.8=0.4(mm),故

A正确;由图知乙流水线生产的零件直径的中位数为50.0mm,故B正确;由图

知乙流水线生产的零件直径比甲流水线生产的零件直径稳定,故C正确,两流

水线生产的零件平均值相等,D不正确.选ABC.]

073

2.某校随机抽取20个班调查各班有出国意向的学生1764430

人数,所得数据的茎叶图如图所示,以5为组距将数据分27554320

385430

成[0,5),[5,10),…,[30,35),[35,40],所作的频率

分布直方图是()

05

04需04

-

03-03

-

02-02

0101

0510152025303540人数0510152025303540人数

AB

频率频率

组距

S

O0.404

O0.3O.03

O0.2O.02

O.

O0.101数

0人

10203C01()10203D040

频率1

A[法一:由茎叶图可知数据在[0,5)内的有1个,其赤为双=0.01,

频率1频率

在[5,10)内的有1个,其薪为赤石=0.01,在[10,15)内的有4个,其维

第13页共44页

4

为月=004,结合选项可知选A.

ZUAj

法二:由频率分布直方图的组距为5可排除C,D选项,又在区间[0,5),

频率

[5,10)内的数据个数相等,所以其告相等,故排除B选项,故选A.]

3.(2020.长沙市统一模拟考试)某学校对本校高三500名学生视力进行了

一次调查,随机抽取了100名学生的体检表,得到的频率分布直方图如图所

示,若频率分布直方图后四组的频数成等差数列,则估计本校高三这500名学

生中视力在4.8以上(含4.8)的人数为()

A.185B.180

C.195D.200

C[由题意得频率分布直方图前三组的频率依次为0.03,0.07,0.27,所以

前三组的频数依次为3,7,27,则后四组的频数和为90,又后四组的频数成等

差数列,所以后四组的频数依次为27,24,21,18,所以视力在4.8以上(含4.8)

的频率为39%,故本校高三这500名学生中视力在4.8以上(含4.8)的人数约为

500X39%=195.故选C.]

微专题系列42[五育并举]

渗透体育教育践行教化功能

(2020.新高考I卷)某中学的学生积极参加体育锻炼,其中有96%的学

生喜欢足球或游泳,60%的学生喜欢足球,82%的学生喜欢游泳,则该中学既喜

欢足球又喜欢游泳的学生数占该校学生总数的比例是()

A.62%B.56%

C.46%D.42%

C[法一:记喜欢足球的学生为事件A,喜欢游泳的学生为事件B,由题意

得P(A+B)=0.96,P(A)=0.60,P(3)=0.82.因为P(A+B)=P(A)+P(B)-P(AB),

第14页共44页

所以P(A3)=0.60+0.82—0.96=0.46.故选C.

法二:设该校学生总数为100,既喜欢足球又喜欢游泳的学生数为x;则

100X96%=100X60%+100X82%-X,解得x=46,所以既喜欢足球又喜欢游

泳的学生数占该校学生总数的比例为46%.选C.]

I争名师点评

本题以学生喜欢的体育项目为背景设计,情境近实际,倡导学生积极参加体

育锻炼.体现了数学抽象和数学运算等核心素养.

变式训练

(多选X2020.山东临沂期末)为了了解运动健身减肥的效果,某健身房调查

了20名肥胖者,健身之前他们的体重(单位:kg)情况如三维饼图(1).经过4个

月的健身后,他们的体重情况如三维饼图(2).

对比健身前后,关于这20名肥胖者,下面结论正确的是()

A.他们健身后,体重在区间[90,100)内的人数增加了2

B.他们健身后,体重在区间[100,110)内的人数没有改变

C.他们健身后,20人的平均体重大约减少了8kg

D.他们健身后,原来体重在区间[110,120)内的肥胖者的体重都减少了

ABD[体重在区间[90,100)内的肥胖者由健身前的20X30%=6人增加

到健身后的20义40%=8人,所以增加了2人,A正确.他们健身后,体重在

区间[100,110)内的百分比没有变,所以人数没有改变,B正确.他们健身

后,20人的平均体重大约减少了(0.3X95+0.5X105+0.2X115)-(0.1X85+

0.4X95+0.5X105)=5(kg),C错误.因为题图(2)中没有体重在区间[110,

120)内的比例,所以原来体重在区间[110,120)内的肥胖者体重都减少了,D

正确.故选ABDJ

[友情提示]每道习题都是一个高考点,每项训练都是对能力的检验,认

真对待它们吧!进入“课时作业(六十二)”,去收获希望,体验成功!本栏目

第15页共44页

内容以活页形式分册装订!

第16页共44页

2.变量间的相关关系、统计案例

课程标准考向预测

1.结合实例,了解样本相关系数的

统计含义,了解样本相关关系与标准化

数据向量夹角的关系.

2.结合实例,会通过相关系数比较

多组成对数据的相关性.考情分析:两个变量线性相关的

3.结合具体实例,了解一元线性回判断及应用,回归直线方程的求法及应

归模型的含义,了解模型参数的统计意用,利用2X2列联表判断两个变量的相

义,了解最小二乘原理、掌握一元线性关关系将是高考考查的热点,题型将是

回归模型参数的最小二乘估计方法,会选择题与填空题或者在解答题中综合考

使用相关的统计软件.查.

4.针对实际问题,会用一元线性回学科素养:数学建模、数据分析、

归模型进行预测.数学运算.

5.通过实例,理解2X2列联表的

统计意义.

6.通过实例,了解2X2列联表的

独立性检验及其应用.

❷等分步落实

精梳理、巧诊断,过好双基关。

V学生用书P192

I整知识I.............................................................»>

1.相关关系与回归方程

(1)相关关系的分类

①正相关:从散点图上看,点散布在从左下角到右上角的区域内;

②负相关:从散点图上看,点散布在从左上角到右下角的区域内.

(2)线性相关关系

从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两

个变量之间具有线性相关关系,这条直线叫做回归直线.

第17页共44页

(3)回归方程

①最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法

叫最小二乘法.

②回归方程:两个具有线性相关关系的变量的一组数据:(xi,yi),(x2,*),…,

n__

Z(XLx)(yi—y)

3”其回归方程为y/\=b/\x+a/\,贝!J。/\==

n_

Z(XLX)2

/=1

n__

Exiyi-nxy

/=!

一〃x2

/=1

a\=y-b/\x,其中,人八是回归方程的斜茎,aA是在y轴上的截距.

(4)样本相关系数

n

,用它来衡量两个变量间的线性相关

①当—>0时,表明两个变量正相关.

②当7yo时,表明两个变量负相关.

③一的绝对值越接近于1,表明两个变量的线性相关性越强,厂的绝对值越

接近于0,表明两个变量之间几乎不存在线性相关关系.通常当加大于0.75时,

认为两个变量有很强的线性相关性.

2.独立性检验

⑴2X2列联表

假设有两个分类变量X和匕它们的取值分别为{用,也}和{yi,”},其样本

频数列联表(称2X2列联表)为:

第18页共44页

Vy

总计

12

XIab

X2Cdc+d

ab

总计a+b+c+d

+c+d

(2)心统计量

n(ad—be)

烂=.(其中n=a+b+c+d为样本容

十力)k…c+d八)(。+c)kb+d)

量)

I争常用结论

(1)求解回归方程的关键是确定回归系数6八,应充分利用回归直线

过样本中心点(x,y).

(2)根据K2的值可以判断两个分类变量有关的可信程度,若心越大,则两

分类变量有关的把握越大.

(3)根据回归方程计算的y八值,仅是一个预报值,不是真实发生的值.

I练基础I..............................>»

1.判断下列结论是否正确(请在括号中打“J”或“X”)

(1)散点图是判断两个变量是否相关的一种重要方法和手段.()

(2)回归直线方程yA=b/\x+aA至少经过点(xi,yi),(xi,yi),…,(xn,

»)中的一个点.()

(3)若事件x,丫关系越密切,则由观测数据计算得到的蜉的观测值越

小.()

(4)两个变量的相关系数的绝对值越接近于1,它们的相关性越强.()

答案:⑴J⑵义⑶X(4)V

2.(必修3P90例题改编)某研究机构对高三学生的记忆力x和判断力),进行

统计分析,所得数据如表:

02

第19页共44页

则y对x的线性回归直线方程为()

A.yA=2.3x—0.7B.yA=2.3x+0.7

C.yA=0.7x-2.3D.y/\=0.7x+2.3

C[易求x=9,y=4,样本点的中心(9,4)代入验证,满足y/\=0.7》一2.3.]

3.(选修2—3P86例2改编)两个变量y与x的回归模型中,分别选择了4个

不同模型,它们的相关指数K如下,其中拟合效果最好的模型是()

A.模型1的相关指数R2为。98

B.模型2的相关指数R2为().80

C.模型3的相关指数改为0.50

D.模型4的相关指数R2为0.25

A[在两个变量y与x的回归模型中,它们的相关指数改越接近1,拟合

效果越好,在四个选项中A的相关指数最大,所以拟合效果最好的是模型L]

4.下面是一个2X2列联表

Vy2总计

XIa2173

X222527

总计b46

则表中“,人处的值分别为.

解析:•.7+21=73,:.a=52.

又•.Z+2=b,

.'.b=54.

答案:52;54

5.根据回归系数b八和回归截距。八的计算公式可知:若y与龙之间的一

组数据为:

若拟合这5组数据的回归直线恒经过的点是(4,6).则表中的M的值为

第20页共44页

,N的值为.

解析:根据题意,回归直线恒经过的点是(4,6).

一I

所以由尤X(l+M+3+4+5)=4,解得M=7,

——1

由=5X(3+5+6+N+9)=6,解得N=7.

答案:7;7

6你分类突破微点拨、多维练,研透命题点

V学生用书P193

相关关系的判断自练型

[题组练透]

1.(多选)为了对变量x与y的线性相关进行检验,由样本点(如,yi)、(及,

?)、…、(xio,yio)求得两个变量的样本相关系数为「,那么下面说法中错误的有

()

A.若所有样本点都在直线y=-2x+1上,则/•=1

B.若所有样本点都在直线y=-2x+l上,则/"=-2

C.若仍越大,则变量x与y的线性相关性越强

D.若团越小,则变量光与y的线性相关性越强

ABD[若所有样本点都在直线y=—2x+l上,且直线斜率为负数,则r=

-1,A、B选项均错误;若|r|越大,则变量x与y的线性相关性越强,C选项正

确,D选项错误.故选:ABD.]

2.某公司的科研人员在7块并排、形状和大小相同的试验田上对某棉花新

品种进行施化肥量x对产量y影响的试验,得到如下表所示的一组数据(单位:

kg):

施化1223344

肥量X5050505

棉花3334444

产量y30456505455055

(1)画出散点图;

(2)判断施化肥量尤与产量y是否具有相关关系.

第21页共44页

解析:(1)散点图如图所示.

棉花产量?

500

450e••

400•

350••

300°

...........」

01020304050施化肥量4

(2)由散点图知,各组数据对应点大致都在一条直线附近,所以施化肥量工

与产量y具有线性相关关系.

练后悟通

判定两个变量正'负相关性的方法

(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从

左上角到右下角,两个变量负相关.

(2)相关系数:r〉0时,正相关;/<0时,负相关.

(3)线性回归方程中:匕八>0时,正相关;b八<0时,负相关.

线性回归方程多维型

角度一线性回归方程及其应用

为加快经济转型升级,加大技术研发力度,某市建立高新科技研发园

区,并力邀某高校入驻该园区.为了解教职工意愿,该高校在其所属的8个学院

的教职工中作了“是否意愿将学校整体搬迁至研发园区”的问卷调查,8个学院

请预测该校愿意将学校整体搬迁至研发园区的人数.

A•.VyA_A_

参皆公式及数据:〃=:―5r-----------------,a=y—〃•1・

V,9

乙.?7

/-I

S.r,y,=16310,光吁=2。400.

I-1i-I

第22页共44页

8____

——Ai~1

解析:由已知得_r=45.y=36,58—

S—8/

i~1

16310—8X45X36A

比0.80,61=36-0.80X45=0,

20400-8X452

故变量y关于变量x的线性回归方程为yA=0.80x.

所以当x=2500时,y=2500X0.80=2000,所以该校愿意将学校整体搬迁

至研发园区的人数约为2000.

口归纳升华

求线性回归方程的基本步骤

(1)先把数据制成表,从表中计算出x、y,x;+%2H--------H京、xiyi+x2y2

H-----的值;

(2)计算回归系数aA,bA;

(3)写出线性回归方程y/\=b\x+a\.

注意:回归方程一定过点(x,y).

角度二相关系数及其应用

区巨(2020.全国卷II)某沙漠地区经过治理,生态系统得到很大改善,野生

动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的

200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得

到样本数据⑶,y)(i=l,2,…,20),其中屈和y分别表示第,个样区的植物覆

202()

盖面积(单位:公顷)和这种野生动物的数量,并计算得8,=60,Sv/=1200,

/=1i=l

202020

2=

X(凶一X)2=80,Z(yi-y)9000,Z⑶一x)(y—y)=800.

i=lz=lz=l

(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于

样区这种野生动物数量的平均数乘以地块数);

(2)求样本®,y,)(i=l,2,20)的相关系数(精确到0.01);

(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代

第23页共44页

表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理

的抽样方法,并说明理由.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论