




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
专题10统计
考情概览
命题解读考向考查统计
1.高考对统计的考查,重点是以下考点2022•新高考n卷,19(1)
(1)分层随机抽样频率分布直方图、频数分布表2023•新高考n卷,19(1)
(2)统计图表2024•新高考n卷,4
(3)会用统计图表对总体进行估计,独立性检验2022•新高考I卷,20(1)
会求n个数据的第p百分位数.
(4)能用数字特征估计总体集中趋势
和总体离散程度.
(5)了解样本相关系数的统计含义.数据的数字特征2023•新高考I卷,9
(6)理解一元线性回归模型和2x2列
联表,会运用这些方法解决简单的实际
问题.
2024年真题研析
命题分析
2024年高考新高考I卷未考查统计相关内容,n卷中考查了频数分布表中数据的数字特征的求法。统计
的考查应关注:相关性、频率分布直方图、样本的数字特征、独立性检验、回归分析等。这些考验的是学
生读取数据、分析数据、处理数据的能力。预计2025年高考还是主要考查频率分布直方图和数据的数字特
征,可以多留意方差的计算方法!
试题精讲
一、单选题
1.(2024新高考n卷—4)某农业研究部门在面积相等的100块稻田上种植一种新型水稻,得到各块稻田的
亩产量(均在[900,1200)之间,单位:kg)并部分整理下表
亩产量[900,950)[950,1000)[1000,1050)[1100,1150)[1150,1200)
频数612182410
据表中数据,结论中正确的是()
A.100块稻田亩产量的中位数小于1050kg
B.100块稻田中亩产量低于1100kg的稻田所占比例超过80%
C.100块稻田亩产量的极差介于200kg至300kg之间
D.100块稻田亩产量的平均值介于900kg至1000kg之间
近年真题精选
一、多选题
1.(2023新高考I卷-9)有一组样本数据看,无2,…,%,其中X1是最小值,%是最大值,则()
A.无2,%,%4,尤5的平均数等于西,龙2,「无6的平均数
B.々,当多,Z的中位数等于玉,々,…,乙的中位数
C.X2,X3,JC4,X5的标准差不小于再,马,…,Z的标准差
D.尤2,工3户4,匕的极差不大于占,工2,…,无6的极差
二、解答题
1.(2022新高考I卷20)一医疗团队为研究某地的一种地方性疾病与当地居民的卫生习惯(卫生习惯分为
良好和不够良好两类)的关系,在已患该疾病的病例中随机调查了100例(称为病例组),同时在未患该
疾病的人群中随机调查了100人(称为对照组),得到如下数据:
不够良好良好
病例组4060
对照组1090
(1)能否有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异?
附片=______〃(〃—姐之______,
(a+b)(c+d)(a+c)(Z?+d)
P(K2>k0.0500.0100.001
k3.8416.63510.828
2.(2022新高考n卷•19)在某地区进行流行病学调查,随机调查了100位某种疾病患者的年龄,得到如下
的样本数据的频率分布直方图:
(1)估计该地区这种疾病患者的平均年龄(同一组中的数据用该组区间的中点值为代表);
3.(2023新高考n卷-19)某研究小组经过研究发现某种疾病的患病者与未患病者的某项医学指标有明显差
利用该指标制定一个检测标准,需要确定临界值C,将该指标大于C的人判定为阳性,小于或等于C的人判
定为阴性.此检测标准的漏诊率是将患病者判定为阴性的概率,记为"(c);误诊率是将未患病者判定为阳
性的概率,记为式C).假设数据在组内均匀分布,以事件发生的频率作为相应事件发生的概率.
(1)当漏诊率P(c)=0.5%时,求临界值c和误诊率q(c);
必备知识速记
一、分层随机抽样
1、分层随机抽样的概念
一般地,按一个或多个变量把总体划分成若干个子总体,每个个体属于且仅属于一个子总体,在每个子总
体中独立地进行简单随机抽样,再把所有子总体中抽取的样本合在一起作为总样本,这样的抽样方法称为
分层随机抽样,每一个子总体称为层.
2、分层随机抽样的平均数计算
在分层随机抽样中,以层数是2为例,如果第1层和第2层包含的个体数分别为拉和N,抽取的样本量分
别为根和〃,第1层和第2层的样本平均数分别为口y,样本平均数位右,则
—―N_772—77————
3=------x+------V=——x+------y.我们可以采用样本平均数①估计总体平均数W
M+NM+Nm+nm+n
二、样本的数字特征
1、众数、中位数、平均数
(1)众数:一组数据中出现次数最多的数叫众数,众数反应一组数据的多数水平.
(2)中位数:将一组数据按大小顺序依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均
数)叫做这组数据的中位数,中位数反应一组数据的中间水平.
(3)平均数:"个样本数据占,…户”的平均数为最=%%…,反应一组数据的平均水平,公式变
形:="X.
1=1
2、标准差和方差
(1)标准差:标准差是样本数据到平均数的一种平均距离,一般用s表示.假设样本数据是否,々,…,当,
2
表示这组数据的平均数,则标准差S=、匕(&<)2+每一井+…+(Xn-x)].
Vn
(2)方差:方差就是标准差的平方,即Y=」(X「X)2+(X2-X)2+-+(X“-X)2].显然,在刻画样本数据
n
的分散程度上,方差与标准差是一样的.在解决实际问题时,多采用标准差.
(3)数据特征
标准差、方差描述了一组数据围绕平均数波动程度的大小.标准差、方差越大,则数据的离散程度越大;
标准差、方差越小,数据的离散程度越小.反之亦可由离散程度的大小推算标准差、方差的大小.
三、频率分布直方图
1、频率、频数、样本容量的计算方法
频率
①而X组距=频率•
频数频数
②"+…袅=频率,寸=样本容量,样本容量X频率=频数.
样本容量频率
③频率分布直方图中各个小方形的面积总和等于1.
2、频率分布直方图中数字特征的计算
(1)最高的小长方形底边中点的横坐标即是众数.
(2)中位数左边和右边的小长方形的面积和是相等的.设中位数为x,利用x左(右)侧矩形面积之和等
于0.5,即可求出x.
(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中
点的横坐标之和,即有(=国口+国回+…+X”0”,其中当为每个小长方形底边的中点,已为每个小长方形
的面积.
四、百分位数
1、定义
一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且至少
有(100-0%的数据大于或等于这个值.
2、计算一组〃个数据的的第2百分位数的步骤
(1)按从小到大排列原始数据.
(2)计算i=〃x〃%.
(3)若,不是整数而大于z•的比邻整数则第p百分位数为第,项数据;若,是整数,则第p百分位数为
第i项与第i+1项数据的平均数.
3、四分位数
我们之前学过的中位数,相当于是第50百分位数.在实际应用中,除了中位数外,常用的分位数还有第25
百分位数,第75百分位数.这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数.
五、变量间的相关关系
1、变量之间的相关关系
当自变量取值一定时,因变量的取值带有一定的随机性,则这两个变量之间的关系叫相关关系.由于相关
关系的不确定性,在寻找变量之间相关关系的过程中,统计发挥着非常重要的作用.我们可以通过收集大
量的数据,在对数据进行统计分析的基础上,发现其中的规律,对它们的关系作出判断.
注意:相关关系与函数关系是不同的,相关关系是一种非确定的关系,函数关系是一种确定的关系,而且
函数关系是一种因果关系,但相关关系不一定是因果关系,也可能是伴随关系.
2、散点图
将样本中的n个数据点(士,%)(,=1,2,…,〃)描在平面直角坐标系中,所得图形叫做散点图.根据散点图中点
的分布可以直观地判断两个变量之间的关系.
(1)如果散点图中的点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称为
正相关,如图(1)所示;
(2)如果散点图中的点散布在从左上角到右下角的区域内,对于两个变量的这种相关关系,我们将它称为
负相关,如图(2)所示.
⑴⑵
3、相关系数
若相应于变量x的取值玉,变量歹的观测值为乂(14话〃),则变量x与歹的相关系数
“__〃___
Z(玉一X)(B-y)ZXiyi-nxy
r=下皂-----------------F==皂=F----------,通常用r来衡量x与y之间的线性关系的强弱,r
(匕-力(%_y)2、位X2,--nx2l^y\-ny
Vz=lz=lVi=lVi=l
的范围为-1V"1.
(1)当r>0时,表示两个变量正相关;当r<0时,表示两个变量负相关.
(2)同越接近1,表示两个变量的线性相关性越强;卜|越接近0,表示两个变量间几乎不存在线性相关关
系.当川=1时,所有数据点都在一条直线上.
(3)通常当上|>0.75时,认为两个变量具有很强的线性相关关系.
六、线性回归
1、线性回归
线性回归是研究不具备确定的函数关系的两个变量之间的关系(相关关系)的方法.
对于一组具有线性相关关系的数据(xi,yj),(必,>2),…,y„),其回归方程了=A+a的求法
为
〃__“__
E(%-x)(y,-y)Z〃孙
2=^---------------——=三-----—
£(x,-x)2^X,2-nx"
i=li=l
a=y-bx
_1n_1n__
其中,%=—y%,.,y=—,(%,了)称为样本点的中心.
n,=in,=1
2,残差分析
对于预报变量y,通过观测得到的数据称为观测值%,通过回归方程得到的i称为预测值,观测值减去预
测值等于残差,g称为相应于点(8%)的残差,即有。=%-%一残差是随机误差的估计结果,通过对残差
的分析可以判断模型刻画数据的效果以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分
析.
(1)残差图
通过残差分析,残差点(与自)比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带
状区域的宽度越窄,说明模型拟合精确度越高;反之,不合适.
(2)通过残差平方和。=-%)2分析,如果残差平方和越小,则说明选用的模型的拟合效果越好;反
Z=1
之,不合适.
(3)相关指数
(».-%)2
用相关指数来刻画回归的效果,其计算公式是:R2=l-V.
£(凹-歹)2
1=1
炉越接近于1,说明残差的平方和越小,也表示回归的效果越好.
七、非线性回归
解答非线性拟合问题,要先根据散点图选择合适的函数类型,设出回归方程,通过换元将陌生的非线性回
归方程化归转化为我们熟悉的线性回归方程.
求出样本数据换元后的值,然后根据线性回归方程的计算方法计算变换后的线性回归方程系数,还原后即
可求出非线性回归方程,再利用回归方程进行预报预测,注意计算要细心,避免计算错误.
1、建立非线性回归模型的基本步骤:
(1)确定研究对象,明确哪个是解释变量,哪个是预报变量;
(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(是否存在非线性关系);
(3)由经验确定非线性回归方程的类型(如我们观察到数据呈非线性关系,一般选用反比例函数、二次函
数、指数函数、对数函数、塞函数模型等);
(4)通过换元,将非线性回归方程模型转化为线性回归方程模型;
(5)按照公式计算线性回归方程中的参数(如最小二乘法),得到线性回归方程;
(6)消去新元,得到非线性回归方程;
(7)得出结果后分析残差图是否有异常.若存在异常,则检查数据是否有误,或模型是否合适等.
八、独立性检验
1、分类变量和列联表
(1)分类变量:
变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
(2)列联表:
①定义:列出的两个分类变量的频数表称为列联表.
②2x2列联表.
一般地,假设有两个分类变量X和匕它们的取值分别为{%,%}和{必,%},其样本频数列联表(称为
2x2列联表)为
必>2总计
再aba+b
%Cdc+d
总计a+cb+dn=a+b+c+d
从2x2列表中,依据,二与,的值可直观得出结论:两个变量是否有关系.
a+bc+d
2、等高条形图
(1)等高条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图表示列联
表数据的频率特征.
(2)观察等高条形图发现4与,相差很大,就判断两个分类变量之间有关系.
a+bc+d
3、独立性检验
计算随机变量/=-----"(ad-bcf-------利用力2的取值推断分类变量》和y是否独立的方法称为*独
(Q+b)(c+d)(a+c)(b+d)
立性检验.
a0.100.050.0100.0050.001
Xa2.7063.8416.6357.87910.828
【统计常用结论】
均数、方差的性质:如果数据……,%的平均数为嚏,方差为$2,那么
①一组新数据x,+b,x2+b,……xn+b的平均数为x+b,方差是G.
②一组新数据办],办2'...的平均数为4X,方差是42s2.
③一组新数据%+b,ax2+b,...,axn+b的平均数为ax+b,方差是a2s2.
常见的非线性回归模型
(1)指数函数型歹=0优(Q>0且QWl,C>0)
两边取自然对数,lny=ln(ca"),即Iny=Inc+xlna,
令1"',原方程变为j/=lnc+x」nQ,然后按线性回归模型求出Ina,Inc.
(2)对数函数型y=blnx+Q
令,原方程变为y'=6/+a,然后按线性回归模型求出b,a.
x=lnx
(3)幕函数型歹="'
两边取常用对数,lgy=lg(ax〃),即Igy=〃lgx+lgq,
令,原方程变为了=谒+Iga,然后按线性回归模型求出”,Iga.
[x=lgx、
(4)二次函数型y=6x2+。
令,原方程变为了=及'+。,然后按线性回归模型求出6,a.
[x=x
(5)反比例函数型y=a+2型
X
yf=y
令,1,原方程变为V=b£+。,然后按线性回归模型求出6,
X=—
、X
名校模拟探源
一、单选题
1.(2024・河南・三模)已知某学校高三年级甲、乙、丙三个班级人数分别为40,30,50,学校计划采用按
比例分配的分层随机抽样的方法在三个班级中评选优秀学生,已知乙班分配到的优秀学生名单为6人,则
高三年级三个班优秀学生总人数为()
A.16B.30C.24D.18
2.(2024•山东•二模)某校高三共有200人参加体育测试,根据规则,82分以上的考生成绩等级为A,则
3.(2024•浙江绍兴•三模)有一组样本数据:2,3,3,3,4,4,5,5,6,6.则关于该组数据的下列数
字特征中,数值最大的为()
A.第75百分位数B.平均数C.极差D.众数
4.(2024•山西•三模)某次趣味运动会,设置了教师足球射门比赛:教师射门,学生守门.已知参与射门比赛
的教师有60名,进球数的平均值和方差分别是3和13,其中男教师进球数的平均值和方差分别是4和8,
女教师进球数的平均值为2,则女教师进球数的方差为()
A.15B.16C.17D.18
5.(2024•四川凉山•三模)样本数据西,々,…,x”的平均数元=4,方差s?=l,则样本数据2%+1,2x2+l,
…,2x“+l的平均数,方差分别为()
A.9,4B.9,2C.4,1D.2,1
6.2024・四川成都・三模)“数九”从每年冬至”当天开始计算,每九天为一个单位,冬至后的第81天,“数
九”结束,天气就变得温暖起来.如图,以温江国家基准气候站为代表记录了2023—2024年从“一九”
至IJ“九九”成都市的“平均气温”和“多年平均气温”(单位:℃),下列说法正确的是()
数九寒天气温对比
^平均气温匚二1多年平均气温单位:℃
一九二九三九四九五九六九七九八九九九
A.“四九”以后成都市“平均气温”一直上升
B.“四九”成都市“平均气温”较“多年平均气温”低0.1”℃
C.“一九”到“五九”成都市“平均气温”的方差小于“多年平均气温”的方差
D.“一九”到“九九”成都市“平均气温”的极差小于“多年平均气温”的极差
7.(2024・陕西・三模)2024年1月九省联考的数学试卷出现新结构,其中多选题计分标准如下:①本题共
3小题,每小题6分,满分18分;②每道小题的四个选项中有两个或三个正确选项,全部选对得6分,有
选错的得。分;③部分选对得部分分(若某小题正确选项为两个,漏选一个正确选项得3分;若某小题正
确选项为三个,漏选一个正确选项得4分,漏选两个正确选项得2分).已知在某次新结构数学试题的考
试中,小明同学三个多选题中第一小题确定得满分,第二小题随机地选了两个选项,第三小题随机地选了
一个选项,则小明同学多选题所有可能总得分(相同总分只记录一次)的中位数为()
A.9B.10C.11D.12
8.(2024・浙江•三模)在对某校高三学生体质健康状况某个项目的调查中,采用样本量比例分配的分层随
机抽样,如果不知道样本数据,只知道抽取了男生80人,女生120人,其方差分别为15,10,由此估计样
本的方差不可能为()
A.11B.13C.15D.17
9.(2024•安徽安庆•三模)已知一组数据%,Z,的平均数为"另一组数据M,的平均数为
歹⑸R刃.若数据再,Z,…,%必匕的平均数为牙=加+(1-。)》,其中g<a<l,则加,"的大小关系
为()
A.m<nB.m>nC.m=nD.犯〃的大小关系不确定
10.(2024•陕西榆林•三模)在一次数学模考中,从甲、乙两个班各自抽出10个人的成绩,甲班的十个人成
绩分别为石、々、…、石。,乙班的十个人成绩分别为必,%,…,必。.假设这两组数据中位数相同、方差也相同,则把
这20个数据合并后()
A.中位数一定不变,方差可能变大
B.中位数可能改变,方差可能变大
C.中位数一定不变,方差可能变小
D.中位数可能改变,方差可能变小
二、多选题
11.(2024・全国•三模)在某次数学测试中,甲、乙两个班的成绩情况如下表:
班级人数平均分方差
甲45881
乙45902
记这两个班的数学成绩的总平均分为,总方差为则()
A.x=88B.x=89C.?=8.6D.$2=2.5
12.(2024•广东广州•三模)在某次学科期末检测后,从全部考生中选取100名考生的成绩(百分制,均为
整数)分成[50,60),[60,70),[70,80),[80,90),[90,100)五组后,得到如下图的频率分布直方图,则
B.低于70分的考生人数约为40人
C.考生成绩的平均分约为73分D.估计考生成绩第80百分位数为83分
13.(2024•河北•三模)根据中国报告大厅对2023年3月〜10月全国太阳能发电量进行监测统计,太阳能
发电量(单位:亿千瓦时)月度数据统计如下表:
月份3456
发电量/亿千瓦时242.94230.87240.59259.33
月份78910
发电量/亿千瓦时258.9269.19246.06244.31
关于2023年3月〜10月全国太阳能发电量,下列四种说法正确的是()
A.中位数是259.115B.极差是38.32
C.第85百分位数是259.33D.第25百分位数是240.59
14.(2024・广东汕头•三模)下图是样本甲与样本乙的频率分布直方图,下列说法判断正确的是()
A.样本乙的极差一定大于样本甲的极差
B.样本乙的众数一定大于样本甲的众数
C.样本乙的方差一定小于样本甲的方差
D.样本甲的中位数一定小于样本乙的中位数
15.(2024•黑龙江•三模)在某市初三年级举行的一次体育考试中(满分100分),所有考生成绩均在[50,100]
内,按照[50,60),[60,70),[70,80),[80,90),[90,100]分成五组,甲、乙两班考生的成绩占比如图所示,则
下列说法错误的是()
60.00%
50.00%
40.00%
30.00%
20.00%
10.00%
0.00%
[50,60)[60,70)[70,80)[80,90)[90,100]
甲班成绩占比乙班成绩占比
A.成绩在[70,80)的考生中,甲班人数多于乙班人数
B.甲班成绩在[80,90)内人数最多
C.乙班成绩在[70,80)内人数最多
D.甲班成绩的极差比乙班成绩的极差小
三、解答题
16.(2024•青海海南•二模)某青少年跳水队共有100人,在强化训练前、后,教练组对他们进行了成绩测
试,分别得到如图1所示的强化训练前的频率分布直方图,如图2所示的强化训练后的频率分布直方图.
频率频率
图2
(1)根据表中数据,估计强化训练后的平均成绩(同一组中的数据用该组区间的中点值作代表).
⑵我们规定得分80分以上(含80分)的为“优秀”,低于80分的为“非优秀”.
优秀人数非优秀人数合计
强化训练前
强化训练后
合计
将上面的表格补充完整,并回答能否有99.5%的把握认为跳水运动员是否优秀与强化训练有关.
„n(ad-be)2,,
Bff:K2=---------------------------------,n=a+b+c+d.
(a+6)(c+d)(a+c)(6+d)
2
p(K>k0)0.050.0100.0050.001
3.8416.6357.87910.828
17.(2024・陕西・模拟预测)某公司新研发了一款智能灯,此灯有拍照搜题功能,学生遇到疑难问题,通过
拍照搜题后,会在显示屏上显示该题的解答过程以及该题考查的知识点与相应的解题方法该产品投入市场
三个月后,公司对部分用户做了调研:抽取了200位使用者,每人填写一份评分表(满分为100分),现
从200份评分表中,随机抽取40份(其中男、女使用者的评分表各20份)
作为样本,经统计得到如下的数据:
女生使用者评分:67,71,72,75,80,83,83,83,84,84,85,86,88,90,90,91,92,92,92,
92
男生使用者评分:67,68,69,69,70,72,72,73,74,75,76,76,77,78,79,82,84,84,89,
92
记该样本的中位数为“,按评分情况将使用.都对该智能灯的态度分为两种类型:评分不小于”的称为"满
意型”,其余的都称为“不满意型”.
⑴求”的值,填写如下2x2列联表
女生评分男生评分合计
“满意型”人数
“不满意型”人数
合计
(2)能否有99%的把握认为满意与性别有关?
参考公式与数据:K2=(a+»(,d)(a/c)伍+d)
P(K2>Q0.10.050.0250.01
2.7063.8415.0246.635
18.(2024•河南郑州•三模)按照《中华人民共和国环境保护法》的规定,每年生态环境部都会会同国家发
展改革委等部门共同编制《中国生态环境状况公报》,并向社会公开发布.下表是2017-2021年五年《中国
生态环境状况公报》中酸雨区面积约占国土面积的百分比(%%):
年份2017年2018年2019年2020年2021年
年份代码七12345
X-6.45.55.04.83.8
(1)求2017—2021年年份代码若与%的样本相关系数(精确到0.01);
(2)请用样本相关系数说明该组数据中V与x之间的关系可用一元线性回归模型进行描述,并求出了关于x的
经验回归方程;
(3)预测2024年的酸雨区面积占国土面积的百分比.
(回归直线的斜率和截距的最小二乘法估计公式分别为:
,可包-刃/55
2
b=-^-i---------------,a=y-bx,\工毛乂=70.6,^^=133.69
Z=1
J^7364®
附:样本相关系数,r=
方(%-元)艺(乂一刃2
z=li=\
19.(2024・陕西渭南•三模)某市为提高市民对文明城市创建的认识,举办了“创建文明城市”知识竞赛,从
所有答卷中随机抽取100份作为样本,将100个样本数据按[30,40),[40,50),[50,60),[60,70),
[70,80),[80,90]分成6组,并整理得到如下频率分布直方图.
(1)请通过频率分布直方图估计这100份样本数据的平均值(同一组中的数据用该组区间的中点值作代表)
和中位数;
(2)该市决定表彰知识竞赛成绩排名前30%的市民,某市民知识竞赛的成绩是78,请估计该市民能否得到表
彰.
20.(2024•江西九江•三模)车胎凹槽深度是影响汽车刹车的因素,汽车行驶会导致轮胎胎面磨损.某实验室
通过实验测得轿车行驶里程与某品牌轮胎凹槽深度的数据,如下表所示:
行驶里程X/万km0.00.41.01.62.42.83.44.4
轮胎凹槽深度〃/mm8.07.87.26.25.64.84.44.0
其也=79.68,£(尤,-可2=16.24岳(%-寸应%-盯”1656
z=lz=lVz=lVi=l
(1)求该品牌轮胎凹槽深度〃与行驶里程X的相关系数/,并判断二者之间是否具有很强的线性相关性;(结
果保留两位有效数字)
(2)根据我国国家标准规定:轿车轮胎凹槽安全深度为1.6mm(当凹槽深度低于1.6mm时刹车距离增大,驾
驶风险增加,必须更换新轮胎).某人在保养汽车时将小轿车的轮胎全部更换成了该品牌的新轮胎,请问在
正常行驶情况下,更换新轮胎后继续行驶约多少公里需对轮胎再次更换?
附:变量X与歹的样本相关系数厂=/回〃-/-可--;卧对于一H组数据(七,必),(X2,%)’........................................................,
(%,%),其线性回归方程夕的斜率和截距的最小二乘估计分别为:
八-于)(%-刃.
g二旦。-----------,a^y-bx
t(巧-亍『
Z=1
21.(2024•内蒙古・三模)现统计了甲12次投篮训练的投篮次数和乙8次投篮训练的投篮次数,得到如下
数据:
甲777377818581778593737781
乙7181737371738573
已知甲12次投篮次数的平均数80,乙8次投篮次数的平均数京=75.
(1)求这20次投篮次数的中位数加,估计甲每次训练投篮次数超过机的概率;
(2)求这20次投篮次数的平均数嚏与方差$2.
22.(2024•甘肃张掖•模拟预测)近年来,马拉松比赛受到广大体育爱好者的喜爱.某地体育局在五一长假期
间举办比赛,志愿者的服务工作是成功举办的重要保障.现抽取了200名候选者的面试成绩,并分成六组:
第一组[40,50),第二组[50,60),第三组[60,70),第四组[70,80),第五组[80,90),第六组[90,100),绘制
成如图所示的频率分布直方图.
男生女生合计
被录取20
未被录取
合计
⑴求加;
(2)估计候选者面试成绩的平均数(同一组中的数据用该组区间的中点值为代表);
(3)在抽出的200名候选者的面试成绩中,若规定分数不低于80分的候选者为被录取的志愿者,已知这200
名候选者中男生与女生人数相同,男生中有20人被录取,请补充2x2列联表,并判断是否有99%的把握认
为“候选者是否被录取与性别有关”.
“2______"(ad-6cA_______,
附:K-:~r~,\,~7\,其中〃=a+6+c+d.
(a+6)(c+d)(a+c)(b+d)
2
p(K>k0)0.050.0100.0050.001
k03.8416.6357.87910.828
专题10统计
考情概览
命题解读考向考查统计
1.高考对统计的考查,重点是以下考点2022•新高考n卷,19(1)
(1)分层随机抽样频率分布直方图、频数分布表2023•新高考n卷,19(1)
(2)统计图表2024•新高考n卷,4
(3)会用统计图表对总体进行估计,独立性检验2022•新高考I卷,20(1)
会求n个数据的第p百分位数.
(4)能用数字特征估计总体集中趋势
和总体离散程度.
(5)了解样本相关系数的统计含义.数据的数字特征2023•新高考I卷,9
(6)理解一元线性回归模型和2x2列
联表,会运用这些方法解决简单的实际
问题.
2024年真题研析
命题分析
2024年高考新高考I卷未考查统计相关内容,n卷中考查了频数分布表中数据的数字特征的求法。统计
的考查应关注:相关性、频率分布直方图、样本的数字特征、独立性检验、回归分析等。这些考验的是学
生读取数据、分析数据、处理数据的能力。预计2025年高考还是主要考查频率分布直方图和数据的数字特
征,可以多留意方差的计算方法!
试题精讲
一、单选题
1.(2024新高考n卷—4)某农业研究部门在面积相等的100块稻田上种植一种新型水稻,得到各块稻田的
亩产量(均在[900,1200)之间,单位:kg)并部分整理下表
亩产量[900,950)[950,1000)[1000,1050)[1100,1150)[1150,1200)
频数612182410
据表中数据,结论中正确的是()
A.100块稻田亩产量的中位数小于1050kg
B.100块稻田中亩产量低于1100kg的稻田所占比例超过80%
C.100块稻田亩产量的极差介于200kg至300kg之间
D.100块稻田亩产量的平均值介于900kg至1000kg之间
【答案】C
【分析】计算出前三段频数即可判断A;计算出低于1100kg的频数,再计算比例即可判断B;根据极差计
算方法即可判断C;根据平均值计算公式即可判断D.
【详解】对于A,根据频数分布表可知,6+12+18=36<50,
所以亩产量的中位数不小于1050kg,故A错误;
对于B,亩产量不低于1100kg的频数为24+10=34,
所以低于1100kg的稻田占比1为00-3愣466%,故B错误;
对于C,稻田亩产量的极差最大为1200-900=300,最小为1150-950=200,故C正确;
对于D,由频数分布表可得,亩产量在[1050,1100)的频数为100-(6+12+18+24+10)=30,
所以平均值为焉x(6x925+12x975+18x1025+30x1075+24x1125+10x1175)=1067,故D错误.
故选;C.
近年真题精选
一、多选题
1.(2023新高考I卷勺)有一组样本数据再广2,…其中占是最小值,%是最大值,则()
A.x2,x3,x4,x5的平均数等于%,Z,…多的平均数
B.工2,无3,七,%的中位数等于尤1,工2,…,%的中位数
C.x2,x3,x4,x5的标准差不小于再,马,…区的标准差
D.工2,9,匕,匕的极差不大于国也,…,迎的极差
【答案】BD
【分析】根据题意结合平均数、中位数、标准差以及极差的概念逐项分析判断.
【详解】对于选项A:设工2用,无4,%的平均数为加,无,1%,…,%的平均数为",
贝0龙]+X?++X4++%6*2+X3+X4+尤52(X[+工6)一+X2++)
〃一"’―64-12
因为没有确定2(%+乙),x5+x2+x3+X4的大小关系,所以无法判断孙力的大小,
例如:1,2,3,4,5,6,可得加=〃=3.5;
例如1,1,1,1,1,7,可得冽=1,〃=2;
例如1,2,2,2,2,2,可得加=2,〃=?;故A错误;
对于选项B:不妨设再<x2<x3<x4<x5<x6,
可知为2户3,期,%的中位数等于国,…,X6的中位数均为玉产,故B正确;
对于选项C:因为X1是最小值,苫6是最大值,
则工2,W,匕,毛的波动性不大于玉,3,…,Z的波动性,即X2,x3,x4,x5的标准差不大于国,3,…,X6的标准差,
例如:2,4,6,8,10,12,贝!I平均数”=^(2+4+6+8+10+12)=7,
6
标准差S|=^1[(2-7)2+(4-7)2+(6-7)2+(8-7)2+(10-7)2+(12-7)2]=,
4,6,8,10,贝1|平均数机=;(4+6+8+10)=7,
标准差S2二^1[(4-7)2+(6-7)2+(8-7)2+(10-7)2]=,
显然®1>右,即电>S2;故C错误;
3
对于选项D:不妨设玉Ax24%WXs4%,
则%-占2%-马,当且仅当国=Z65=%时,等号成立,故D正确;
故选:BD.
二、解答题
1.(2022新高考I卷20)一医疗团队为研究某地的一种地方性疾病与当地居民的卫生习惯(卫生习惯分为
良好和不够良好两类)的关系,在已患该疾病的病例中随机调查了100例(称为病例组),同时在未患该
疾病的人群中随机调查了100人(称为对照组),得到如下数据:
不够良好良好
病例组4060
对照组1090
(1)能否有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异?
n(ad-bcf
附片=
(a+b)(c+d)(a+c)(b+d)
P(K2>k)0.0500.0100.001
k3.8416.63510.828
【答案】⑴答案见解析
【分析】(1)由所给数据结合公式求出K2的值,将其与临界值比较大小,由此确定是否有99%的把握认为
患该疾病群体与未患该疾病群体的卫生习惯有差异;(2)⑴根据定义结合条件概率公式即可完成证明;(ii)
根据(i)结合已知数据求心
n(ad-be)2200(40x90-60x10)^_
【详解】(1)由已知小24
(a+b)(c+d)(a+c)(b+d)50x150x100x100'
XP(A:2>6.635)=0.01,24>6,635,
所以有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异.
2.(2022新高考II卷•19)在某地区进行流行病学调查,随机调查了100位某种疾病患者的年龄,得到如下
的样本数据的频率分布直方图:
(1)估计该地区这种疾病患者的平均年龄(同一组中的数据用该组区间的中点值为代表);
【答案】⑴47.9岁;
【分析】(1)根据平均值等于各矩形的面积乘以对应区间的中点值的和即可求出;
【详解】(1)平均年龄元=(5X0.001+15X0.002+25X0.012+35X0Q17+45X(1023
+55x0.020+65x0.017+75x0.006+85x0.002)x10=47.9(岁).
3.(2023新高考n卷•19)某研究小组经过研究发现某种疾病的患病者与未患病者的某项医学指标有明显差
异,经过大量调查,得到如下的患病者和未患病者该指标的频率分布直方图:
利用该指标制定一个检测标准,需要确定临界值C,将该指标大于C的人判定为阳性,小于或等于C的人判
定为阴性.此检测标准的漏诊率是将患病者判定为阴性的概率,记为"(c);误诊率是将未患病者判定为阳
性的概率,记为4(c).假设数据在组内均匀分布,以事件发生的频率作为相应事件发生的概率.
(1)当漏诊率p(c)=0.5%时,求临界值c和误诊率
【答案】(l)c=97.5,#)=3.5%;
【分析】(1)根据题意由第一个图可先求出c,再根据第二个图求出c297.5的矩形面积即可解出;
【详解】(1)依题可知,左边图形第一个小矩形的面积为5x0.002>0.5%,所以95<c<100,
所以(c-95)x0.002=0.5%,解得:c=97.5,
q(c)=0.01x(100-97.5)+5x0,002=0.035=3.5%.
必备知识速记
一、分层随机抽样
1、分层随机抽样的概念
一般地,按一个或多个变量把总体划分成若干个子总体,每个个体属于且仅属于一个子总体,在每个子总
体中独立地进行简单随机抽样,再把所有子总体中抽取的样本合在一起作为总样本,这样的抽样方法称为
分层随机抽样,每一个子总体称为层.
2、分层随机抽样的平均数计算
在分层随机抽样中,以层数是2为例,如果第1层和第2层包含的个体数分别为M和N,抽取的样本量分
别为机和〃,第1层和第2层的样本平均数分别为口y,样本平均数位右,则
—_N—YYI—H———
@=------X+-------v=-----X+-----工我们可以采用样本平均数Q估计总体平均数少
M+NM+Nm+nm+n
二、样本的数字特征
1、众数、中位数、平均数
(1)众数:一组数据中出现次数最多的数叫众数,众数反应一组数据的多数水平.
(2)中位数:将一组数据按大小顺序依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均
数)叫做这组数据的中位数,中位数反应一组数据的中间水平.
(3)平均数:"个样本数据占x”的平均数为1%%…^,反应一组数据的平均水平,公式变
n
形:="X.
i=l
2、标准差和方差
(1)标准差:标准差是样本数据到平均数的一种平均距离,一般用S表示.假设样本数据是4%,…,当,嚏
表示这组数据的平均数,则标准差5=、,(再4)2+&F+…+(%-初.
Vn
1___
(2)方差:方差就是标准差的平方,即s2=—[(X]-x)2+(%-x)2+-+(x,-x)2].显然,在刻画样本数据
n
的分散程度上,方差与标准差是一样的.在解决实际问题时,多采用标准差.
(3)数据特征
标准差、方差描述了一组数据围绕平均数波动程度的大小.标准差、方差越大,则数据的离散程度越大;
标准差、方差越小,数据的离散程度越小.反之亦可由离散程度的大小推算标准差、方差的大小.
三、频率分布直方图
1、频率、频数、样本容量的计算方法
②母+…袅=频率,而葺=样本容量,样本容量X频率=频数.
样本容量频率
③频率分布直方图中各个小方形的面积总和等于1.
2、频率分布直方图中数字特征的计算
(1)最高的小长方形底边中点的横坐标即是众数.
(2)中位数左边和右边的小长方形的面积和是相等的.设中位数为x,利用x左(右)侧矩形面积之和等
于0.5,即可求出x.
(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中
点的横坐标之和,即有(=再月+%月+…+XM“,其中斗为每个小长方形底边的中点,%为每个小长方形
的面积.
四、百分位数
1、定义
一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且至少
有(100-0%的数据大于或等于这个值.
2、计算一组〃个数据的的第?百分位数的步骤
(1)按从
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 消防设施操作和维护保养规程
- 47岁高情商生日文案
- mysql 构造死锁场景的代码
- matlab三维成像函数
- 2025年血液透析器合作协议书
- 电流互感器二次侧接地原因
- 电缆导管验收要求
- 制定销售目标提升业绩计划
- 建筑材料行业保安工作计划
- 企业文化对会计工作的影响与作用计划
- 玻璃雨棚维修施工方案
- 安全生产费用提取及使用计划
- WPSOffice办公软件实例教程PPT完整全套教学课件
- 四年级数学下册-小数加减法的简便运算课件
- igcse英语第一语言15年前真题0500 wqp
- 2023年河北省邯郸市统招专升本生理学病理解剖学历年真题汇总及答案
- keba教程科控编程手册
- 高强螺栓检测报告3
- 广东英语中考必背1600词
- 海南码头防波堤工程施工组织设计图文并茂
- 小学“新时代好少年”推荐表
评论
0/150
提交评论