![2025年高考数学一轮复习讲义:成对数据的统计分析(解析版)_第1页](http://file4.renrendoc.com/view12/M07/11/33/wKhkGWddB06AY1kVAADieVI43SE892.jpg)
![2025年高考数学一轮复习讲义:成对数据的统计分析(解析版)_第2页](http://file4.renrendoc.com/view12/M07/11/33/wKhkGWddB06AY1kVAADieVI43SE8922.jpg)
![2025年高考数学一轮复习讲义:成对数据的统计分析(解析版)_第3页](http://file4.renrendoc.com/view12/M07/11/33/wKhkGWddB06AY1kVAADieVI43SE8923.jpg)
![2025年高考数学一轮复习讲义:成对数据的统计分析(解析版)_第4页](http://file4.renrendoc.com/view12/M07/11/33/wKhkGWddB06AY1kVAADieVI43SE8924.jpg)
![2025年高考数学一轮复习讲义:成对数据的统计分析(解析版)_第5页](http://file4.renrendoc.com/view12/M07/11/33/wKhkGWddB06AY1kVAADieVI43SE8925.jpg)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
专题57成对数据的统计分析(新高考专用)
目录
【知识梳理】................................................................2
【真题自测】................................................................4
【考点突破】...............................................................14
【考点1】成对数据的相关性..................................................14
【考点2】回归分析..........................................................17
【考点3】独立性检验........................................................25
【分层检测】...............................................................35
【基础篇】.................................................................35
【能力篇】.................................................................43
考试要求:
1.了解样本相关系数的统计含义.
2.了解一元线性回归模型和2X2列联表,会运用这些方法解决简单的实际问题.
3.会利用统计软件进行数据分析.
融知识梳理
1.变量的相关关系
(1)相关关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为
相关关系.
(2)相关关系的分类:正相关和负相关.
(3)线性相关
一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这
两个变量线性相关.
一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或
曲线相关.
2.样本相关系数
⑴相关系数厂的计算
变量x和变量y的样本相关系数r的计算公式如下:
11
S一M-y)
«=1
(2)相关系数r的性质
①当r>0时,称成对样本数据正相关;当r<0时,成对样本数据负相关;当r=0时,成对样
本数据间没有线性相关关系.
②样本相关系数r的取值范围为「一1,11
当|r|越接近1时,成对样本数据的线性相关程度越强;
当|r|越接近0时,成对样本数据的线性相关程度越弱.
3.一元线性回归模型
(1)经验回归方程与最小二乘法
我们将〈=£+:称为y关于%的经验回归方程,也称经验回归函数或经验回归公式,其图形称
为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的3二叫做。的最小二
2
乘估计,
其中
nn
y
—•一1)(”•—J)Hx,yl,~ln^Jc~y
-i=i=1
b=—n
2v2
S(JC,—JC)ZJ/i-nx
=1i=i
a=y-bx.
(2)利用决定系数F刻画回归效果
(乂一3,尸
z
J?=l-—n
\、
:=1,收越大,即拟合效果越好,F越小,模型拟合效果越差.
4.列联表与独立性检验
(1)2X2列联表
一般地,假设有两个分类变量X和匕它们的取值分别为{xi,基}和{”,"},其2X2列联表
为
y
X合计
尸券
X~X\aba+b
X~X2cdc~\~d
合计a~\~cb+dn—a~\~b~\~c~\~d
⑵临界值
H(nd-be")2
/=(小)(c+d)Q+c)•忽略/的实际分布与该近似分布的误差后,对于任何
小概率值a,可以找到相应的正实数Xa,使得「&三发)=&成立.我们称Xa为a的临界值,这
个临界值就可作为判断H大小的标准.
(3)独立性检验
基于小概率值a的检验规则是:
当三、我时,我们就推断Ho不成立,即认为X和Y不独立,该推断犯错误的概率不超过a;
当/2<羽时,我们没有充分证据推断Ho不成立,可以认为X和y独立.
这种利用X2的取值推断分类变量X和y是否独立的方法称为X2独立性检验,读作“卡方独立
性检验”,简称独立性检验.
下表给出了X2独立性检验中几个常用的小概率值和相应的临界值
3
a0.10.050.010.0050.001
Xa2.7063.8416.6357.87910.828
I常用结论
1.求解经验回归方程的关键是确定回归系数:,b,应充分利用回归直线过样本点的中心(x,y).
2.根据经验回归方程计算的(值,仅是一个预报值,不是真实发生的值.
3.根据/的值可以判断两个分类变量有关的可信程度,若/越大,则两分类变量有关的把握越
大.
BE真题自测
一、单选题
1.(2024•全国•高考真题)某农业研究部门在面积相等的100块稻田上种植一种新型水稻,得到各块稻田的
亩产量(单位:kg)并整理如下表
亩产
[900,950)[950,1000)[1000,1050)[1050,1100)[1100,1150)[1150,1200)
量
频数61218302410
根据表中数据,下列结论中正确的是()
A.100块稻田亩产量的中位数小于1050kg
B.100块稻田中亩产量低于1100kg的稻田所占比例超过80%
C.100块稻田亩产量的极差介于200kg至300kg之间
D.100块稻田亩产量的平均值介于900kg至1000kg之间
2.(2023・全国•高考真题)某学校为了解学生参加体育运动的情况,用比例分配的分层随机抽样方法作抽样
调查,拟从初中部和高中部两层共抽取60名学生,已知该校初中部和高中部分别有400名和200名学生,
则不同的抽样结果共有().
A.C-C短种B.CMC鼠种
C.CQc禽种D.C%C北种
二、多选题
3.(2023•全国•高考真题)有一组样本数据%,…其中4是最小值,%是最大值,则()
A.无2,无3,羽,尤5的平均数等于不,%,…,%的平均数
B.毛,尤3,4尤5的中位数等于百,%,1%的中位数
4
C.x2,x3,x4,x5的标准差不小于占,马,…,毛的标准差
D.尤3,%毛的极差不大于百,…,毛的极差
三、解答题
4.(2024・全国•高考真题)某工厂进行生产线智能化升级改造,升级改造后,从该工厂甲、乙两个车间的产
品中随机抽取150件进行检验,数据如下:
优级品合格品不合格品总计
甲车间2624050
乙车间70282100
总计96522150
⑴填写如下列联表:
优级品非优级品
甲车间
乙车间
能否有95%的把握认为甲、乙两车间产品的优级品率存在差异?能否有99%的把握认为甲,乙两车间产品
的优级品率存在差异?
(2)已知升级改造前该工厂产品的优级品率p=0.5,设万为升级改造后抽取的n件产品的优级品率.如果
万〉P+1.65J上,二口,则认为该工厂产品的优级品率提高了,根据抽取的150件产品的数据,能否认为生
产线智能化升级改造后,该工厂产品的优级品率提高了?(丽*12.247)
n(ad-bc)2
(〃+Z?)(c+d)(a+c)(b+d)
P(K2>k)0.0500.0100.001
k3.8416.63510.828
5.(2023•全国•高考真题)一项试验旨在研究臭氧效应,试验方案如下:选40只小白鼠,随机地将其中20
只分配到试验组,另外20只分配到对照组,试验组的小白鼠饲养在高浓度臭氧环境,对照组的小白鼠饲养
在正常环境,一段时间后统计每只小白鼠体重的增加量(单位:g).试验结果如下:
5
对照组的小白鼠体重的增加量从小到大排序为
15.218.820.221.322.523.225.826.527.530.1
32.634.334.835.635.635.836.237.340.543.2
试验组的小白鼠体重的增加量从小到大排序为
7.89.211.412.413.215.516.518.018.819.2
19.820.221.622.823.623.925.128.232.336.5
⑴计算试验组的样本平均数;
(2)(回)求40只小白鼠体重的增加量的中位数加,再分别统计两样本中小于,"与不小于机的数据的个数,
完成如下列联表
n<m>m
对照组□□
试验组□□
(回)根据G)中的列联表,能否有95%的把握认为小白鼠在高浓度臭氧环境中与在正常环境中体重的增加
量有差异?
n(ad-bc)2
(a+6)(c+d)(a+c)(6+d),
P(K2>k]0.1000.0500.010
k2.7063.8416.635
6.(2023•全国,高考真题)一项试验旨在研究臭氧效应.实验方案如下:选40只小白鼠,随机地将其中20
只分配到实验组,另外20只分配到对照组,实验组的小白鼠饲养在高浓度臭氧环境,对照组的小白鼠饲养
在正常环境,一段时间后统计每只小白鼠体重的增加量(单位:g).
⑴设X表示指定的两只小白鼠中分配到对照组的只数,求X的分布列和数学期望;
⑵实验结果如下:
对照组的小白鼠体重的增加量从小到大排序为:
15.218.820.221.322.523.225.826.527.530.1
32.634.334.835.635.635.836.237.340.543.2
实验组的小白鼠体重的增加量从小到大排序为:
6
7.89.211.412.413.215.516.518.018.819.2
19.820.221.622.823.623.925.128.232.336.5
(i)求40只小鼠体重的增加量的中位数机,再分别统计两样本中小于机与不小于的数据的个数,完成如下
列联表:
n<m>m
对照组□□
实验组U□
(ii)根据(i)中的列联表,能否有95%的把握认为小白鼠在高浓度臭氧环境中与正常环境中体重的增加量
有差异.
n^ad-bcy
附:K2=
(a+6)(c+d)(a+c)(b+d),
0.1000.0500.010
2
P(K>k0)2.7063.8416.635
7.(2023•全国•高考真题)某厂为比较甲乙两种工艺对橡胶产品伸缩率的处理效应,进行10次配对试验,
每次配对试验选用材质相同的两个橡胶产品,随机地选其中一个用甲工艺处理,另一个用乙工艺处理,测
量处理后的橡胶产品的伸缩率.甲、乙两种工艺处理后的橡胶产品的伸缩率分别记为%,%[=1,2,…,10).试
验结果如下:
试验序号i12345678910
伸缩率看545533551522575544541568596548
伸缩率力536527543530560533522550576536
记入=%记的样本平均数为样本方差为?.
=1,2,…,10),4,Z2,…,z10z,
⑴求1/;
(2)判断甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率是否有显著提高(如果
z>2.£,则认为甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率有显著提高,否
V10
7
则不认为有显著提高)
8.(2023•全国•高考真题)某研究小组经过研究发现某种疾病的患病者与未患病者的某项医学指标有明显差
异,经过大量调查,得到如下的患病者和未患病者该指标的频率分布直方图:
利用该指标制定一个检测标准,需要确定临界值c,将该指标大于。的人判定为阳性,小于或等于c的人判
定为阴性.此检测标准的漏诊率是将患病者判定为阴性的概率,记为。9);误诊率是将未患病者判定为阳
性的概率,记为我。).假设数据在组内均匀分布,以事件发生的频率作为相应事件发生的概率.
⑴当漏诊率p(c)=0.5%时,求临界值c和误诊率4(c);
(2)设函数〃c)=p(c)+q(c),当ce[95,105]时,求/(c)的解析式,并求/(c)在区间[95,105]的最小值.
参考答案:
题号123
答案CDBD
1.C
【分析】计算出前三段频数即可判断A;计算出低于1100kg的频数,再计算比例即可判断B;根据极差计
算方法即可判断C;根据平均值计算公式即可判断D.
【详解】对于A,根据频数分布表可知,6+12+18=36<50,
所以亩产量的中位数不小于1050kg,故A错误;
对于B,亩产量不低于1100kg的频数为24+10=34,
所以低于1100kg的稻田占比为:00=66%,故B错误;
对于C,稻田亩产量的极差最大为1200-900=300,最小为1150-950=200,故C正确;
对于D,由频数分布表可得,平均值为
—x(6x925+12x975+18xl025+30xl075+24xll25+10xl175)-1067,故D错误.
8
故选;C.
2.D
【分析】利用分层抽样的原理和组合公式即可得到答案.
【详解】根据分层抽样的定义知初中部共抽取60义照=40人,高中部共抽取60义婴=20,
根据组合公式和分步计数原理则不同的抽样结果共有C%C2种.
故选:D.
3.BD
【分析】根据题意结合平均数、中位数、标准差以及极差的概念逐项分析判断.
【详解】对于选项A:设兀2,兀3,%4,%5的平均数为相,再,々,…,%6的平均数为〃,
则Xy++玉+工4+无5+,6%2+玉+*4+芯52(%+)一(/+X)+X3+芯4)
、n~m~64—12
因为没有确定2(玉+工6),/+尤2+犬3+%4的大小关系,所以无法判断根,〃的大小,
例如:1,2,3,4,5,6,可得加=〃=3.5;
例如1,1,1,1,1,7,可得根=1,〃=2;
例如1,2,2,2,2,2,可得帆=2,"=,;故A错误;
6
对于选项B:不妨设再工匕(飞W尤6,
可知尤2,三,%,%的中位数等于国,今,…%的中位数均为■^沪,故B正确;
对于选项C:因为占是最小值,血是最大值,
则%,当,工4,尤5的波动性不大于玉,工2,…,%的波动性,即X2,X3,X4,X5的标准差不大于玉,马,…,%的标准差,
例如:2,4,6,8,10,12,则平均数"=:(2+4+6+8+10+12)=7,
4,6,8,10,则平均数%=;(4+6+8+10)=7,
2222
标准差$2=^[(4-7)+(6-7)+(8-7)+(10-7)]=^5,
显然叵>6,即。>$2;故c错误;
3
对于选项D:不妨设x,<x2<x3<x4<x5<x6,
则%-玉之三-3,当且仅当玉=%,%=%时,等号成立,故D正确;
9
故选:BD.
4.(1)答案见详解
(2)答案见详解
【分析】(1)根据题中数据完善列联表,计算K?,并与临界值对比分析;
(2)用频率估计概率可得万=0.64,根据题意计算p+1.65、陛二2,结合题意分析判断.
Vn
【详解】(1)根据题意可得列联表:
优级品非优级品
甲车间2624
乙车间7030
可得爪2「50(26x30-24x70)275
—=4.6875
'50x100x96x5416
因为3.841<4.6875<6.635,
所以有95%的把握认为甲、乙两车间产品的优级品率存在差异,没有99%的把握认为甲,乙两车间产品的
优级品率存在差异.
(2)由题意可知:生产线智能化升级改造后,该工厂产品的优级品的频率为9需6=0.64,
用频率估计概率可得7=0.64,
又因为升级改造前该工厂产品的优级品率P=。.5,
贝IJ0+1.65EHU=0.5+1.65)。50_。®«0.5+1.65x工0.567,
\nV15012.247
可知万〉p+1.65回三五,
Vn
所以可以认为生产线智能化升级改造后,该工厂产品的优级品率提高了.
5.(1)19.8
(2)(i)m=23.4;列联表见解析,(ii)能
【分析】(1)直接根据均值定义求解;
(2)(i)根据中位数的定义即可求得利=23.4,从而求得列联表;
(ii)利用独立性检验的卡方计算进行检验,即可得解.
【详解】(工)试验组样本平均数为:
10
^(7.8+9.2+11.4+12.4+13.2+15.5+16.5+18.0+18.8+19.2+19.8+20.2
396
+21.6+22.8+23.6+23.9+25.1+28.2+32.3+36.5)=—=19.8
(2)(i)依题意,可知这40只小鼠体重的中位数是将两组数据合在一起,从小到大排后第20位与第21位
数据的平均数,
由原数据可得第11位数据为可.8,后续依次为19.2,19.8,20.2,20.2,21.3,21.6,22.5,22.8,23.2,23.6,…,
故第20位为23.2,第21位数据为23.6,
23.2+23.6-/
所以机=---------=23.4,
2
故列联表为:
<m>m合计
对照组61420
试验组14620
合计202040
2
,—r,B240x(6x6-14xl4)乙/八八oO/l1
(II)由(i)可得,K=----------------—=6.400>3.841,
20x20x20x20
所以能有95%的把握认为小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量有差异.
6.⑴分布列见解析,E(X)=1
(2)(i)机=23.4;列联表见解析,(ii)能
【分析】(1)利用超几何分布的知识即可求得分布列及数学期望;
(2)(i)根据中位数的定义即可求得m=23.4,从而求得列联表;
(ii)利用独立性检验的卡方计算进行检验,即可得解.
【详解】(1)依题意,X的可能取值为01,2,
1Q「1019of)「20181Q
则尸(X=0)=旨4,尸(X=l)=寿=黑P(x=2)=皆/
所以X的分布列为:
X012
192019
P
783978
192019
故E(X)=0x——+lx——+2x——=l.
783978
11
(2)(i)依题意,可知这40只小白鼠体重增量的中位数是将两组数据合在一起,从小到大排后第20位与
第21位数据的平均数,观察数据可得第20位为23.2,第21位数据为23.6,
23.2+23.6
所以根==23.4,
2
故列联表为:
<m>m合计
对照组61420
实验组14620
合计202040
40x(6x6—14x14)2
(ii)由(i)可得,=6.400>3.841,
20x20x20x20
所以能有95%的把握认为小白鼠在高浓度臭氧环境中与正常环境中体重的增加量有差异.
7.(l)z=ll,$2=61;
⑵认为甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率有显著提高.
【分析】(1)直接利用平均数公式即可计算出工亍,再得到所有的z,值,最后计算出方差即可;
(2)根据公式计算出2、工的值,和[比较大小即可.
V10
,、_545+533+551+522+575+544+541+568+596+548厂厂。。
(1)x=-----------------------------------------------------=552.3,
_536+527+543+530+560+533+522+550+576+536一]。
y=-----------------------------------------------------=541.3,
10
彳=元一9=552.3—541.3=11,
z小一。的值分别为:9,6,8,-8,15,11,19,18,20,12,
痂2_(9-11)2+(6-11)2+(8-11)2+(-8-11)2+(15-11)2+0+(19-11)2+(18-11)2+(20-11)2+(12-11)2
RA.S=
10
区,2=2府=^M^,故有222」工,
(2)由(1)知:2=11,2.
10V10
所以认为甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率有显著提高.
8.(l)c=97.5,“(c)=3.5%;
-0.008c+0.82,95100
(2)/(c)=,最小值为0.02.
0.01c-0.98,100<c<105
12
【分析】(1)根据题意由第一个图可先求出C,再根据第二个图求出C297.5的矩形面积即可解出;
(2)根据题意确定分段点100,即可得出/(c)的解析式,再根据分段函数的最值求法即可解出.
【详解】(1)依题可知,左边图形第一个小矩形的面积为5x0.002>0.5%,所以95<c<100,
所以(0-95)x0.002=0.5%,解得:c=97.5,
4(c)=0.01x(100-97.5)+5x0.002=0.035=3.5%.
(2)当ce[95,100]时,
/(c)=p(c)+q(c)=(c-95)X0.002+(100-c)x0.01+5x0.002=-0.008c+0.82>0.02;
当ce(100,105]时,
/(c)=p(c)+q(c)=5x0.002+(c-100)x0.012+(105-c)x0.002=0.01c-0.98>0,02,
f—0.008c+0.82,95<c<100
故/©=《,
[0.01c-0.98,100<c<105
所以/(c)在区间[95,105]的最小值为0.02.
.考点突破
【考点1】成对数据的相关性
一、单选题
1.(2024・四川成都•二模)对变量苍丁有观测数据(x,,yJ(ieN*),得散点图1;对变量""有观测数据
(%加J(ieN*),得散点图2/表示变量羽>之间的线性相关系数,4表示变量“#之间的线性相关系数,则
下列说法正确的是()
A.变量尤与y呈现正相关,且用〈同B.变量x与y呈现负相关,且用〉同
C.变量尤与y呈现正相关,且用>同D.变量X与y呈现负相关,且用〈同
2.(2024•四川凉山•三模)调查某校高三学生的身高尤和体重y得到如图所示散点图,其中身高x和体重,相
关系数r=0.8255,则下列说法正确的是(
13
A.学生身高和体重没有相关性
B.学生身高和体重呈正相关
C.学生身高和体重呈负相关
D.若从样本中抽取一部分,则这部分的相关系数一定是0.8255
二、多选题
3.(22-23高三上•江苏无锡・期末)已知由样本数据(42,3,…,10)组成的一个样本,得到经验回归方
程为尸2X-0.4,且元=2,去除两个样本点(-2,1)和(2,-1)后,得到新的经验回归方程为$=3x+g.在余
下的8个样本数据和新的经验回归方程中().
A.相关变量x,y具有正相关关系
B.新的经验回归方程为9=3x-3
C.随着自变量尤值增加,因变量y值增加速度变小
D.样本(4,8.9)的残差为-0.1
4.(2024•湖南衡阳•模拟预测)为了研发某种流感疫苗,某研究团队收集了10组抗体药物的摄入量与体内
抗体数量的数据,并对这些数据作了初步处理,得到了如图所示的散点图及一些统计量的值,抗体药物摄
入量为单位:mg),体内抗体数量为y(单位:AU/mL).根据散点图,可以得到回归直线方程为:
y=0.34尤+0.05.下列说法正确的是()
咋
17.2-
17.1-.
17-•••
16.9-•
16.8-••
16.7-••
16.6-•
16.51----1----------1----------1----------1----------1----------1----------1---------1—->
48.84949.249.449.649.85050.250.4X
A.回归直线方程表示体内抗体数量与抗体药物摄入量之间的线性相关关系
B.回归直线方程表示体内抗体数量与抗体药物摄入量之间的函数关系
C.回归直线方程可以精确反映体内抗体数量与抗体药物摄入量的变化趋势
14
D.回归直线方程可以用来预测摄入抗体药物后体内抗体数量的变化
三、填空题
5.(23-24高三上•浙江•开学考试)已知成对样本数据(4%),(%,%),•・•,(尤“,%2亚3)中占,马,…,当互不相等,
且所有样本点(4%)(1=1,2,-,«)都在直线y=-白+1上,则这组成对样本数据的样本相关系数r=
参考答案:
题号1234
答案CBABDAD
1.C
【分析】利用散点图,结合相关系数的知识可得答案.
【详解】由题意可知,变量羽y的散点图中,、随x的增大而增大,所以变量尤与y呈现正相关;
再分别观察两个散点图,图1比图2点更加集中,相关性更好,所以线性相关系数用>同.
故选:c.
2.B
【分析】由散点图的特点可分析相关性的问题,从而判断选项ABC,根据相关系数的定义可判断选项D.
【详解】由散点图可知,散点的分布集中在一条直线附近,
所以学生身高和体重具有相关性,A不正确;
又身高尤和体重'的相关系数为r=0.8255,相关系数r>0,
所以学生身高和体重呈正相关,B正确,C不正确;
从样本中抽取一部分,相关性可能变强,也可能变弱,所以这部分的相关系数不一定是0.8255,D不正确.
故选:B.
3.ABD
【分析】根据线性回归方程的求法、意义可判断ABC,再由残差的概念判断D.
101
【详解】£玉=20,X新平均数gx20=2.5,y=2x2-04=3.6.
i=l8
y新平均数:xl0x3.6=4.5,134.5=3x2.5+2,团B=一3・
o
新的线性回归方程$=3X+5,x,y具有正相关关系,A对.
新的线性回归方程:9=3X-3,B对.
由线性回归方程知,随着自变量x值增加,因变量y值增加速度恒定,C错;
X=4,y=9,8.9—9=-0.1,D对.
故选:ABD.
15
4.AD
【分析】根据回归方程的意义判断即可.
【详解】回归直线方程只能表示体内抗体数量与抗体药物摄入量之间的线性相关关系,不是函数关系,A正
确,B错误,
回归直线方程不能精确反映体内抗体数量与抗体药物摄入量的变化趋势,但可以用来预测摄入抗体药物后
体内抗体数量的变化,C错误,D正确.
故选:AD.
5.-1
【分析】根据给定条件,利用相关系数的定义求解作答.
【详解】因为所有样本点(4%)"=1,2,…㈤都在直线>=_;X+1上,显然直线y=-;x+l的斜率一;<0,
所以样本数据成负相关,相关系数为-L
故答案为:—1
反思提升:
判断相关关系的两种方法:
(1)散点图法:如果样本点的分布从整体上看大致在某一曲线附近,变量之间就有相关关系;
如果样本点的分布从整体上看大致在某一直线附近,变量之间就有线性相关关系.
(2)决定系数法:利用决定系数判定,F越趋近1,拟合效果越好,相关性越强.
【考点2】回归分析
一、单选题
1.(2024・四川绵阳•二模)已知变量x,y之间的线性回归方程为9=2x+l,且变量x,y之间的一组相关数
据如表所示,
X2468
y58.213m
则下列说法正确的是()
A.m=17
B.变量y与x是负相关关系
C.该回归直线必过点(5,11)
D.x增加1个单位,y一定增加2个单位
2.(2024•全国•模拟预测)2023年第19届亚运会在杭州举行,亚运会的吉祥物琮琮、莲莲、宸宸深受大家
喜爱,某商家统计了最近5个月销量,如表所示:若y与无线性相关,且线性回归方程为夕=-0.6元+心则
下列说法不正确的是()
16
时间X12345
销售量y/万只54.543.52.5
A.由题中数据可知,变量y与x负相关
B.当x=5时,残差为0.2
C.可以预测当x=6时销量约为2.1万只
D.线性回归方程9=-0.6x+d中©=5.7
二、多选题
3.(23-24高三上•广东揭阳,期末)2023年入冬以来,流感高发,某医院统计了一周中连续5天的流感就诊
人数y与第x(x=l,2,3,4,5)天的数据如表所示.
X12345
y2110a15a90109
根据表中数据可知无,y具有较强的线性相关关系,其经验回归方程为歹=20元+10,则()
A.样本相关系数在(0』内B.当x=2时,残差为-2
C.点(3,15a)一定在经验回归直线上D.第6天到该医院就诊人数的预测值为130
4.(2024•全国•模拟预测)为了预测某地的经济增长情况,某经济学专家根据该地2023年1〜6月的GDP
的数据y(单位:百亿元)建立了线性回归模型,得到的经验回归方程为y=o.42x+a,其中自变量x指的
是1〜6月的编号,其中部分数据如表所示:
时间2023年)月2023年2月2023年3月2023年4月2023年5月2023年6月
编号X123456
y/百亿元)1为%11.107为为
参考数据:Ex2=796,^(y,.-y)2=70.
i=li=l
则下列说法正确的是()
A.经验回归直线经过点(3.5,11)
B.<7=10.255
C.根据该模型,该地2023年12月的GDP的预测值为14.57百亿元
D.相应于点(%,%)的残差为。二。3
17
三、填空题
5.(2024・江苏•一模)已知变量尤,y的统计数据如下表,对表中数据作分析,发现y与X之间具有线性相关
关系,利用最小二乘法,计算得到经验回归直线方程为N=08x+&,据此模型预测当x=10时3的值
为.
X56789
y3.54566.5
6.(2024・陕西渭南•一模)己知一组数据点(4%)(1=1,2,…,7),用最小二乘法得到其线性回归方程为
77
y=—2x+4,若X%=7,贝1JZ-
i=li=l
四、解答题
7.(2024•山东日照•二模)某公司为考核员工,采用某方案对员工进行业务技能测试,并统计分析测试成绩
以确定员工绩效等级.
⑴已知该公司甲部门有3名负责人,乙部门有4名负责人,该公司从甲、乙两部门中随机选取3名负责人
做测试分析,记负责人来自甲部门的人数为X,求X的最有可能的取值:
2%马一7点
-------------0.02
-7/
i=l
(回)已知某部门测试的平均成绩为60分,估计其绩效等级优秀率;
(回)根据统计分析,大致认为各部门测试平均成绩*〜其中〃近似为样本平均数元,〃近似为
样本方差$2.经计算20,求某个部门绩效等级优秀率不低于0.78的概率.
参考公式与数据:(1)in0.15®-1.9,e12®3.32,ln5.2»1.66.
〃__
八Z%,y一心丁
②线性回归方程9=加+4中,》=号---------,d=y-bx.
「xf-nx2
i=l
③若随机变量X~N(〃,CT2),则尸—bvXv〃+b)=0.6826,P3—2(J<X<〃+2b)=0.9544,
18
P(〃-3b<X<M+3b)=0.9974.
8.(22-23高三上•山东青岛•期末)由个小正方形构成长方形网格有行和〃列.每次将一个小球放到一个
小正方形内,放满为止,记为一轮.每次放白球的频率为P,放红球的概率为q,P+4=L
⑴若根=2,p=q=g,记y表示100轮放球试验中"每一列至少一个红球”的轮数,统计数据如表:
n12345
y7656423026
求y关于"的回归方程Iny=访+4,并预测〃=10时,y的值;(精确到1)
1?
(2)若〃?=2,〃=2,p=§,q=~,记在每列都有白球的条件下,含红球的行数为随机变量X,求X的分
布列和数学期望;
⑶求事件"不是每一列都至少一个红球"发生的概率,并证明:(1-//"丫+(1-
k
YjXj^kx-y$一
附:经验回归方程系数:g=上4--------------,a=y-bx,\>,Jn%=53,记=3.8.
一履?1=1
f=l
参考答案:
题号1234
答案CBADAC
1.C
【分析】根据给定数据及回归方程求出样本中心点,再逐项判断即可得解.
—2+4+6+8「-5+8.2+13+zn26.2+
【详解】依题意,
4―4
262+m
由不=2x5+1,解得根*8,A错误;
回归方程3=2尤+1中,2>0,则变量y与x是正相关关系,B错误;
由于样本中心点为(5,11),因此该回归直线必过点(5,11),C正确;
由回归方程知,x增加1个单位,y大约增加2个单位,D错误.
故选:C
2.B
【分析】对于选项A,利用表中数据变化情况或看回归方程的方正负均可求解;对于选项B,利用样本中心
点求出线性回归方程,再利用回归方程即可求出预测值,进而可求出残差;对于选项C,利用回归方程即可
求出预测值;对于选项D,利用回归方程一定过样本中心点即可求解.
19
【详解】对于选项A,从数据看,y随x的增大而减小,所以变量y与元负相关,故A正确;
1+2+3+4+5。5+4.5+4+3.5+2.5
对于选项B,由表中数据知亍=------------=33.9,
55
所以样本中心点为(3,3.9),将样本中心点(3,3.9)代入£=—0.6%+6中得6=3.9+1.8=5.7,
所以线性回归方程为a=-0.6犬+5.7,所以为=-0.6x5+5.7=2.7,残差2=2.5—2.7=-0.2,故B错误;
对于选项C,当x=6时销量约为夕=-0.6><6+5.7=2.1(万只),故C正确.
对于选项D,由B选项可知3=3.9+1.8=5.7,故D正确.
故选:B.
3.AD
【分析】x,y具有较强的正相关关系,可判断相关系数的范围,判断A;计算x,y的平均值,代入回归直
线方程求出。的值,即可求出x=2时的预测值,求得残差,判断B;看(3,15a)是否适合回归直线方程,判
断C;将x=6代入回归直线方程,求出预测值,判断D.
【详解】由题意可知x,y具有较强的正相关关系,故样本相关系数在(0』内,A正确;
1+2+3+4+521+10々+15。+90+1090匚
根据题意得:==3,y=--------------------=44+5〃,
5
故44+51=20x3+10,解得a=5.2,
故当元=2时,9=20x2+10=50,残差为10a—50=2,B错误;
点(3,15。)即点(3,78),当x=3时,9=20x3+10=70,
即点(3,15a)不在经验回归直线上,C错误;
当x=6时,y=20x6+10=130,即第6天到该医院就诊人数的预测值为130,D正确,
故选:AD
4.AC
【分析】求得数据的样本中心点,即可判断A;结合回归直线方程求出°可判断B;将x=12代入回归直线
方程求得预测值,可判断C;根据残差的计算可判断D.
【详解】选项A:由题意得:于=2x(l+2+3+4+5+6)=3.5,
6
因为££二796,2卜厂司=»;—692=70,所以796—6歹2=70,得歹二11,
i=li=l'i=l
因此该经验回归直线经过样本点的中心(3.5,11),故A正确;
选项B:由A知,11=0.42x3.5+4,得a=9.53,故B错误;
选项C:由B得£=0.42X+9.53,贝lj当x=12时,£=14.57,
20
故该地2023年12月的GDP的预测值为14.57百亿元,故C正确;
选项D:当x=4时,9=0.21,相应于点(%%)的残差为1L107-11.21=-0.103,
(相应于点(%,%)的残差3=%-少),故D错误,
故选:AC
5.7.4
【分析】经验回归直线方程夕=嬴+4过样本点的中心(3),所以把伍工)代入R0.8X+G求得G的值,再
代入x=10求解即可.
【详解】由已知得了=7,9=5,即样本点中心(7,5),
因为经验回归直线方程亍=0.8x+
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年交通运输费用策划与执行协议
- 2025年农村租凭协议标准文本
- 2025年个体网店策划经营权转让合同书
- 2025年产品保障与服务质量协议
- 2025年人才租赁标准协议范本
- 2025年农家乐装饰工程合同样本
- 2025年二手房交易合同策划保管协议范本
- 2025年工作合同标准格式
- 2025年官方商业门店租赁合同模板
- 2025年住宅抵押贷款合同标准化文本
- 甲型流感患者的护理查房
- 装饰施工图设计深度
- 100以内的加减法练习1000题(可直接打印)
- 技术人员能力评价表
- 我是家务小能手(课堂PPT)
- 英语学术论文写作引言
- 汽车检具知识培训讲义
- 小学音乐课程与教学论(小学教育专业)PPT完整全套教学课件
- 驾考三力测试模拟题含答案
- 江门至珠海高速公路某段工程地质勘察报告
- 脊柱外科进修汇报
评论
0/150
提交评论