统计案例(原卷版)_第1页
统计案例(原卷版)_第2页
统计案例(原卷版)_第3页
统计案例(原卷版)_第4页
统计案例(原卷版)_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

专题52统计案例

【题型归纳目录】

题型一:变量间的相关关系

题型二:线性回归

题型三:非线性回归

题型四:独立性检验

题型五:误差分析

【考点预测】

知识点一、变量间的相关关系

1、变量之间的相关关系

当自变量取值一定时,因变量的取值带有一定的随机性,则这两个变量之间的关系叫相关关系.由于

相关关系的不确定性,在寻找变量之间相关关系的过程中,统计发挥着非常重要的作用.我们可以通过收

集大量的数据,在对数据进行统计分析的基础上,发现其中的规律,对它们的关系作出判断.

注意:相关关系与函数关系是不同的,相关关系是一种非确定的关系,函数关系是一种确定的关系,

而且函数关系是一种因果关系,但相关关系不一定是因果关系,也可能是伴随关系.

2、散点图

将样本中的n个数据点(x,,%)(i=1,2,)描在平面直角坐标系中,所得图形叫做散点图.根据散点图

中点的分布可以直观地判断两个变量之间的关系.

(1)如果散点图中的点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它

称为正相关,如图(1)所小;

(2)如果散点图中的点散布在从左上角到右下角的区域内,对于两个变量的这种相关关系,我们将它

称为负相关,如图(2)所不.

y

•••••・•

,••

,*

o5;o

(1)(2)

3、相关系数

若相应于变量X的取值X,,变量y的观测值为y(1<i<ri),则变量x与y的相关系数

n__

E(X]-x)(%-y)^x^-nxy

।2L,通常用厂来衡量x与y之间的线性关系的强弱,r

唇厂孩唇:-方

的范围为一.

(1)当r>0时,表示两个变量正相关;当厂<0时,表示两个变量负相关.

(2)W越接近1,表示两个变量的线性相关性越强;H越接近0,表示两个变量间几乎不存在线性相

关关系.当加=1时,所有数据点都在一条直线上.

(3)通常当|厂|>0.75时,认为两个变量具有很强的线性相关关系.

知识点二、线性回归

1、线性回归

线性回归是研究不具备确定的函数关系的两个变量之间的关系(相关关系)的方法.

对于一组具有线性相关关系的数据(尤1,yi),(%2,J2),...,(X",y"),其回归方程y=加+。的求法为

〃__“__

£-尤)(yt-v)£X:yt-nxy

b=^—^---------------------T--------------------

一彳了一屋

i=li=\

a=y-bx

其中,X=~txi,y=-tyi'(x,y)称为样本点的中心.

n/=in,=i

2、残差分析

对于预报变量y,通过观测得到的数据称为观测值y,通过回归方程得到的y称为预测值,观测值减去

预测值等于残差,自称为相应于点(七,y)的残差,即有=残差是随机误差的估计结果,通过对残

差的分析可以判断模型刻画数据的效果以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分

析.

U)残差图

通过残差分析,残差点&,自)比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样

的带状区域的宽度越窄,说明模型拟合精确度越高;反之,不合适.

(2)通过残差平方和。=£(»-%)2分析,如果残差平方和越小,则说明选用的模型的拟合效果越好;

;=|

反之,不合适.

(3)相关指数

Z(y-y,-)2

用相关指数来刻画回归的效果,其计算公式是:R2=I--=1'".

Z(2)2

/=!

代越接近于1,说明残差的平方和越小,也表示回归的效果越好.

知识点三、非线性回归

解答非线性拟合问题,要先根据散点图选择合适的函数类型,设出回归方程,通过换元将陌生的非线

性回归方程化归转化为我们熟悉的线性回归方程.

求出样本数据换元后的值,然后根据线性回归方程的计算方法计算变换后的线性回归方程系数,还原

后即可求出非线性回归方程,再利用回归方程进行预报预测,注意计算要细心,避免计算错误.

1、建立非线性回归模型的基本步骤:

(1)确定研究对象,明确哪个是解释变量,哪个是预报变量;

(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(是否存在非线性关系);

(3)由经验确定非线性回归方程的类型(如我们观察到数据呈非线性关系,一般选用反比例函数、二

次函数、指数函数、对数函数、幕函数模型等);

(4)通过换元,将非线性回归方程模型转化为线性回归方程模型;

(5)按照公式计算线性回归方程中的参数(如最小二乘法),得到线性回归方程;

(6)消去新元,得到非线性回归方程;

(7)得出结果后分析残差图是否有异常.若存在异常,则检查数据是否有误,或模型是否合适等.

知识点四、独立性检验

1、分类变量和列联表

(1)分类变量:

变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.

(2)列联表:

①定义:列出的两个分类变量的频数表称为列联表.

②2x2列联表.

一般地,假设有两个分类变量X和匕它们的取值分别为{xl,尤2}和{yl,y2],其样本频数列联表(称

为2x2列联表)为

%为总计

%aba+b

x2Cdc+d

总计a+cb+da+b+c+d

从2x2列表中,依据‘二与工的值可直观得出结论:两个变量是否有关系.

a+bc+d

2、等高条形图

(1)等高条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图表示

列联表数据的频率特征.

(2)观察等高条形图发现,二与上相差很大,就判断两个分类变量之间有关系.

a+bc+d

3、独立性检验

(1)定义:利用独立性假设、随机变量K2来确定是否有一定把握认为“两个分类变量有关系”的方法

称为两个分类变量的独立性检验.

(2)公式:K2=---------------------------------,其中〃=a+O+c+d为样本容量.

(a+b)(c+d)(a+c)(b+d)

(3)独立性检验的具体步骤如下:

①计算随机变量K?的观测值%,查下表确定临界值即:

2

P(K>k0)0.50.400.250.150.100.050.0250.0100.0050.001

k00.4550.7081.3232.0722.7063.8415.0246.6357.87910.828

②如果左2%,就推断“x与y有关系”,这种推断犯错误的概率不超过/(片?%);否则,就认为在犯

错误的概率不超过°(片?片)的前提下不能推断“乂与/有关系”.

(2)两个分类变量X和y是否有关系的判断标准:

统计学研究表明:

当Q43.841时,认为X与Y无关;

当3.841时,有95%的把握说X与Y有关;

当片>6.635时,有99%的把握说X与/有关;

当片>10.828时,有99.9%的把握说X与¥有关.

【方法技巧与总结】

常见的非线性回归模型

(1)指数函数型〉=。优(。>0且awl,c>0)

两边取自然对数,Iny=In[cax),即Iny=lnc+xlna,

令[y,'=lny,原方程变为y=lnc+尤'Ina,然后按线性回归模型求出In。,Inc.

[x=X

(2)对数函数型y=+a

令=y,原方程变为y'=bx'+a,然后按线性回归模型求出6,a.

[x=Inx

(3)塞函数型y=ax〃

两边取常用对数,lgy=lg(ax〃),即lgy=mgx+lga,

令,原方程变为y'=nr'+lga,然后按线性回归模型求出”,Iga.

[x=Igx

(4)二次函数型y=区2+。

令:,原方程变为y'=6x'+a,然后按线性回归模型求出6,«.

[X=X

(5)反比例函数型y=a+9型

y'=y

令,1,原方程变为y'=6x'+“,然后按线性回归模型求出6,a.

X=—

、X

【题型归纳目录】

题型一:变量间的相关关系

题型二:线性回归

题型三:非线性回归

题型四:独立性检验

题型五:误差分析

【典例例题】

题型一:变量间的相关关系

例1.(2022・上海嘉定•高三阶段练习)通过抽样调研发现,当地第三季度的医院心脑血管疾病的人数和便利

店购买冷饮的人数的相关系数很高,甲认为这是巧合,两者其实没有关系:乙认为冷饮的某种摄入成分导

致了疾病;丙认为病人对冷饮会有特别需求:丁认为两者的相关关系是存在的,但不能视为因果,请判断

哪位成员的意见最可能成立()

A.甲B.乙C.丙D.丁

例2.(2022•四川・成都七中高三阶段练习(理))某统计部门对四组数据进行统计分析后,获得如图所示的

散点图.

35

30

25

20

15

10

5

V5101520253035

相关系数为八

35f-----------------------------

30-.

25-

20-

15-.,

io-.•

5-J*,

5101520253035

相关系数为「3相关系数为&

下面关于相关系数的比较,正确的是)

A.B.r2<r^<rx<r3C.D.

例3.(2022・上海交大附中高三阶段练习)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有

所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽

样的方法抽取20个作为样区,调查得到样本数据(4%)«=1,2,…,20),其中天和力分别表示第,个样区的

2020

植物覆盖面积(单位:公顷)和这种野生动物的数量(单位:头),并计算得£七=60,2%=1200,

Z=1Z=1

20_220_20

=80,X(X-y)2=9000,£卜厂尤)(%->)=800.

z=li=\i=l

(1)估计该地区这种野生动物的数量;

⑵求样本(%,%)«=1,2,…,20)的相关系数.(精确到0.01)

变式1.(2022•陕西・宝鸡市陈仓高级中学高三开学考试(理))对两个变量无,y进行线性相关检验,得线性

相关系数〃=0.8995,对两个变量a,v进行线性相关检验,得线性相关系数-0.9568,则下列判断正确

的是()

A.变量x与y正相关,变量“与v负相关,变量尤与y的线性相关性较强

B.变量x与y负相关,变量〃与v正相关,变量x与y的线性相关性较强

C.变量x与y正相关,变量〃与v负相关,变量〃与v的线性相关性较强

D.变量尤与y负相关,变量"与v正相关,变量"与v的线性相关性较强

变式2.(2022・全国•高三专题练习)甲、乙、丙、丁四位同学各自对两变量的线性相关性做试验,分别求

得样本相关系数/,如下表:

甲乙丙T

r0.20-0.95-0.120.85

则试验结果中苍丁两变量有更强线性相关性的是()

A.甲B.乙C.丙D.丁

变式3.(2022.江苏.南京市第一中学高三阶段练习)某网络电视剧已开播一段时间,其每日播放量有如下统

计表:

开播天数X(单

12345

位:天)

当天播放量y

335910

(单位:百万

次)

(1)请用线性回归模型拟合y与x的关系,并用相关系数加以说明;

(2)假设开播后的两周内(除前5天),当天播放量y与开播天数尤服从(1)中的线性关系.若每百万播放量

可为制作方带来0.7万元的收益,且每开播一天需支出1万元的广告费,估计制作方在该剧开播两周内获得

的利润.

参考公式:/,石二口七------------,a=y-bx.

归x"归y"自…

555_____

参考数据:^xiyi=110,2%;=55,=224,7110-10.5.

i=li=li=l

注:①一般地,相关系数r的绝对值在0.95以上(含0.95)认为线性相关性较强;否则,线性相关性较弱.

②利润=收益一广告费.

题型二:线性回归

例4.(2022.重庆南开中学高三阶段练习)重庆位于北半球亚热带内陆地区,其气候特征恰如几句俗谚:春

早气温不稳定,夏长酷热多伏旱,秋凉绵绵阴雨天,冬暖少雪云雾多.尤其是10月份,昼夜温差很大,某

数学兴趣小组欲研究昼夜温差大小与患感冒人数多少之间的关系,他们分别到气象局与某医院抄录了2021

年10月某六天的昼夜温差情况与因患感冒而就诊的人数,得到如下资料:

日期第一日第三日第五日第四日第二日第六日

昼夜温差X(℃)47891214

就诊人数y(个)%%%%)6

66_2

其中:%eN*,i=\,2,3,4,5,6,参考数据:=2658,=258,7258»16.

i=li=l'

(D根据散点图可以认为x与y之间存在线性相关关系,且相关系数r=三,请用最小二乘法求出线性回归

方程y=6x+a(«,b用分数表示);

(2)分析数据发现:第六日就诊人数%=3。,第一日就诊患者中有3个小孩,其他患者全是大人,现随机的

Q

从第一日所有就诊患者中选出2人,若2人中至少有一个小孩的概率为二;

①求%的值;

②若%<%<%<为,求%,为,>4,%的值(只写结果,不要求过程).

2(%-矶%

(参考公式:J————a=y-b'X,

Z")

i=\

例5.(2022•全国•高三专题练习)已知龙,丁的取值如表:

X0134

ya4.34.86.7

若X,y具有线性相关关系,且回归方程为9=0.95x+2.6,则。=

例6.(2022•河北衡水•高三阶段练习)已知一组样本数据(多,yj,(々,坊),…,(%,%)"22,占,巧,...,

乙不相等),若这组数据的样本相关系数为T,则在这组样本数据的散点图中,所有样本点(4》)(1=1,

2,〃)所在的曲线可能是()

A.y=-2x+3B.y=x+3C.y=-x1+3D.y=«+3

变式4.(2022•全国•高三专题练习(文))给出下列说法:①回归直线夕=嬴+&恒过样本点的中心丘,7),

且至少过一个样本点;②两个变量相关性越强,则相关系数⑺就越接近1;③将一组数据的每个数据都加

一个相同的常数后,方差不变;④在回归直线方程3=2-0.5x中,当解释变量x增加一个单位时,预报变量

亍平均减少0.5个单位.其中说法正确的是()

A.①②④B.②③④C.①③④D.②④

变式5.(2022・全国•高三专题练习)对于数据组(专切[=1,2,3,...,“),如果由线性回归方程得到的对应于自

变量者的估计值是力,那么将称为相应于点(乙,%)的残差.某工厂为研究某种产品产量无(吨)与

所需某种原材料丫吨)的相关性,在生产过程中收集4组对应数据(x,y)如下表所示:

X3456

y2.534m

根据表中数据,得出,关于x的线性回归方程为y=0.7x+〃,据此计算出样本点(4,3)处的残差为一0.15,

则表中m的值为()

A.3.3B.4.5C.5D.5.5

变式6.(2022.全国•高三专题练习)已知两个变量工和,之间有线性相关关系,经调查得到如下样本数据,

X34567

y3.52.41.1-0.2-1.3

根据表格中的数据求得同归方程亍=%+&,则下列说法正确的是()

A.a>0,b>0B.a>0,b<0

C.a<0,b>0D.a<0,b<0

变式7.(2022.全国•高三专题练习)为研究某种细菌在特定环境下,随时间变化的繁殖情况,得到如下实验

数据:

天数X(天)3456

繁殖个数y(千个)2.5344.5

由最小二乘法得>与x的线性回归方程为3=0.7x+&,则当x=7时,繁殖个数》的预测值为()

A.4.9B.5.25

C.5.95D.6.15

变式8.(2022•北京师大附中高三阶段练习(文))为了规定工时定额,需要确定加工某种零件所需的时间,

为此进行了5次试验,得到5组数据:(工,%),(孙力),(毛,%),(%,%),(%,%),由最小二乘法求得回归直线

方程为y=0.67x+54.9.若己知占+々+%+%+%=15°,则%+%+%+%+%=

A.75B.155.4C.375D.466.2

变式9.(2022・广东•顺德一中高三阶段练习)据一组样本数据(%,%),(々,为),…,(%,%),求得经验回归

方程为a=L5x+0.5,且;=3.现发现这组样本数据中有两个样本点(122.2)和(4.8,7.8)误差较大,去除后

重新求得的经验回归直线/的斜率为1.2,则()

A.去除两个误差较大的样本点后,丁的估计值增加速度变快

B.去除两个误差较大的样本点后,重新求得的回归方程一定过点(3,4)

C.去除两个误差较大的样本点后,重新求得的回归方程为a=L2x+L4

D.去除两个误差较大的样本点后,相应于样本点(2,3.75)的残差为0.05

变式10.(2022.全国•高三专题练习)新冠肺炎疫情发生以来,中医药全面参与疫情防控救治,做出了重要

贡献.某中医药企业根据市场调研与模拟,得到研发投入亿元)与产品收益y(亿元)的数据统计如下:

研发投入X(亿元)12345

产品收益y(亿元)3791011

(1)计算X,y的相关系数r,并判断是否可以认为研发投入与产品收益具有较高的线性相关程度?(若

0.3<|r|<0.75,则线性相关程度一般,若|川>0.75,则线性相关程度较高)

(2)求出y关于x的线性回归方程,并预测研发投入20(亿元)时产品的收益.

555

2

参考数据:£(尤,-可2=10,E(x-y)=4o,^(x,-x)(z-y)=i9.

z=li=li=l

附:相关系数公式:r=「,回归直线方程的斜率A=J-----------------,截距

Vi=lVz=li-l

d=y-bx.

变式11.(2022.全国•模拟预测(文))2020年,国庆“遇上”中秋,中国人把这个“超长黄金周”过出了年味.

假期期间,全国各大旅游景点、车站、机场人头攒动的景象也吸引了世界的目光.外国媒体、专家和网友“实

名羡慕”,这一派热闹景象证明了抗疫的成功,也展示了中国经济复苏的劲头.抗疫的成功离不开国家强大的

医疗卫生体系,下表是某省2013年至2019年医疗卫生机构数》(单位:万个):

年份2013201420152016201720182019

年份代号,1234567

医疗卫生机构数y4.24.34.54.74.84.84.9

(1)求y关于f的线性回归方程、=命+&(a,3保留两位小数);

(2)规定若某年的实际医疗卫生机构数与估计值的差的绝对值不超过500个,则称该年是“吻合”年.利用(1)

的结果,假设2020年该省医疗卫生机构数的估计值为实际值,现从2013年至2020年这8年中任选3年,

其中“吻合,,年的个数为X,求X的分布列与数学期望.

7

参考数据:工4%=1322,7=4.6.

Z=1

参考公式:线性回归方程y=中斜率和截距的最小二乘估计公式分别为:b=「----------,

Ef=l"

a=y—bt.

变式12.(2022・全国•高三专题练习)在我国抗疫期间,素有“南抖音,北快手”之说的小视频除了给人们带

来生活中的快乐外,更在于传递了一种正能量,为抗疫起到了积极的作用,但一个优秀的作品除了需要有

很好的素材外,更要有制作上的技术要求,某同学学习利用“快影”软件将已拍摄的素材进行制作,每次制作

分三个环节来进行,其中每个环节制作合格的概率分别为3:,三4,:2,只有当每个环节制作都合格才认为一

453

次成功制作,该小视频视为合格作品.

(1)求该同学进行3次制作,恰有一次合格作品的概率;

(2)若该同学制作10次,其中合格作品数为X,求X的数学期望与方差;

(3)该同学掌握技术后制作的小视频被某广告公司看中,聘其为公司做广告宣传,决定试用一段时间,每

天制作小视频(注:每天可提供素材制作个数至多40个),其中前7天制作合格作品数》与时间f如下表:(第

f天用数字t表示)

时间(,)1234567

合格作品数(V)3434768

其中合格作品数(V)与时间")具有线性相关关系,求,关于「的线性回归方程(精确到0.01),并估算第14天

能制作多少个合格作品(四舍五入取整)?

.£占%一“

(参考公式》=号------=上———7^,6=3-威,参考数据:1^=163.)

七年-wx-一;=1

z=li=\

题型三:非线性回归

例7.(2022.广东.顺德一中高三阶段练习)在国家大力发展新能源汽车产业的政策下,我国新能源汽车的产

销量高速增长.已知某地区2014年底到2021年底新能源汽车保有量的数据统计表如下:

年份(年)20142015201620172018201920202021

年份代码X12345678

保有量W千辆1.952.924.386.589.8715.0022.5033.70

888

参考数据:9=12.1]=2.1,£x;=204,=613.7,£必=92.4,,其中

z=li=lf=l

J=Iny,1g2P0.30,lg3«0.48,1gee0.43.

人力千辆

35

30

25

20

15

10

5

O12345678

(1)根据统计表中的数据画出散点图(如图),请判断9=&与5;=e&+<5哪一个更适合作为y关于x的经验

回归方程(给出判断即可,不必说明理由),并根据你的判断结果建立y关于龙的经验回归方程:

(2)假设每年新能源汽车保有量按(1)中求得的函数模型增长,且传统能源汽车保有量每年下降的百分比相

同.若2021年底该地区传统能源汽车保有量为500千辆,预计到2026年底传统能源汽车保有量将下降10%.

试估计到哪一年底新能源汽车保有量将超过传统能源汽车保有量.

参考公式:对于一组数据(%,V/),(%,岭),…,(""M),其经验回归直线£=/"+&的斜率和截距的最小

Z(M;-M)(v;-V)Zujvi-nu-V

二乘估计公式分别为B=上匕--------=%---------,a=v-^u-,;

22

Z(w;-M)工uf-nu

1=1i=l

例8.(2022•全国•高三专题练习)2020年的“金九银十”变成“铜九铁十”,全国各地房价“跳水”严重,但某地

二手房交易却“逆市”而行.下图是该地某小区2019年11月至2020年H月间,当月在售二手房均价(单位:

万元/平方米)的散点图.(图中月份代码1至13分别对应2019年H月至2020年11月)()

A当月在手二手房

L°4-均侪....

1.02-・・•*

1.00-・•

0.98-・*

0.96-

0.94-

°12345678910111213月份代码x

根据散点图选择、=。+6«和'=。+〃111万两个模型进行拟合,经过数据处理得到的两个回归方程分别为

y=0.9369+0.0285石和y=0.9554+0.0306Inx,并得到以下一些统计量的值:

)=0.9369+0.0285&y=0.9554+0.03061nx

R20.9230.973

注:£是样本数据中关的平均数,亍是样本数据中了的平均数,则于列说法不一定成立的是()

A.当月在售二手房均价y与月份代码x呈正相关关系

B.根据>=0.9369+0.02856可以预测2021年2月在售二手房均价约为1.0509万元/平方米

C.曲线y=0.9369+0.02854与y=0.9554+0.0306Inx的图形经过点(x,y)

D.y=0.9554+0.0306Inx回归曲线的拟合效果好于_y=0.9369+0.0285Vx

例9.(2022•全国•高三专题练习)一只红铃虫的产卵数y和温度x有关,现收集了6组观测数据,y(单位:

个)与温度x(单位:℃)得到样本数据(8%)(i=l,2,3,4,5,6),令z,=ln/,并将(4马)绘制成

如图所示的散点图.若用方程y=ae"对y与x的关系进行拟合,则()

z八

4■

3-・・

2-•,,

1-,

——I——I——I——I——I——I-

20212223242526x

A.a>l,b>0B.a>l,b<0

C.Ovavl,b>0D.0<a<l,b<0

变式13.(2022・全国•高三专题练习)用模型y=a*M(a>0)拟合一组数据时,令z=lny,将其变换后得到

h

回归直线方程z=2x+a,则一=()

a

A.eB.—C.—D.2

e2

变式14.(2022•全国•高三专题练习)在一组样本数据(4丹),(巧,%),匕,(天,为)的散点图中,若所有

7

样本点(4%)(,=1,2,L,7)都在曲线y=aln(%-1895)+12.15附近波动,经计算T895)=210.77,

z=i

77

=73.50,^ln(x,.-1895)=23.10,则实数。=()

Z=1Z=1

A.一0.5B.0.5C.-iD.1

变式15.(2022•全国•高三专题练习)如图是一组实验数据构成的散点图,以下函数中适合作为》与无的回

归方程的类型是()

2x

A.y=ax+bB.y=ax+cc.y=b\ogax+cD.y=ba+c

变式16.(2022•全国•高三专题练习)如图是一组实验数据构成的散点图,以下函数中适合作为丫与x的回

归方程的类型是()

»

x

x

A.y=ax+bB.y=ax"+cC.y=b\ogax+cD.y=ba+c

变式17.(多选题)(2022•全国•高三专题练习)在对具有相关关系的两个变量进行回归分析时,若两个变量

不呈线性相关关系,可以建立含两个待定参数的非线性模型,并引入中间变量将其转化为线性关系,再利

用最小二乘法进行线性回归分析.下列选项为四个同学根据自己所得数据的散点图建立的非线性模型,且散

点图的样本点均位于第一象限,则其中可以根据上述方法进行回归分析的模型有()

A.y-cxx+c2x

C.y=q+ln(x+c2)

变式18.(2022・全国•高三专题练习)我国为全面建设社会主义现代化国家,制定了从2021年到2025年的“十

四五”规划.某企业为响应国家号召,汇聚科研力量,加强科技创新,准备增加研发资金.现该企业为了了

解年研发资金投入额x(单位:亿元)对年盈利额》(单位:亿元)的影响,研究了“十二五”和“十三五”规

划发展期间近10年年研发资金投入额占和年盈利额%的数据.通过对比分析,建立了两个函数模型:①

y=a+欧;②y=其中a、夕、彳、t均为常数,e为自然对数的底数.令%=X;,”=In%G=1,2,…,10),

经计算得如下数据:

1010

XS(x-y)2u

Z=1Z=1

26215652680

10°101010

£(x,.-x)(v,.-v)

V力%-7)ZU-7)2

«=1Z=1i=li=\

5.36112501302.612

(1)请从相关系数的角度,分析哪一个模型拟合程度更好?

(2)根据(1)的选择及表中数据,建立y关于尤的回归方程;(系数精确到o.oi)

(3)若希望2021年盈利额y为250亿元,请预测2021年的研发资金投入额了为多少亿元.(结果精确到0.01)

变式19.(2022.全国•高三专题练习)在疫情防控常态化的背景下,山东省政府各部门在保安全,保稳定的

前提下有序恢复生产,生活和工作秩序,五一期间,文旅部门在落实防控举措的同时,推出了多款套票文

旅产品,得到消费者的积极回应.下面是文旅部门在某地区推出六款不同价位的旅游套票,每款的套票价

格x(单位:元)与购买人数y(单位:万人)的数据如下表:

旅游类别城市展馆科技游乡村特色游齐鲁红色游登山套票游园套票观海套票

套票价格X(元)394958677786

购买数量y(万人)16.718.720.622.524.125.6

在分析数据、描点绘图中,发现散点(匕,①集中在一条直线附近,其中”=1叫,co,.=lny;

6666

附:①可能用到的数据:»>叫=753£匕=246»>产1832>;=101.4.

i=\i=\i=\z=l

②对于一组数据(匕,sj,®,①2),…,3,3”),其回归直线质=加+<5的斜率和截距的最小二乘估计值分别

£vimi-rivm

^b=—..................,a=m-bv

”-怖2

,=i

(1)根据所给数据,求y关于龙的回归方程;

ee

(2)按照文旅部门的指标测定,当购买数量y与套票价格x的比在区间-,-上时,该套票受消费者的欢迎

程度更高,可以被认定为“热门套票”,现有三位同学从以上六款旅游套票中,购买不同的三款各自旅游.记

三人中购买“热门套票”的人数为X,求随机变量X的分布列和期望.

变式20.(2022.全国•高三专题练习)数据显示,中国在线直播用户规模及在线直播购物规模近几年都保持

高速增长态势,下表为2017—2021年中国在线直播用户规模(单位:亿人),其中2017年—2021年对应的

代码依次为1—5.

年份代码尤12345

市场规模y3.984.565.045.866.36

参考数据:歹=5.16,V=1.68,^v,.y,.=45.10,其中匕=嘉.

1=1

参考公式:对于一组数据(qyj,(v2,%),…,(匕,%),其回归直线5=加+力的斜率和截距的最小二乘

2匕%一〃药

估计公式分别为3=咛--------,a=y-bv.

2—2

匕一次

Zz=i

(1)由上表数据可知,可用函数模型9=+d拟合y与x的关系,请建立y关于x的回归方程(6,g的值

精确到0.01);

(2)已知中国在线直播购物用户选择在品牌官方直播间购物的概率为p,现从中国在线直播购物用户中随机抽

取4人,记这4人中选择在品牌官方直播间购物的人数为X,若P(X=3)=尸(X=4),求X的分布列与期

望.

变式21.(2022・湖南.长沙市明德中学高三开学考试)近期国内疫情反复,对我们的学习生活以及对各个行

业影响都比较大,某房地产开发公司为了回笼资金,提升销售业绩,让公司旗下的某个楼盘统一推出了为

期10天的优惠活动,负责人记录了推出活动以后售楼部到访客户的情况,根据记录第一天到访了12人次,

第二天到访了22人次,第三天到访了42人次,第四天到访了68人次,第五天到访了132人次,第六天到

访了202人次,第七天到访了392人次,根据以上数据,用x表示活动推出的天数,y表示每天来访的人次,

绘制了以下散点图.

八川人次)

400

350

300

250

200

150

100

50

O

⑴请根据散点图判断,以下两个函数模型y=a+法与y=(c,d均为大于零的常数)哪一个适宜作为

人次y关于活动推出天数元的回归方程类型?(给出判断即可,不必说明理由);

(2)根据(1)的判断结果及下表中的数据,求y关于元的回归方程,并预测活动推出第8天售楼部来访的入

17

次,参考数据:其中匕=lg、,v=-Xvz.

'z=l

7

£%匕084

V1O

Z=1

1.8458.556.9

八z七/一〃孙

线性回归方程:§=》%+金,其中B=t---------丁,金=丁一令%.

2X;-

i=l

(3)己知此楼盘第一天共有10套房源进行销售,其中6套正价房,4套特价房,设第一天卖出的4套房中特

价房的数量为久求4的分布列与数学期望.

题型四:独立性检验

例10.(2022•江苏・南京市秦淮中学高三阶段练习)某校为引导学生学习党史,校党委宣传组织了党史知识

竞赛,对前来参赛的150名学生(男生100人,女生50人),成绩不低于80分的学生为“党史达人”,成绩

低于80分的学生为“非党史达人”,统计了他们的成绩情况,结果如下:男生中有60人被评为“党史达人”,

女生中有40人被评为“党史达人”.

(1)完善列联表,并判断:是否有99%的把握认为党史成绩优秀与否与性别有关?

性别

党史达人非党史达人

是否为党史达人

男生

女生

(2)如果用这150名学生中,男生和女生“党史达人”的频率分别代替该校男生和女生被评为“党史达人”的概

率,且每位学生是否被评为“党史达人”相互独立,现从该校学生中随机抽取3人(2男1女),设随机变量X

表示“3人中党史达人”的人数,试求X的分布列和数学期望.

n(ad-bc)2

附:K2=n=a+b+c+d

(a+/?)(c+d)(a+c)(6+d)'

P(K2>k]0.100.050.0250.010.005

k2.7063.8415.0246.6357.879

例11.(2022・四川•树德中学高三阶段练习(文))根据分类变量x与y的观察数据,计算得至1」片=2.974.依

据下面给出的临界值表,

0.500.400.250.150.100.050.0250.0100.005

k00.4550.7081.3232.0722.7063.8415.0246.6357.879

可知下列判断中正确的是()

A.有95%的把握认为变量x与y独立

B.有95%的把握认为变量x与y不独立

C.变量x与y独立,这个结论犯错误的概率不超过10%

D.变量x与y不独立,这个结论犯错误的概率不超过10%

例12.(2022•浙江省苍南中学高三阶段练习)在新高考改革中,浙江省新高考实行的是7选3的3+3模式,

即语数外三门为必考科目,然后从物理、化学、生物、政治、历史、地理、技术(含信息技术和通用技术)

7门课中选考3门.某校高二学生选课情况如下列联表一和列联表二(单位:人)

选物理不选物理总计

男生340110450

女生140210350

总计480320800

表一

选生物不选生物总计

男生150300450

女生150200

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论