独立性检验与回归方程14类题型(原卷版)_第1页
独立性检验与回归方程14类题型(原卷版)_第2页
独立性检验与回归方程14类题型(原卷版)_第3页
独立性检验与回归方程14类题型(原卷版)_第4页
独立性检验与回归方程14类题型(原卷版)_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

专题8-6独立性检验与回归方程14类题型

题型•归纳

题四=皿性检验

ms独立性检验与超几何分布

独立性检验与二项式分布

题园因独立性检验与正态分布

ms样本中心的计算及应用

题园施相关系数的计算

求线性回归直线方程(结合相关系数与二项式分布,超几何分布,正态分布)

题因小残差分析

题色宛相关指数

题四#求非线性回归方程:幕函数方程拟合

题因令。求非线性回归方程:指数函数方程拟合

题包中3求非线性回归方程:对数函数方程拟合

题色令且回归方程与独立性检验

题园#画相关系数与独立性检验

I知识点.梳理

独立性检验

1.独立性检验的基本步骤

(1)提出零假设Ho:X和Y相互独立(即X和Y无关)

(2)根据2x2联表给出的数据算出力2=7-y)_二(其中〃=a+6+c+d),得到随机变

(a+Z?)(c+d)(a+c)(b+d)

量/2,并与临界值均比较.

(3)根据实际问题需要的可信程度(小概率值a)确定临界值勺"X与Y有关系”,这种推断犯错误的概率

不超过「(片2月)x100%,即H。成立;否则就说没有[1—2(片2/)]义100%的把握认为“X与Y有关

系”,即Ho不成立.

(4)下表给出了产独立性检验中几个常用的小概率值和相应的临界值

a0.10.050.010.0050.001

2.7063.8416.6357.87910.828

Xa

(5)临界值

产统计量也可以用来作相关性的度量,/越小说明变量之间越独立,/越大说明变量之间越相关

/V/V/V

.忽略/的实际分布与该近似分布的误差后,对于任何小概率值a

n^ad-be)2/V

2

z(a+b)(c+d)(a+c)(b+d)

可以找到相应的正实数,使得田2、\成立,我们称丫为a的临界值,这个临界值就可作为判

P(Z%

断大小的标准.

/V

线性回归方程

解答线性回归问题,应通过散点图来分析两变量间的关系是否线性相关,然后再利用求回归方程的公式求

解回归方程,并利用残差图来分析函数模型的拟合效果,在此基础上,借助回归方程对实际问题进行分析.

最小二乘法

AAA

将〉=云+”称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线,

这种求经验回归方程的方法叫做最小二乘法,求得的6,。叫做6,。的最小二乘估计,其中

n__n/_y_\?a=>—"X•

EXiyi-nxyXL-山-W

b=^l_________=

Z=l!=1

回归模型的处理方法

森函数型:y=axn(〃为常数,a,x,y均取正值),两边取常用对数Igy=lg(or"),即/gy=〃/gx+/ga,

令y'=igy,v=igx,原方程变为y=«%'+/ga,然后按线型回归模型求出〃,iga.

指数函数方程:1.直接设指数求解;2.取对数化简,再设对数求解

对数函数方程:1.直接设对数求解;2.对指数型取对数

残差与残差分析

(1)残差

A

对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的y称为预测值,观测值减去预

测值称为残差.

(2)残差分析

残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否

存在可疑数据等,这方面工作称为残差分析.通过观察残差图可以直观判断模型是否满足一元线性回归模

型中对随机误差的假设,那残差应是均值为0,方差为。2的随机变量的观测值.

(3)残差计算思路:先求出回归方程y=Zw+a(b,。直接套公式即可),然后把表格中每一个尤值通过方

程算出对应的每一个y值,最后与表格中的y值对应相减即可。数据点和它在回归直线上相应位置的差异

y—月是随机误差的效应,称a=y一其为残差

残差计算公式:实际观察值与估计值(拟合值)之间的差

(4)残差图

作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残

差图.在残差图中,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区

域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高.

(5)残差平方和法

残差平方和X(%—月)2越小,模型的拟合效果越好.

i=l

(6)R2

£(%-犷

在回归分析中,可以用氏2=1一与----------来刻画回归的效果,它表示解释变量对于预报变量变化的贡献

ZU-y)2

i=l

里,R2越接近于L表示回归的效果越好.

E(x-x)2“_

模型的拟合效果用相关指数后来表示,R?=]_弋-------,表达式中,x(X—y)2与经验回归方程

E(,y,-y)2,=1

i=l

_n_n

无关,残差平方和2(%一月)2与经验回归方程有关,因此,A?越大,意味着残差平方和^(外一白了越

Z=1Z=1

小,即模型的拟合效果越好;R2越小,残差平方和越大,即模型的拟合效果越差

注:决定系数A?与相关系数r的联系与区别

①相关系数「反映两个变量的相关关系的强弱及正相关或负相关,决定系数R2反映回归模型的拟合效果.

②在含有一个解释变量的线性模型中,决定系数尺2的数值是相关系数r的平方,其变化范围为[0,1],而相

关系数的变化范围为[-1』].

③当相关系数|川接近于1时,说明两变量的相关性较强,当|厂|接近于。时,说明两变量的相关性较弱;

而当《2接近于1时,说明经验回归方程的拟合效果较好.

|重点题型•归类精练

题因O独立性检验

1.某校为了研究学生的性别和对待某一活动的态度(支持与不支持)的关系,运用2x2列联表进行独立性

检验.经计算K2=6.058,则所得到的统计学结论是:有()的把握认为“学生性别与支持该活动有系”.

2

P(K>k0)0.1000.0500.0250.0100.001

2.7063.8415.0246.63510.828

A.0.025%B.1%C.97.5%D.99%

2.足球运动是深受学生喜爱的一项体育运动,为了研究是否喜爱足球运动与学生性别的关系,从某高校男

女生中各随机抽取80名学生进行调查问卷,得到如下数据(104〃2420,〃zeN):

喜爱不喜爱

男生70-m10+m

女生50+m30—m

若有90%以上的把握认为是否喜爱足球运动与学生性别有关,则机的最小值为()

n(ad-bc)舟上,,

附:/7-------丁」一w—--------r-其中n=a+b+c+a.

(a+6)(c+d)(a+c)(b+d)

a=P^x2>k^0.250.100.050.001

k2.0722.7063.8416.635

A.17B.15C.13D.11

3.“村BA”后,贵州“村超”又火出圈!所谓“村超”,其实是目前火爆全网的贵州乡村体育赛事一一榕江(三

宝侗寨)和美乡村足球超级联赛,被大家简称为“村超”.“村超”的民族风、乡土味、欢乐感,让每个人尽

情享受着足球带来的快乐.

某校为了丰富学生课余生活,组建了足球社团.足球社团为了解学生喜欢足球是否与性别有关,随机抽取了

男、女同学各50名进行调查,部分数据如表所示:

喜欢足球不喜欢足球合计

男生20

女生15

合计100

2_n{ad-bc')2

(a+b)(c+d)(a+c)(b+d)

a0.10.050.010.0050.001

Xa2.7063.8416.6357.87910.828

(1)根据所给数据完成上表,依据a=0.005的独立性检验,能否有99.5%的把握认为该中学学生喜欢足球与

性别有关?

(2)社团指导老师从喜欢足球的学生中抽取了2名男生和1名女生示范定点射门.据统计,这两名男生进球的

概率均为泉这名女生进球的概率为也每人射门一次,假设各人进球相互独立,求3人进球总次数X的分布

列和数学期望.

题因M独立性检验与超几何分布

4.民族要复兴,乡村要振兴,合作社助力乡村产业振兴,农民专业合作社已成为新型农业经营主体和现代

农业建设的中坚力量,为实施乡村振兴战略作出了巨大的贡献.已知某主要从事手工编织品的农民专

业合作社共有100名编织工人,该农民专业合作社为了鼓励工人,决定对“编织巧手”进行奖励,为研究

“编织巧手”是否与年龄有关,现从所有编织工人中抽取40周岁以上(含40周岁)的工人24名,40周

岁以下的工人16名,得到的数据如表所示.

“编织巧手”非“编织巧手”总计

年龄%0岁19——

年龄〈40岁—10—

总计——40

(1)请完成答题卡上的2x2列联表,并根据小概率值a=0.010的独立性检验,分析“编织巧手”与“年龄”是否

有关;

(2)为进一步提高编织效率,培养更多的“编织巧手”,该农民专业合作社决定从上表中的非“编织巧手”的工

人中采用分层抽样的方法抽取6人参加技能培训,再从这6人中随机抽取2人分享心得,求这2人中恰有1

人的年龄在40周岁以下的概率.

参考公式:X'gwTdi)其中〃=a+b+c+d.

参考数据:

a0.1000.0500.0100.005

xa2.7063.8416.6357.879

5.2023年实行新课标新高考改革的省市共有29个,选科分类是高级中学在校学生生涯规划的重要课题,

某高级中学为了解学生选科分类是否与性别有关,在该校随机抽取100名学生进行调查.统计整理数据

得到如下的2x2列联表:

选物理类选历史类合计

男生3515

女生2525

合计100

(1)依据小概率值a=0.05的独立性检验,能否据此推断选科分类与性别有关联?

(2)在以上随机抽取的女生中,按不同选择类别同比例分层抽样,共抽取6名女生进行问卷调查,然后在被

抽取的6名女生中再随机抽取4名女生进行面对面访谈.设面对面访谈的女生中选择历史类的人数为随机变

量X,求随机变量X的分布列和数学期望.

附:—,其中?1一a+b+c+d.

(a+b)(c+d)(a+c)(b+d)

a0.100.050.0250.0100.0050.001

2.7063.8415.0246.6357.87910.828

6.2023年9月23日第19届亚运会在杭州开幕,本届亚运会共设40个竞赛大项,包括31个奥运项目和9

个非奥运项目.为研究不同性别学生对杭州亚运会项目的了解情况,某学校进行了一次抽样调查,分别

抽取男生和女生各50名作为样本,设事件4="了解亚运会项目",B="学生为女生”,据统计

P(川B)=|,P(B|4)=|.

n(ad-bc)2

附:2

z(a+b)(c+d)(a+c)(b+d)'n=a+b+c+d.

a0.0500.0100.001

3.8416.63510.828

(1)根据已知条件,填写下列2x2列联表,并依据a=0.001的独立性检验,能否认为该校学生对亚运会项目

的了解情况与性别有关?

了解不了解合计

男生

女生

合计

(2)现从该校了解亚运会项目的学生中,采用分层随机抽样的方法随机抽取9名学生,再从这9名学生中随

机抽取4人,设抽取的4人中男生的人数为X,求X的分布列和数学期望.

7.杭州第19届亚运会又称“2022年杭州亚运会”,是继1990年北京亚运会、2010年广州亚运会之后,中国

第三次举办亚洲最高规格的国际综合性体育赛事.某高校部分学生十分关注杭州亚运会,若将累计关

注杭州亚运会赛事消息50次及以上的学生称为“亚运会达人”,未达到50次的学生称为“非亚运会达

人”.现从该校随机抽取100名学生,得到数据如表所示:

亚运会达人非亚运会达人合计

男生4056

女生24

合计

(1)补全2x2列联表,并判断能否有99%的把握认为是否为“亚运会达人”与性别有关?

(2)现从样本的“亚运会达人”中按性别采用分层抽样的方法抽取6人,然后从这6人中随机抽取3人,记这3

人中女生的人数为X,求X的分布列和数学期望.

n^ad-bc^

附:K2=n=a+b-\-c+d.

(〃+Z?)(c+d)(〃+c)(b+d)'

P(^K2>k)0.0500.0100.005

k3.8416.6357.879

题园且独立性检验与二项式分布

8.2023年9月23日第19届亚运会在中国杭州举行,其中电子竞技第一次列为正式比赛项目.某中学对该

校男女学生是否喜欢电子竞技进行了调查,随机调查了男女生人数各200人,得到如下数据:

男生女生合计

喜欢120100220

不喜欢80100180

合计200200400

(1)根据表中数据,采用小概率值c=0.05的独立性检验,能否认为该校学生对电子竞技的喜欢情况与性别有

关?

(2)为弄清学生不喜欢电子竞技的原因,采用分层抽样的方法从调查的不喜欢电子竞技的学生中随机抽取9

人,再从这9人中抽取3人进行面对面交流,求“至少抽到一名男生”的概率;

(3)将频率视为概率,用样本估计总体,从该校全体学生中随机抽取10人,记其中对电子竞技喜欢的人数为

X,求X的数学期望.

参考公式及数据:力2=7-------------------------------------;其中“=o+Z>+c+d.

(a+b)(c+d)(a+c)(b+d)

a0.150.100.050.0250.01

Xa2.0722.7063.8415.0246.635

9.为学习贯彻中央农村工作会议精神“强国必先强农,农强方能国强”,某市在某村积极开展香菇种植,助

力乡村振兴.香菇的生产可能受场地、基料、水分、菌种等因素的影响,现已知香菇有菌种甲和菌种乙两个

品种供挑选,菌种甲在温度20。€2时产量为28吨/亩,在温度30℃时产量为20吨/亩;菌种乙在温度20℃

时产量为22吨/亩,在气温30C时产量为30吨/亩.

⑴请补充完整2x2列联表,根据2义2列联表和小概率值c=0.1的独立性检验,判断菌种甲、乙的产量与温

度是否有关?

20℃30C合计

菌种甲

菌种乙

合计

(2)某村选择菌种甲种植,已知菌种甲在气温为20。。时的发芽率为从菌种甲中任选3个,若设X为菌种

6

甲发芽的个数,求X的分布列及数学期望.

n(ad-bc)2

附:参考公式:r=其中“=a+6+c+d.

(a+匕)(c+d)(“+c)(人+d),

临界值表:

a0.100.050.01

Xa2.7063.8416.635

10.某市某部门为了了解全市中学生的视力情况,采用比例分配的分层随机抽样方法抽取了该市120名中

学生,已知该市中学生男女人数比例为7:5,他们的视力情况统计结果如表所示:

视力情况

性别合计

近视不近视

男生30

女生40

合计120

(1)请把表格补充完整,并根据小概率值a=0.01的独立性检验,判断近视是否与性别有关;

(2)如果用这120名中学生中男生和女生近视的频率分别代替该市中学生中男生和女生近视的概率,且每名

同学是否近视相互独立.现从该市中学生中任选4人,设随机变量X表示4人中近视的人数,求X的分布

列及均值.

n(ad-bc)2

附:Z2其中n=a+b+c+d.

(a+b)(c+d)(a+c)(b+d)

a0.10.050.01

xa2.7063.8416.635

11

11.sinacos/?=5[sin(a+£)+sin(a—/7)],cosasin/?=&[sin(a+S)—sin(a—/?)],cosacos,=

|[cos(a+£)+cos(a-/?)],sinasin。=[cos(a+S)-cos(a-£)]这组公式被称为积化和差公式,

最早正式发表于16世纪天文学家乌尔索斯1588年出版的《天文学基础》一书中.在历史上,对数出现

之前,积化和差公式被用来将乘除运算化为加减运算.在现代工程中,积化和差的重要应用在于求解傅

里叶级数.为了解学生掌握该组公式的情况,在高一、高三两个年级中随机抽取了100名学生进行考查,

其中高三年级的学生占,其他相关数据如下表:

合格不合格合计

高三年级的学生54

高一年级的学生16

合计100

(1)请完成2x2列联表,依据小概率值a=0.001的独立性检验,分析“对公式的掌握情况”与“学生所在年级”

是否有关?

(2)以频率估计概率,从该校高一年级学生中抽取3名学生,记合格的人数为X,求X的分布列和数学期望.

2

附:产n(ad-bc')

(a+b)(c+d)(a+c)(b+d)'n=a+b+c+d

a0.1000.0500.0100.001

2.7063.8416.63510.828

12.随着科技的发展,网络已逐渐融入了人们的生活.网购是非常方便的购物方式,为了了解网购在我市

的普及情况,某调查机构进行了有关网购的调查问卷,并从参与调查的市民中随机抽取了男女各100人

进行分析,从而得到表(单位:人):

经常网购偶尔或不用网购合计

男性45100

女性65100

合计

⑴完成如表;对于以上数据,采用小概率值a=0.01的独立性检验,能否认为我市市民网购与性别有

关联?

(2)①现从所抽取的女市民中利用分层抽样的方法抽取20人,再从这20人中随机选取3人赠送优惠券,求

选取的3人中至少有2人经常网购的概率;

②将频率视为概率,从我市所有参与调查的市民中随机抽取20人赠送礼品,记其中经常网购的人数为X,

求随机变量X的数学期望和方差.

参考公式:参二鬻之示.常用的小概率值和对应的临界值如下表:

a0.1500.1000.0500.0250.0100.0050.001

xa2.0722.7063.8415.0246.6357.87910.828

13.某中医研究所研制了一种治疗A疾病的中药,为了解其对A疾病的作用,要进行双盲实验.把60名

患有A疾病的志愿者随机平均分成两组,甲组正常使用这种中药,乙组用安慰剂代替中药,全部疗期

后,统计甲、乙两组的康复人数分别为20和5.

(1)根据所给数据,完成下面2x2列联表,并判断是否有99.9%的把握认为使用这种中药与A疾病康复有关

联?

康复未康复合计

甲组2030

乙组530

合计

(2)若将乙组未用药(用安慰剂代替中药)而康复的频率视为这种疾病的自愈概率,现从患有A疾病的人群

中随机抽取3人,记其中能自愈的人数为X,求X的分布列和数学期望.

附表:

a0.1000.050.010.0050.001

Xa2.7063.8416.6357.87910.828

注:双盲实验:是指在实验过程中,测验者与被测验者都不知道被测者所属的组别,(实验组或对照组),

分析者在分析资料时,通常也不知道正在分析的资料属于哪一组.旨在消除可能出现在实验者和参与者意

识当中的主观偏差和介入偏好.安慰剂:是指没有药物治疗作用,外形与真药相像的片、丸、针剂.

14.某企业生产的产品按质量分为一等品和二等品,该企业计划对现有生产设备进行改造,为了分析设备

改造前后的效果,现从设备改造前后生产的大量产品中各抽取200件产品作为样本,产品的质量情况

统计如下表:

一等品二等品合计

设备改造前12080200

设备改造后15050200

合计270130400

n(ad-bc)2

(〃+Z?)(c+d)(a+c)(b+d)

P^K2>k)0.0500.0100.001

k3.8416.63510.828

(1)判断能否在犯错误的概率不超过0.01的前提下,认为该企业生产的这种产品的质量与设备改造有关;

(2)按照分层抽样的方法,从设备改造前的产品中取得了5件产品,其中有3件一等品和2件二等品.现从

这5件产品中任选3件,记所选的一等品件数为X,求X的分布列及均值E(X);

(3)根据市场调查,企业每生产一件一等品可获利100元,每生产一件二等品可获利60元,在设备改造后,

用先前所取的200个样本的频率估计总体的概率,记生产1000件产品企业所获得的总利润为W,求W的均

值E(W).

题园因独立性检验与正态分布

15.新型冠状病毒的传染主要是人与人之间进行传播,感染人群年龄大多数是50岁以上人群,该病毒进入

人体后有潜伏期.潜伏期是指病原体侵入人体至最早出现临床症状的这段时间,潜伏期越长,感染到

他人的可能性越高,现对400个病例的潜伏期(单位:天)进行调查,统计发现潜伏期平均数为7.2,

方差为2.252,如果认为超过8天的潜伏期属于“长潜伏期”,按照年龄统计样本,50岁以上人数占70%,

长期潜伏人数占25%,其中50岁以上长期潜伏者有60人.

(1)请根据以上数据完成2x2列联表,并根据小概率a=0.05的独立性检验,是否可以认为“长期潜伏”与年龄

有关;

单位:人

50岁以下(含50岁)50岁以上总计

长期潜伏

非长期潜伏

总计

(2)假设潜伏期X服从正态分布其中〃近似为样本平均数"人近似为样本方差d,现在很多省

市对入境旅客一律要求隔离14天,请结合费原则通过计算概率解释其合理性.

n(ad-bc)2

其中〃=a+b+c+d.

(a+Z?)(c+d)(a+c)(b+d)

a0.10.050.010

Xa2.7063.8416.635

若X〜N(〃,52),尸(〃一5<XW〃+5)B0.6827,尸(〃一254XV〃+25)“0.9545,

P(〃一35VXV〃+35人0.9973.

16.某校体育锻炼时间准备提供三项体育活动供学生选择.为了解该校学生对“三项体育活动中要有篮球”

这种观点的态度(态度分为同意和不同意),随机调查了200名学生,数据如下:

单位:人

男生女生合计

同意7050120

不同意305080

合计100100200

(1)能否有99%的把握认为学生对“三项体育活动中要有篮球”这种观点的态度与性别有关?

(2)现有足球、篮球、跳绳供学生选择.

①若甲、乙两名学生从这三项运动中随机选一种,且他们的选择情况相互独立互不影响.已知在甲学生选

择足球的前提下,两人的选择不同的概率为记事件A为“甲学生选择足球",事件B为“甲、乙两名学生

的选择不同”,判断事件A、5是否独立,并说明理由.

②若该校所有学生每分钟跳绳个数X〜N085,169).根据往年经验,该校学生经过训练后,跳绳个数都有

明显进步.假设经过训练后每人每分钟跳绳个数比开始时个数增加10,该校有1000名学生,预估经过训练

后该校每分钟跳182个以上人数(结果四舍五入到整数).

n(ad—bc)-

参考公式和数据:K2=其中“=a+6+c+d;

(a+6)(c+d)(a+c)仅+d)

2

P(K>x0)0.0250.0100.005

%5.0246.6357.879

若X〜N(〃,/),贝”(因一“<(7卜0.6827,P(|X-//|<2cr)~0.9545,尸(|X-4<3o■卜0.9973.

17.为调查学生数学建模能力的总体水平,某地区组织10000名学生(其中男生4000名,女生6000名)

参加数学建模能力竞赛活动.

(1)若将成绩在[70,85]的学生定义为“有潜力的学生”,经统计,男生中有潜力的学生有2500名,女生中有潜

力的学生有3500名,完成下面的2x2列联表,并判断是否有99.9%的把握认为学生是否有潜力与性别有关?

性别

是否有潜力合计

男生女生

有潜力

没有潜力

合计

(2)经统计,男生成绩的均值为80,方差为49,女生成绩的均值为75,方差为64.

(i)求全体参赛学生成绩的均值4及方差。2;

(ii)若参赛学生的成绩X服从正态分布N(%d),试估计成绩在[61,93]的学生人数.

参考数据:

©

P(K2>fc)0.10.050.010.0050.001

k2.7063.8416.6357.87910.828

②若X〜NQ,/),则P(〃一。WXW〃+。)=0.6827,—2cWXW〃+2。)=0.9545,P(/z-3tr<X<

〃+3a-)=0.9973.

n(ad-bc)2

参考公式:K2=n=a+b+c+d.

(a+b)(c+d)(a+c)(b+d)'

18.某学校号召学生参加“每天锻炼1小时”活动,为了了解学生参与活动的情况,随机调查了100名学生一

个月(30天)完成锻炼活动的天数,制成如下频数分布表:

[0,5](5,10](10,15](15,20](20,25](25,30]

人4153331116

(1)由频数分布表可以认为,学生参加体育锻炼天数X近似服从正态分布NO,M),其中「I近似为样本的平

均数(每组数据取区间的中间值),且。=6.1,若全校有3000名学生,求参加“每天锻炼1小时”活动超过

21天的人数(精确到1);

⑵调查数据表明,参加“每天锻炼1小时”活动的天数在(15,30]的学生中有30名男生,天数在[0,15]

的学生中有20名男生,学校对当月参加“每天锻炼1小时”活动超过15天的学生授予“运动达人”称号.

请填写下面列联表:

活动天数

性别合计

[0,15](15,30]

男生

女生

合计

并依据小概率值a=0.05的独立性检验,能否认为学生性别与获得“运动达人”称号有关联.如果结论是有关联,

请解释它们之间如何相互影响.

附:参考数据:P(〃一。WX<〃+a)=0.6827;P(4-2。WXW〃+2(r)=0.9545;<X<

〃+3。)=。.99734=("雷蓝?(7i=a+b+c+d)

a0.10.050.010.0050.001

2.7063.8416.6357.87910.828

题包理样本中心的计算及应用

19.如果记录了无,y的几组数据分别为(0,1),(1,3),(2,5),(3,7),那么y关于X的经验回归直线必过点

()

A.(2,2)B.(1.5,2)C.(1,2)D.(1.5,4)

下列说法中正确的有(填正确说法的序号).

①回归直线§=%+》恒过点(,亍),且至少过一个样本点;

②若样本数据占,々,・一/的方差为4,则数据2%+1,2%+1,…,2/+1的标准差为4;

③已知随机变量X且尸(X>3)=0.2,则P(l<X43)=0.3;

④若线性相关系数/I越接近1,则两个变量的线性相关性越弱;

⑤小是用来判断两个分类变量是否相关的随机变量,当左2的值很小时可以推断两个变量不相关.

20.已知两个变量无和丁之间存在线性相关关系,某兴趣小组收集了一组x,y的样本数据如下表所示:

X12345

y0.50.611.41.5

根据表中数据利用最小二乘法得到的回归方程是()

A.y=0.21x+0.53B.y=0.25x+0.21

C.y=0.28x+0.16D.y=0.3lx+0.11

21.己知变量x和y的统计数据如表:

X12345

y55668

根据上表可得回归直线方程夕=0.72+4,据此可以预测当x=8时,'=().

A.9.2B.9.5C.9.9D.10.1

22.近年来,“考研热”持续升温,2022年考研报考人数官方公布数据为457万,相比于2021年增长了80

万之多,增长率达到21%以上.考研人数急剧攀升原因较多,其中,本科毕业生人数增多、在职人士考

研比例增大,是两大主要因素.据统计,某市各大高校近几年的考研报考总人数如下表:

年份20182019202020212022

年份序号X12345

报考人数y(万人)1.11.622.5m

根据表中数据,可求得y关于x的线性回归方程为9=Q43X+Q71,则根的值为.

23.(多选)为了研究y关于x的线性相关关系,收集了5组样本数据(见下表):

Xi2345

y0.50.811.21.5

假设经验回归方程为£=加+0.28,则()

A.另=0.24

B.当x=8时,y的预测值为2.2

C.样本数据y的40%分位数为0.8

D.去掉样本点(3,1)后,%与y的样本相关系数/•不变

题包式相关系数的计算

24.(多选)对于样本相关系数厂,下列说法正确的是()

A.厂的取值范围是[-M]

B.越大,相关程度越弱

c.制越接近于o,成对样本数据的线性相关程度越强

D.卜|越接近于1,成对样本数据的线性相关程度越强

25.(多选)已知关于变量x,y的4组数据如表所示:

X681012

ya1064

根据表中数据计算得到x,y之间的线性回归方程为夕=-1.4元+20.6,无,y之间的相关系数为r(参考公式:

),贝U(

7A/2

A.a=12B.变量x,y正相关C.r

题包包求线性回归直线方程(结合相关系数与二项式分布,超几何分布,正态分布)

26.近年来,“直播带货”成为一种常见的销售方式,某果农2018年至2022年通过直播销售水果的年利润》

(单位:万元)如表所示:

年份20182019202020212022

年份代码t12345

年利润%万元2.42.74.16.47.9

(1)由表中的数据判断,能否用线性回归模型拟合y与1的关系?请用相关系数「加以说明(精确到0。1);

(2)建立y关于f的线性回归方程,并预测2025年该果农通过直播销售水果的利润.

参考数据:t4%=85.2,Ij(x.-y)2=T2Z78,456.95x7.55.

i=lV』1

力(—)(%-刃

参考公式:相关系数厂=I广,,

加(一法(一.

Vi=lZ=1

-刃

回归方程y=bt+a中斜率和截距的最小二乘估计公式分别为6=-----------------,a=y-bT.

za-n2

1=1

27.比亚迪,这个在中国乘用车市场僦露头角的中国品牌,如今己经在全球汽车品牌销量前十中占据一席

之地.这一成就不仅是比亚迪的里程碑,更是中国新能源汽车行业的里程碑,标志着中国已经在全球

范围内成为了新能源汽车领域的强国.比亚迪旗下的宋plus自2020年9月上市以来,在SUV车型中

的月销量遥遥领先,现统计了自上市以来截止到2023年8月的宋plus的月销量数据.

(1)通过调查研究发现,其他新能源汽车的崛起、购置税减免政策的颁布等,影响了汽车的月销量,现将残

差过大的数据剔除掉,得到2022年8月至2023年8月部分月份月销量y(单位:万辆)和月份编号x的成

对样本数据统计.

月份2022.82022.92022.122023.12023.22023.32023.42023.62023.7202.8

月份编号12345678910

月销量(单位:

4.254.594.993.53.783.012.462.723.023.28

万辆)

请用样本相关系数说明》与x之间的关系可否用一元线性回归模型拟合?若能,求出y关于x的经验回归方

程;若不能,请说明理由.(运算过程及结果均精确到0.01)(若旧>075,则线性相关程度很高,可用一元

线性回归模型拟合)

(2)为庆祝2023年“双节”(中秋节和国庆节),某地4s店特推出抽奖优惠活动,奖项共设一、二、三等奖三

个奖项,其中一等奖、二等奖、三等奖分别奖励1万元、5千元、2千元,抽中一等奖、二等奖、三等奖的

概率分别为现有甲、乙两人参加了抽奖活动(每人只有一次抽奖机会),假设他们是否中奖相互独

632

立,求两人所获奖金总额超过1万元的概率.

1(%-元)(%-9)z%%一近

i=li=l

参考公式:样本相关系数厂

拒d)2茨「讨

Vi=li=l

-2(%-可(%-刃-nxy

b=上「-----------=号--------,a=y-bx.

z=li=l

10_1010____________

参考数据:£%%=178.26,元y=19.58,£E-10元2=82.5,£货_10rz6.20,x7620«22.62.

i=li=li=l

28.已知某绿豆新品种发芽的适宜温度在6℃~22℃之间,一农学实验室研究人员为研究温度》(℃)与绿

豆新品种发芽数》(颗)之间的关系,每组选取了成熟种子50颗,分别在对应的8℃~14℃的温度环境

(1)由折线统计图看出,可用线性回归模型拟合〉与x的关系,请用相关系数加以说明;

(2)建立y关于x的回归方程,并预测在19℃的温度下,种子发芽的颗数.

参考数据:7=24,Z(x,-》)(%->)=70,工回7)~=176,777»8.77.

i=li=l

参考公式:相关系数一二।六三,回归直线方程,二院+》中斜率和截距的最小二乘估计公

、卜一乂州->)

式分别为6=千——屋亍-打.

i=l

29.某骑行爱好者近段时间在专业人士指导下对骑行情况进行了统计,各次骑行期间的身体综合指标评分无

与对应用时y(单位:小时)如下表:

身体综合指标评分(X)12345

用时(V/小时)108.5876.5

(1)由上表数据看出,可用线性回归模型拟合y与x的关系,请用相关系数如以说明;

⑵建立y关于x的回归方程.

n__

2H一£(即一城%1))____

参考数据和参考公式:相关系数,=,,b=上一---------,&=7-标,6al.73.

回a2力

Vz=li=l

30.火车晚点是人们在旅行过程中最常见的问题之一,针对这个问题,许多人都会打电话进行投诉.某市火

车站为了解每年火车的正点率x%对每年顾客投诉次数》(单位:次)的影响,对近8年(2015年~2022

年)每年火车正点率x%和每年顾客投诉次数y的数据作了初步处理,得到下面的一些统计量的值.

储888£8(尤广元)2

Z=1i=li=l1=1

60059243837.293.8

(1)求y关于X的经验回归方程;若预计2024年火车的正点率为84%,试估算2024年顾客对火车站投诉的

次数;

(2)根据顾客对火车站投诉的次数等标准,该火车站这8年中有6年被评为“优秀”,2年为“良好”,若从这8

年中随机抽取3年,记其中评价“良好”的年数为X,求X的分布列和数学期望.

附:经验回归直线y=淡+。的斜率和截距的最小二乘法估计公式分别为:

另=与---------,a=y-bx

i=l

X

5153

P

142828

31.直播带货是一种直播和电商相结合的销售手段,目前己被广大消费者所接受.针对这种现状,某公司决

定逐月加大直播带货的投入,直播带货销售金额稳步提升,以下是该公司2023年前6个月的带货金额:

月份X123456

带货金额y/万元25435445495416542054

(1)根据统计表中的数据,计算变量V与X的样本相关系数r,并判断两个变量y与X的相关程度(若卜1-0.75,

则认为相关程度较强;否则没有较强的相关程度,精确到0.01);

(2)若y与X的相关关系拟用线性回归模型表示,试求

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论