专题8-6独立性检验与回归方程14类题型_第1页
专题8-6独立性检验与回归方程14类题型_第2页
专题8-6独立性检验与回归方程14类题型_第3页
专题8-6独立性检验与回归方程14类题型_第4页
专题8-6独立性检验与回归方程14类题型_第5页
已阅读5页,还剩62页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

专题86独立性检验与回归方程14类题型TOC\o"13"\n\h\z\u题型一独立性检验题型二独立性检验与超几何分布题型三独立性检验与二项式分布题型四独立性检验与正态分布题型五样本中心的计算及应用题型六相关系数的计算题型七求线性回归直线方程(结合相关系数与二项式分布,超几何分布,正态分布)题型八残差分析题型九相关指数题型十求非线性回归方程:幂函数方程拟合题型十一求非线性回归方程:指数函数方程拟合题型十二求非线性回归方程:对数函数方程拟合题型十三回归方程与独立性检验题型十四相关系数与独立性检验独立性检验独立性检验的基本步骤

(1)提出零假设:X和Y相互独立(即X和Y无关)

(2)根据联表给出的数据算出(其中),得到随机变量,并与临界值xα比较.

(3)根据实际问题需要的可信程度(小概率值α)确定临界值“X与Y有关系”,这种推断犯错误的概率不超过,即成立;否则就说没有的把握认为“X与Y有关系”,即不成立.(4)下表给出了产独立性检验中几个常用的小概率值和相应的临界值0.10.050.010.0050.0012.7063.8416.6357.87910.828(5)临界值统计量也可以用来作相关性的度量,越小说明变量之间越独立,越大说明变量之间越相关.忽略的实际分布与该近似分布的误差后,对于任何小概率值,可以找到相应的正实数,使得成立,我们称为的临界值,这个临界值就可作为判断大小的标准.线性回归方程解答线性回归问题,应通过散点图来分析两变量间的关系是否线性相关,然后再利用求回归方程的公式求解回归方程,并利用残差图来分析函数模型的拟合效果,在此基础上,借助回归方程对实际问题进行分析.最小二乘法将eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))x+eq\o(a,\s\up6(^))称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线,这种求经验回归方程的方法叫做最小二乘法,求得的eq\o(b,\s\up6(^)),eq\o(a,\s\up6(^))叫做b,a的最小二乘估计,其中,eq\o(a,\s\up6(^))=eq\x\to(y)-eq\o(b,\s\up6(^))eq\x\to(x).回归模型的处理方法幂函数型:(n为常数,a,x,y均取正值),两边取常用对数,即,令,,原方程变为,然后按线型回归模型求出,.指数函数方程:1.直接设指数求解;2.取对数化简,再设对数求解对数函数方程:1.直接设对数求解;2.对指数型取对数残差与残差分析(1)残差对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的eq\o(y,\s\up6(^))称为预测值,观测值减去预测值称为残差.(2)残差分析残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.通过观察残差图可以直观判断模型是否满足一元线性回归模型中对随机误差的假设,那残差应是均值为0,方差为σ2的随机变量的观测值(3)残差计算思路∶先求出回归方程y=bx+a(b,a直接套公式即可),然后把表格中每一个x值通过方程算出对应的每一个y值,最后与表格中的y值对应相减即可。数据点和它在回归直线上相应位置的差异yi-yi是随机误差的效应,称ei=yi-残差计算公式∶实际观察值与估计值(拟合值)之间的差(4)残差图作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.在残差图中,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高.(5)残差平方和法残差平方和越小,模型的拟合效果越好.(6)R2在回归分析中,可以用来刻画回归的效果,它表示解释变量对于预报变量变化的贡献率,R2越接近于1,表示回归的效果越好.模型的拟合效果用相关指数来表示,,表达式中,与经验回归方程无关,残差平方和与经验回归方程有关,因此,越大,意味着残差平方和越小,即模型的拟合效果越好;越小,残差平方和越大,即模型的拟合效果越差注:决定系数与相关系数的联系与区别①相关系数反映两个变量的相关关系的强弱及正相关或负相关,决定系数反映回归模型的拟合效果.②在含有一个解释变量的线性模型中,决定系数的数值是相关系数的平方,其变化范围为,而相关系数的变化范围为.③当相关系数接近于1时,说明两变量的相关性较强,当接近于0时,说明两变量的相关性较弱;而当接近于1时,说明经验回归方程的拟合效果较好.重点题型·归类精重点题型·归类精练题型一独立性检验某校为了研究学生的性别和对待某一活动的态度(支持与不支持)的关系,运用列联表进行独立性检验.经计算,则所得到的统计学结论是:有(

)的把握认为“学生性别与支持该活动有系”.0.1000.0500.0250.0100.0012.7063.8415.0246.63510.828A. B. C. D.【答案】C【分析】将的值与表中数据比较大小可知,由此确定出相应的把握有多少.【详解】因为,对照表格:,因为,所以有把握认为“学生性别与是否支持该活动有关系”.故选:C.足球运动是深受学生喜爱的一项体育运动,为了研究是否喜爱足球运动与学生性别的关系,从某高校男女生中各随机抽取80名学生进行调查问卷,得到如下数据():喜爱不喜爱男生女生若有90%以上的把握认为是否喜爱足球运动与学生性别有关,则m的最小值为(

)附:.其中.0.250.100.050.001k2.0722.7063.8416.635A.17 B.15 C.13 D.11【答案】B【分析】由列联表计算观测值,根据有90%以上的把握认为是否喜爱足球运动与学生性别有关列出不等式,求出m的最小值.【详解】因为有90%以上的把握认为是否喜爱足球运动与学生性别有关,所以,即,因为在,时单调递增,且,,所以m的最小值为15.“村BA”后,贵州“村超”又火出圈!所谓“村超”,其实是目前火爆全网的贵州乡村体育赛事一一榕江(三宝侗寨)和美乡村足球超级联赛,被大家简称为“村超”.“村超”的民族风、乡土味、欢乐感,让每个人尽情享受着足球带来的快乐.某校为了丰富学生课余生活,组建了足球社团.足球社团为了解学生喜欢足球是否与性别有关,随机抽取了男、女同学各50名进行调查,部分数据如表所示:喜欢足球不喜欢足球合计男生20女生15合计100附:χ2α0.10.050.010.0050.001x2.7063.8416.6357.87910.828(1)根据所给数据完成上表,依据α=0.005的独立性检验,能否有99.5%(2)社团指导老师从喜欢足球的学生中抽取了2名男生和1名女生示范定点射门.据统计,这两名男生进球的概率均为23,这名女生进球的概率为12,每人射门一次,假设各人进球相互独立,求3人进球总次数X【答案】(1)有99.5%(2)分布列见解析,E【分析】(1)根据男女生各50名及表中数据即可填写2×2列联表,然后根据计算χ2=(2)根据题意可知X的所有可能取值为0,1,2,3,列出分布列,计算出期望从而求解.【详解】(1)依题意,2×2列联表如下:喜欢足球不喜欢足球合计男生302050女生153550合计4555100零假设H0χ2的观测值为χ9.091>7.879=x0.005,根据小概率值α=0.005的独立性检验,推断所以有99.5%的把握认为该中学学生喜欢足球与性别有关(2)依题意,X的所有可能取值为0,1,2,3,PX=0P所以X的分布列为:X0123P1542数学期EX题型二独立性检验与超几何分布民族要复兴,乡村要振兴,合作社助力乡村产业振兴,农民专业合作社已成为新型农业经营主体和现代农业建设的中坚力量,为实施乡村振兴战略作出了巨大的贡献.已知某主要从事手工编织品的农民专业合作社共有100名编织工人,该农民专业合作社为了鼓励工人,决定对“编织巧手”进行奖励,为研究“编织巧手”是否与年龄有关,现从所有编织工人中抽取40周岁以上(含40周岁)的工人24名,40周岁以下的工人16名,得到的数据如表所示.“编织巧手”非“编织巧手”总计年龄≥40岁19__________年龄<40岁_____10_____总计__________40(1)请完成答题卡上的2×2列联表,并根据小概率值α=0.010的独立性检验,分析“编织巧手”与“年龄”是否有关;(2)为进一步提高编织效率,培养更多的“编织巧手”,该农民专业合作社决定从上表中的非“编织巧手”的工人中采用分层抽样的方法抽取6人参加技能培训,再从这6人中随机抽取2人分享心得,求这2人中恰有1人的年龄在40周岁以下的概率.参考公式:,其中.参考数据:α0.1000.0500.0100.005xα2.7063.8416.6357.879【答案】(1)列联表见解析,认为“编织巧手”与“年龄”有关,此推断犯错的概率不大于0.010;(2)【分析】(1)由题意及表中数据可完成列联表,先假设“编织巧手”与“年龄”无关联.再由独立性检验公式求值,比较与的大小,最后作出相应判断即可;(2)根据分层抽样比例分配得抽取各层人数,再由古典概型概率公式求解概率.【详解】(1)年龄在40周岁以上(含40周岁)的非“编织巧手”有5人,年龄在40周岁以下的“编织巧手”有6人.列联表如下:“编织巧手”非“编织巧手”总计年龄40岁19524年龄40岁61016总计251540零假设为H0:“编织巧手”与“年龄”无关联.根据列联表中的数据,经计算得到,根据小概率值α=0.010的独立性检验,我们推断H0不成立,即认为“编织巧手”与“年龄”有关,此推断犯错的概率不大于0.010;(2)由题意可得表中非“编织巧手”的工人共有人,采用分层抽样的方法抽取6人参加技能培训,设人中40周岁以上(含40周岁)的人数为,年龄在40周岁以下的人数为,则由,解得.即这6人中年龄在40周岁以上(含40周岁)的人数是2;年龄在40周岁以下的人数是4.从这6人中随机抽取2人的情况有种,其中符合条件2人中恰有1人的年龄在40周岁以下的情况有种,则由古典概型概率公式得,故所求这2人中恰有1人的年龄在40周岁以下的概率为.2023年实行新课标新高考改革的省市共有29个,选科分类是高级中学在校学生生涯规划的重要课题,某高级中学为了解学生选科分类是否与性别有关,在该校随机抽取100名学生进行调查.统计整理数据得到如下的2×2列联表:选物理类选历史类合计男生3515女生2525合计100(1)依据小概率值α=0.05的独立性检验,能否据此推断选科分类与性别有关联?(2)在以上随机抽取的女生中,按不同选择类别同比例分层抽样,共抽取6名女生进行问卷调查,然后在被抽取的6名女生中再随机抽取4名女生进行面对面访谈.设面对面访谈的女生中选择历史类的人数为随机变量X,求随机变量X的分布列和数学期望.附:χ2=nα0.100.050.0250.0100.0050.001x2.7063.8415.0246.6357.87910.828【答案】(1)选科分类与性别有关联(2)分布列见解析,2【分析】(1)计算卡方即可由独立性检验求解,(2)根据超几何分布的概率公式求解概率,即可求解分布列以及期望.【详解】(1)2×2列联表补充如下:选物理类选历史类合计男生351550女生252550合计6040100零假设为H0因为χ2根据小概率值α=0.05的独立性检验,推断H0即认为选科分类与性别有关联,此推断犯错误的概率不大于0.05.(2)由已知,50名女学生中选择物理类和选择历史类的比例为1:1,因此抽取6名女生中,选择物理类和选择历史类的人数均为3名.所以随机变量X的取值为1,2,3.PX=1所以随机变量X的分布列如下表:X123P131所以EX2023年9月23日第19届亚运会在杭州开幕,本届亚运会共设40个竞赛大项,包括31个奥运项目和9个非奥运项目.为研究不同性别学生对杭州亚运会项目的了解情况,某学校进行了一次抽样调查,分别抽取男生和女生各50名作为样本,设事件A=“了解亚运会项目”,B=“学生为女生”,据统计PAB=附:χ2=nα0.0500.0100.001x3.8416.63510.828(1)根据已知条件,填写下列2×2列联表,并依据α=0.001的独立性检验,能否认为该校学生对亚运会项目的了解情况与性别有关?了解不了解合计男生女生合计(2)现从该校了解亚运会项目的学生中,采用分层随机抽样的方法随机抽取9名学生,再从这9名学生中随机抽取4人,设抽取的4人中男生的人数为X,求X的分布列和数学期望.【答案】(1)列联表见解析,该校学生对杭州亚运会项目的了解情况与性别无关(2)分布列见解析,数学期望为4【分析】(1)根据题中所给条件填写表格,写出零假设,根据列联表中数据计算出χ2值,与xα(2)根据题意知其服从超几何分布,列出分布列,求出数学期望即可.【详解】(1)因为PAB=所以对杭州亚运会项目了解的女生为35×50=30,了解亚运会项目的学生为结合男生和女生各50名,填写2×2列联表为:了解不了解合计男生153550女生302050合计4555100零假设H0根据列联表中的数据χ2依据α=0.001的独立性检验,可以推断H0即该校学生对杭州亚运会项目的了解情况与性别无关.(2)由(1)知,采用分层随机抽样的方法随机抽取9名学生,其中男生人数为1515+30女生人数为3015+30由题意可得,随机变量X的所有可能取值为0,1,2,3.PX=0=CPX=2=C随机变量X的分布列如下:X0123P51051则EX杭州第19届亚运会又称“2022年杭州亚运会”,是继1990年北京亚运会、2010年广州亚运会之后,中国第三次举办亚洲最高规格的国际综合性体育赛事.某高校部分学生十分关注杭州亚运会,若将累计关注杭州亚运会赛事消息50次及以上的学生称为“亚运会达人”,未达到50次的学生称为“非亚运会达人”.现从该校随机抽取100名学生,得到数据如表所示:亚运会达人非亚运会达人合计男生4056女生24合计(1)补全列联表,并判断能否有99%的把握认为是否为“亚运会达人”与性别有关?(2)现从样本的“亚运会达人”中按性别采用分层抽样的方法抽取6人,然后从这6人中随机抽取3人,记这3人中女生的人数为X,求X的分布列和数学期望.附:,.0.0500.0100.005k3.8416.6357.879【答案】(1)表格见解析,有99%的把握认为是否为“亚运会达人”与性别有关(2)分布列见解析,1【分析】(1)根据题意,补全的列联表,求得,结合附表,即可得到结论;(2)根据题意,得到随机变量X的所有可能取值为0,1,2,求得相应的概率,列出分布列,结合期望的公式,即可求解.【详解】(1)解:根据题意,补全的列联表如表所示:亚运会达人非亚运会达人合计男生401656女生202444合计6040100根据表中的数据可得,因为,所以有99%的把握认为是否为“亚运会达人”与性别有关.(2)解:从样本的“亚运会达人”中按性别采用分层抽样的方法抽取6人,其中男生有4人,女生有2人,故X的所有可能取值为0,1,2,则,,,所以的分布列为X012P所以期望为X的数学期望.题型三独立性检验与二项式分布2023年9月23日第19届亚运会在中国杭州举行,其中电子竞技第一次列为正式比赛项目.某中学对该校男女学生是否喜欢电子竞技进行了调查,随机调查了男女生人数各200人,得到如下数据:男生女生合计喜欢120100220不喜欢80100180合计200200400(1)根据表中数据,采用小概率值的独立性检验,能否认为该校学生对电子竞技的喜欢情况与性别有关?(2)为弄清学生不喜欢电子竞技的原因,采用分层抽样的方法从调查的不喜欢电子竞技的学生中随机抽取9人,再从这9人中抽取3人进行面对面交流,求“至少抽到一名男生”的概率;(3)将频率视为概率,用样本估计总体,从该校全体学生中随机抽取10人,记其中对电子竞技喜欢的人数为,求的数学期望.参考公式及数据:,其中.0.150.100.050.0250.012.0722.7063.8415.0246.635【答案】(1)采用小概率值的独立性检验,能认为该校学生对电子竞技的喜欢情况与性别有关(2)(3)【分析】(1)根据已知条件,结合独立性检验公式,即可求解.(2)根据已知条件,结合分层抽样的定义,以及对立事件概率和为1,即可求解.(3)结合二项分布的期望公式,即可求解.【详解】(1)列联表如下表所示:男生女生合计喜欢不喜欢合计零假设该校学生对电子竞技的喜欢情况与性别无关,,,采用小概率值的独立性检验,可推断不成立,即能认为该校学生对电子竞技的喜欢情况与性别有关,(2)采用分层抽样的方法从抽取的不喜欢电子竞技的学生中随机抽取9人,这9人中男生的人数为4,女生的人数为5,再从这9人中抽取3人进行面对面交流,“至少抽到一名男生”的概率为.(3)由题意可知喜欢电子竞技的概率为,所以,故.为学习贯彻中央农村工作会议精神“强国必先强农,农强方能国强”,某市在某村积极开展香菇种植,助力乡村振兴.香菇的生产可能受场地、基料、水分、菌种等因素的影响,现已知香菇有菌种甲和菌种乙两个品种供挑选,菌种甲在温度时产量为28吨/亩,在温度30℃时产量为20吨/亩;菌种乙在温度20℃时产量为22吨/亩,在气温时产量为30吨/亩.(1)请补充完整2×2列联表,根据2×2列联表和小概率值的独立性检验,判断菌种甲、乙的产量与温度是否有关?合计菌种甲菌种乙合计(2)某村选择菌种甲种植,已知菌种甲在气温为时的发芽率为,从菌种甲中任选3个,若设为菌种甲发芽的个数,求的分布列及数学期望.附:参考公式:,其中.临界值表:0.100.050.012.7063.8416.635【答案】(1)表格见解析,无关(2)分布列见解析,【分析】(1)由题中数据先完善列联表,然后根据卡方计算公式进行独立性检验即可.(2)由二项分布的概率计算公式即可得相应的概率,从而得分布列,根据期望公式计算即可求解.【详解】(1)合计菌种甲282048菌种乙223052合计5050100零假设:菌种甲、乙的产量与温度没有关系,根据表中数据,计算得,根据小概率值的独立性检验,我们没有充分的证据推断不成立,因此可以认为成立,即认为菌种甲、乙的产量与温度无关.(2)由题意可知,的可能取值有,由公式可得,,所以的分布列为0123所以.某市某部门为了了解全市中学生的视力情况,采用比例分配的分层随机抽样方法抽取了该市120名中学生,已知该市中学生男女人数比例为7:5,他们的视力情况统计结果如表所示:性别视力情况合计近视不近视男生30女生40合计120(1)请把表格补充完整,并根据小概率值α=0.01的独立性检验,判断近视是否与性别有关;(2)如果用这120名中学生中男生和女生近视的频率分别代替该市中学生中男生和女生近视的概率,且每名同学是否近视相互独立.现从该市中学生中任选4人,设随机变量X表示4人中近视的人数,求X的分布列及均值.附:χ2=nad-bcα0.10.050.01xα2.7063.8416.635【答案】(1)表格见解析,近视与性别有关(2)分布列见解析,4【分析】(1)根据已知条件即可完成2×2的列联表,根据表中数据计算观测值,对照临界值即可求解;(2)根据已知条件得出随机变量X服从二项分布,进而可以得出随机变量X的分布列,再结合二项分布随机变量X的期望公式即可求解.【详解】(1)∵该市中学生男女人数比例为7:5,∴抽取的120名学生中男生有70人,女生有50人,2×2列联表如下:性别视力情况合计近视不近视男生304070女生104050合计4080120零假设为H0根据列联表中的数据得,χ2∴根据小概率值α=0.01的独立性检验,我们推断H0(2)∵用这120名中学生中男生和女生近视的频率分别代替该市中学生中男生和女生近视的概率,∴每名学生近视的概率为30+10120由题意可得,X的所有可能取值为0,1,2,3,4,且随机变量X∼B4,PX=0=CPX=2=CPX=4∴X的分布列为:X01234P1632881EXsinαcosβ=12sinα+β+sinα-β,cosαsinβ=12sinα+β-sin合格不合格合计高三年级的学生54高一年级的学生16合计100(1)请完成2×2列联表,依据小概率值α=0.001的独立性检验,分析“对公式的掌握情况”与“学生所在年级”是否有关?(2)以频率估计概率,从该校高一年级学生中抽取3名学生,记合格的人数为X,求X的分布列和数学期望.附:χ2=α0.1000.0500.0100.001x2.7063.8416.63510.828【答案】(1)列联表见解析,认为“对公式的掌握情况”与“学生所在年级”有关(2)分布列见解析,9【分析】(1)根据卡方的计算与临界值比较即可求解,(2)利用二项分布的概率公式即可求解概率以及期望公式求解.【详解】(1)由100名学生中高三年级的学生占35,可知高三年级的学生有60人,高一年级的学生有40人补充完整的列联表,如下:合格不合格合计高三年级的学生54660高一年级的学生241640合计7822100提出零假设H0:“对公式的掌握情况”与“学生所在年级”无关根据列联表中的数据,得χ2根据小概率值α=0.001的独立性检验,我们推断H₀不成立,即认为“对公式的掌握情况”与“学生所在年级”有关,此推断犯错误的概率不大于0.001.(2)由(1)得,高一年级的学生对公式的掌握情况合格的频率为2440依题意,得X~B3,3则PX=0=1-PX=2=C所以X的分布列为X0123P8365427EX随着科技的发展,网络已逐渐融入了人们的生活.网购是非常方便的购物方式,为了了解网购在我市的普及情况,某调查机构进行了有关网购的调查问卷,并从参与调查的市民中随机抽取了男女各100人进行分析,从而得到表(单位:人):经常网购偶尔或不用网购合计男性45100女性65100合计(1)完成如表;对于以上数据,采用小概率值α=0.01的独立性检验,能否认为我市市民网购与性别有关联?(2)①现从所抽取的女市民中利用分层抽样的方法抽取20人,再从这20人中随机选取3人赠送优惠券,求选取的3人中至少有2人经常网购的概率;②将频率视为概率,从我市所有参与调查的市民中随机抽取20人赠送礼品,记其中经常网购的人数为X,求随机变量X的数学期望和方差.参考公式:χ2α0.1500.1000.0500.0250.0100.0050.001x2.0722.7063.8415.0246.6357.87910.828【答案】(1)能,理由见解析(2)①208285;②EX【分析】(1)完善列联表,计算出χ2(2)①所抽取的20名女市民中,经常网购的有20×65100=13②分析可知,X~B20,1120,利用二项分布的期望和方差公式可求得EX【详解】(1)解:完善列联表如下表所示(单位:人):经常网购偶尔或不用网购合计男性4555100女性6535100合计11090200零假设H0由列联表得,χ2根据小概率值α=0.01的独立性检验,推断H0不成立,即认为我市市民网购与性别有关联(2)解:①由题意可知,所抽取的20名女市民中,经常网购的有20×65偶尔或不用网购的有20×35所以,选取的3人中至少有2人经常网购的概率为P=C②由2×2列联表可知,抽到经常网购的市民的频率为110200将频率视为概率,所以,从我市市民中任意抽取一人,恰好抽到经常网购市民的概率为1120由题意可知,X~B20,1120,所以,E某中医研究所研制了一种治疗A疾病的中药,为了解其对A疾病的作用,要进行双盲实验.把60名患有A疾病的志愿者随机平均分成两组,甲组正常使用这种中药,乙组用安慰剂代替中药,全部疗期后,统计甲、乙两组的康复人数分别为20和5.(1)根据所给数据,完成下面2×2列联表,并判断是否有99.9%的把握认为使用这种中药与A康复未康复合计甲组2030乙组530合计(2)若将乙组未用药(用安慰剂代替中药)而康复的频率视为这种疾病的自愈概率,现从患有A疾病的人群中随机抽取3人,记其中能自愈的人数为X,求X的分布列和数学期望.附表:α0.1000.050.010.0050.001x2.7063.8416.6357.87910.828附:χ2=n注:双盲实验:是指在实验过程中,测验者与被测验者都不知道被测者所属的组别,(实验组或对照组),分析者在分析资料时,通常也不知道正在分析的资料属于哪一组.旨在消除可能出现在实验者和参与者意识当中的主观偏差和介入偏好.安慰剂:是指没有药物治疗作用,外形与真药相像的片、丸、针剂.【答案】(1)列联表答案见解析,认为中药与A疾病康复有关联(2)分布列见解析,E【分析】(1)根据题意列出2×2列联表,利用公式求得χ2(2)由题意求得患有A疾病的自愈概率为16,结合随机变量X∼B3,【详解】(1)依题意,列出2×2列联表如下:单位:人康复末康复合计甲组201030乙组52530合计253560零假设为H0:组别与康复相互独立,即中药与A则χ2根据小概率值α=0.001的独立性检验,我们推断H0即有99.9%的把握认为中药与A疾病康复有关联(2)由题意,乙组末用药而康复的频率为530所以患有A疾病的自愈概率为16随机变量X的可能取值为0,1,2,3,由题意得,随机变量X∼B3,所以PX=0PX=1=C31所以X的分布列为:X0123P12575151所以X的数学期望EX某企业生产的产品按质量分为一等品和二等品,该企业计划对现有生产设备进行改造,为了分析设备改造前后的效果,现从设备改造前后生产的大量产品中各抽取200件产品作为样本,产品的质量情况统计如下表:一等品二等品合计设备改造前12080200设备改造后15050200合计270130400附:(1)判断能否在犯错误的概率不超过的前提下,认为该企业生产的这种产品的质量与设备改造有关;(2)按照分层抽样的方法,从设备改造前的产品中取得了5件产品,其中有3件一等品和2件二等品.现从这5件产品中任选3件,记所选的一等品件数为,求的分布列及均值;(3)根据市场调查,企业每生产一件一等品可获利100元,每生产一件二等品可获利60元,在设备改造后,用先前所取的200个样本的频率估计总体的概率,记生产1000件产品企业所获得的总利润为,求的均值.【答案】(1)能在犯错误的概率不超过的前提下,认为该企业生产的这种产品的质量指标值与设备改造有关;(2)分布列见解析,(3)元【分析】(1)计算,与临界值比较得出结论;(2)由题意,根据超几何分布计算概率,列出分布列,计算期望即可;(3)由计算期望,再由期望的性质求.【详解】(1)零假设为:质量指标值与设备改造无关.,不成立,故能在犯错误的概率不超过的前提下,认为该企业生产的这种产品的质量指标值与设备改造有关;(2)由题意.,,,的分布列为:123.(3)设生产的一等品有件,则二等品有件,由题意,,,元.题型四独立性检验与正态分布新型冠状病毒的传染主要是人与人之间进行传播,感染人群年龄大多数是50岁以上人群,该病毒进入人体后有潜伏期.潜伏期是指病原体侵入人体至最早出现临床症状的这段时间,潜伏期越长,感染到他人的可能性越高,现对400个病例的潜伏期(单位:天)进行调查,统计发现潜伏期平均数为7.2,方差为,如果认为超过8天的潜伏期属于“长潜伏期”,按照年龄统计样本,50岁以上人数占70%,长期潜伏人数占25%,其中50岁以上长期潜伏者有60人.(1)请根据以上数据完成列联表,并根据小概率的独立性检验,是否可以认为“长期潜伏”与年龄有关;单位:人50岁以下(含50岁)50岁以上总计长期潜伏非长期潜伏总计(2)假设潜伏期X服从正态分布,其中近似为样本平均数,近似为样本方差,现在很多省市对入境旅客一律要求隔离14天,请结合原则通过计算概率解释其合理性.附:,其中.0.10.050.0102.7063.8416.635若,,,.【答案】(1)列联表见解析,可以认为“长期潜伏”与年龄有关(2)答案见解析【分析】(1)完善列联表,计算出卡方,与3.841比较后得到结论;(2)得到,,根据正态分布原则得到,为小概率事件,得到14天是合理的.【详解】(1)列联表补充如下:单位:人50岁以下(含50岁)50岁以上总计长期潜伏4060100非长期潜伏80220300总计120280400零假设:“长期潜伏”与年龄无关,则,∴根据小概率的独立性检验,可以认为“长期潜伏”与年龄有关.(2),故,所以,所以潜伏期超过14天的概率很低,因此14天是合理的.某校体育锻炼时间准备提供三项体育活动供学生选择.为了解该校学生对“三项体育活动中要有篮球”这种观点的态度(态度分为同意和不同意),随机调查了200名学生,数据如下:单位:人男生女生合计同意7050120不同意305080合计100100200(1)能否有的把握认为学生对“三项体育活动中要有篮球”这种观点的态度与性别有关?(2)现有足球、篮球、跳绳供学生选择.①若甲、乙两名学生从这三项运动中随机选一种,且他们的选择情况相互独立互不影响.已知在甲学生选择足球的前提下,两人的选择不同的概率为.记事件为“甲学生选择足球”,事件B为“甲、乙两名学生的选择不同”,判断事件、是否独立,并说明理由.②若该校所有学生每分钟跳绳个数.根据往年经验,该校学生经过训练后,跳绳个数都有明显进步.假设经过训练后每人每分钟跳绳个数比开始时个数增加10,该校有1000名学生,预估经过训练后该校每分钟跳182个以上人数(结果四舍五入到整数).参考公式和数据:,其中;0.0250.0100.0055.0246.6357.879若,则,,.【答案】(1)有的把握认为,学生对该观点的态度与性别有关(2)①事件独立,理由见解析;②841.【分析】(1)计算出卡方,即可判断;(2)①求出,,即可得到,从而得到,即可判断;②由已知,经过训练后每人每分钟跳绳个数,根据正态分布的性质求出,从而估计出人数.【详解】(1)提出假设:学生对该问题的态度与性别无关.根据列联表中的数据可求得,.因为当成立时,的概率约为,所以有的把握认为,学生对该观点的态度与性别有关.(2)①事件、独立.理由如下:因为,,所以,所以,即事件、独立.②记经过训练后每人每分钟跳绳个数为,由已知,经过训练后每人每分钟跳绳个数.因为,所以.所以(人).所以经过训练后该校每分钟跳个以上人数约为.为调查学生数学建模能力的总体水平,某地区组织10000名学生(其中男生4000名,女生6000名)参加数学建模能力竞赛活动.(1)若将成绩在70,85的学生定义为“有潜力的学生”,经统计,男生中有潜力的学生有2500名,女生中有潜力的学生有3500名,完成下面的2×2列联表,并判断是否有99.9%的把握认为学生是否有潜力与性别有关?是否有潜力性别合计男生女生有潜力没有潜力合计(2)经统计,男生成绩的均值为80,方差为49,女生成绩的均值为75,方差为64.(ⅰ)求全体参赛学生成绩的均值μ及方差σ2(ⅱ)若参赛学生的成绩X服从正态分布Nμ,σ2,试估计成绩在参考数据:①P0.10.050.010.0050.001k2.7063.8416.6357.87910.828②若X∼Nμ,σ2,则Pμ-σ≤X≤μ+σ=0.6827参考公式:K2=n【答案】(1)列联表见解析,有99.9%的把握认为学生是否有潜力与性别有关(2)(ⅰ)μ=77,σ2=64(ⅱ)【分析】(1)根据条件填写二联表,并根据卡方公式计算判断即可;(2)(i)根据分层抽样的均值与方差计算公式计算即可;(ii)根据正态分布的三段区间公式计算并估计即可.【详解】(1)2×2列联表如下:是否有潜力性别合计男生女生有潜力250035006000没有潜力150025004000合计4000600010000零假设为H0根据列联表中的数据,得K=625我们推断H0不成立,即有99.9%的把握认为学生是否有潜力与性别有关(2)(ⅰ)假设男生成绩为xi1≤i≤4000,女生成绩为则μ=80×0.4+75×0.6=77.因为49=1即i=14000同理64=16000i=1所以σ===(或者直接用公式计算:σ2(ⅱ)由X∼N77,82所以这次考试中成绩在61,93的学生大约有0.9545×10000=9545人.某学校号召学生参加“每天锻炼1小时”活动,为了了解学生参与活动的情况,随机调查了100名学生一个月(30天)完成锻炼活动的天数,制成如下频数分布表:天数[0,5](5,10](10,15](15,20](20,25](25,30]人数4153331116(1)由频数分布表可以认为,学生参加体育锻炼天数X近似服从正态分布Nμ,σ2,其中μ近似为样本的平均数(每组数据取区间的中间值),且σ=6.1,若全校有3000名学生,求参加“每天锻炼1小时”活动超过21(2)调查数据表明,参加“每天锻炼1小时”活动的天数在(15,30]的学生中有30名男生,天数在[0,15]的学生中有20名男生,学校对当月参加“每天锻炼1小时”活动超过15天的学生授予“运动达人”称号.请填写下面列联表:性别活动天数合计[0,15](15,30]男生女生合计并依据小概率值α=0.05的独立性检验,能否认为学生性别与获得“运动达人”称号有关联.如果结论是有关联,请解释它们之间如何相互影响.附:参考数据:Pμ-σ≤X≤μ+σ=0.6827;Pμ-2σ≤X≤μ+2σ=0.9545α0.10.050.010.0050.001x2.7063.8416.6357.87910.828【答案】(1)476人(2)答案见解析【分析】(1)利用频数分布表,求得样本的平均数,从而写出X近似服从正态分布X-N(14.9,6.12),利用参考数据求得参加“每天锻炼1小时”(2)根据频数分布表和已知条件,完善列联表,根据独立性检验的公式,求出学生性别与获得“运动达人”称号是否有关联和它们之间如何相互影响.【详解】(1)由频数分布表知μ=4×2.5+15×7.5+33×12.5+31×17.5+11×22.5+6×27.5100=14.9,则X-N(14.9,∴P(X>21)=P(X>14.9+6.1)=1-0.6827∴3000×0.15865=475.95≈476,∴参加“每天锻炼1小时”活动超过21天的人数约为476人.(2)由频数分布表知,锻炼活动的天数在[0,15]的人数为:4+15+33=52,∵参加“每天锻炼1小时”活动的天数在[0,15]的学生中有20名男生,∴参加“每天锻炼1小时”活动的天数在[0,15]的学生中有女生人数:52-20=32由频数分布表知,锻炼活动的天数在(15,30]的人数为31+11+6=48,∵参加“每天锻炼1小时”活动的天数在(15,30]的学生中有30名男生,∴参加“每天锻炼1小时”活动的天数在[0,15]的学生中有女生人数:48-30=18列联表如下:性别活动天数合计[0,15](15,30]男生203050女生321850合计5248100零假设为H0:学生性别与获得“运动达人”χ依据α=0.05的独立性检验,我们推断H0不成立,即:可以认为学生性别与获得“运动达人”而且此推断犯错误的概率不大于0.05,根据列联表中的数据得到,男生、女生中活动天数超过15天的频率分别为:3050=0.6和1850=0.36,可见男生中获得“运动达人”称号的频率是女生中获得“运动达人”的称号频率的0.60.36≈1.67题型五样本中心的计算及应用如果记录了,的几组数据分别为,,,,那么y关于x的经验回归直线必过点(

)A. B. C. D.【答案】D【分析】求出得中心点,即为所求.【详解】由已知,,所以回归直线必过点.故选:D.下列说法中正确的有(填正确说法的序号).①回归直线恒过点,且至少过一个样本点;②若样本数据的方差为4,则数据的标准差为4;③已知随机变量,且,则;④若线性相关系数越接近1,则两个变量的线性相关性越弱;⑤是用来判断两个分类变量是否相关的随机变量,当的值很小时可以推断两个变量不相关.【答案】②③【分析】根据线性回归方程的概念可以判断①,根据方差的性质可以判断②,根据正态分布的性质可以判断③,根据相关系数的概念可以判断④,根据独立性检验的基本概念可以判断⑤.【详解】因为回归直线可以不过样本点,所以①错误;由于,所以数据的方差为16,故标准差为4,因此②正确;根据正态分布的概念,,故,即,故,因此③正确;根据相关系数的概念,若线性相关系数越接近1,则两个变量的线性相关性越强,故④错误;的值很小时只能说明两个变量的相关性不强,故⑤错误.故答案为:②③已知两个变量和之间存在线性相关关系,某兴趣小组收集了一组,的样本数据如下表所示:123450.50.611.41.5根据表中数据利用最小二乘法得到的回归方程是(

)A. B.C. D.【答案】C【分析】求出,,由回归直线必过样本中心,将点(,)依次代入各项检验是否成立可得结果.【详解】∵,∴回归直线必过样本中心(3,1),而A、B、D项中的回归直线方程不过点(3,1),C项的回归直线方程过点(3,1),故选:C.已知变量x和y的统计数据如表:x12345y55668根据上表可得回归直线方程,据此可以预测当时,(

).A.9.2 B.9.5 C.9.9 D.10.1【答案】B【分析】计算出样本中心点的坐标,代入回归直线方程求得的值,然后在回归直线方程中,令可求得结果.【详解】由表格中的数据可得,,由于回归直线过样本的中心点,,解得,所以,回归直线方程为,当时,.故选:B.近年来,“考研热”持续升温,2022年考研报考人数官方公布数据为457万,相比于2021年增长了80万之多,增长率达到21%以上.考研人数急剧攀升原因较多,其中,本科毕业生人数增多、在职人士考研比例增大,是两大主要因素.据统计,某市各大高校近几年的考研报考总人数如下表:年份20182019202020212022年份序号x12345报考人数y(万人)1.11.622.5m根据表中数据,可求得y关于x的线性回归方程为,则m的值为___________.【答案】2.8【分析】求出的值,以及用表示出,代入线性回归方程得到关于的方程,解出即可.【详解】,,,,解得.故答案为:2.8.(多选)为了研究y关于x的线性相关关系,收集了5组样本数据(见下表):x12345y0.50.811.21.5假设经验回归方程为,则(

)A.B.当时,y的预测值为2.2C.样本数据y的40%分位数为0.8D.去掉样本点后,x与y的样本相关系数r不变【答案】ABD【分析】对于A选项:根据回归直线必过点解得;对于B选项:结合经验回归方程的性质即可求解;对于C选项:结合百分位数的定义即可求解;对于D选项:根据相关系数的性质即可判断;【详解】对于A选项:线性回归方程必过点,,,解得,所以选项A正确;对于B选项:当时,可以的出y的预测值为2.2,所以B选项正确;对于C选项:从小到大排列共有5个数据,则是整数,则第40百分位数为从小到大排列的第3个数据,即第40百分位数为3,所以C选项错误;对于D选项:因为相关系数为,5组样本数据的相关系数为:,去掉样本中心点后相关系数为,所以相关系数r不变,所以D选项正确;故选:ABD.题型六相关系数的计算(多选)对于样本相关系数,下列说法正确的是(

)A.的取值范围是B.越大,相关程度越弱C.越接近于0,成对样本数据的线性相关程度越强D.越接近于1,成对样本数据的线性相关程度越强【答案】AD【分析】根据已知条件,结合相关系数的定义,即可依次求解.【详解】对于样本相关系数,取值范围是,越大,越接近于1,成对样本数据的线性相关程度越强;越小,越接近于0,成对样本数据的线性相关程度越弱.故选:AD(多选)已知关于变量x,y的4组数据如表所示:x681012ya1064根据表中数据计算得到x,y之间的线性回归方程为,x,y之间的相关系数为r(参考公式:),则(

)A. B.变量x,y正相关 C. D.【答案】AC【分析】根据回归直线必过点解得,所以选项A正确;由回归方程和表格可知选项B错误;利用相关系数求出,所以选项C正确,选项D错误.【详解】回归直线必过点,,,解得,所以选项A正确;由回归方程和表格可知,变量x,y负相关,所以选项B错误;,所以选项C正确,选项D错误.故选:AC题型七求线性回归直线方程(结合相关系数与二项式分布,超几何分布,正态分布)近年来,“直播带货”成为一种常见的销售方式,某果农2018年至2022年通过直播销售水果的年利润(单位:万元)如表所示:年份20182019202020212022年份代码t12345年利润/万元2.42.74.16.47.9(1)由表中的数据判断,能否用线性回归模型拟合与的关系?请用相关系数加以说明(精确到0.01);(2)建立关于的线性回归方程,并预测2025年该果农通过直播销售水果的利润.参考数据:,,.参考公式:相关系数,回归方程中斜率和截距的最小二乘估计公式分别为,.【答案】(1)答案见解析(2);万元【分析】(1)结合参考数据,求出相关系数,进而可以得出结论;(2)根据参考公式计算出,,然后写出线性回归方程.【详解】(1)由题知,,又,,,所以,因为与的相关系数近似为,非常接近,所以与的线性相关程度很高,可以用线性回归模型拟合与的关系.(2),,故关于的线性回归方程为.易知年对应的年份代码,当时,,所以预测年该果农通过直播销售水果的利润为万元.比亚迪,这个在中国乘用车市场嶡露头角的中国品牌,如今已经在全球汽车品牌销量前十中占据一席之地.这一成就不仅是比亚迪的里程硨,更是中国新能源汽车行业的里程碑,标志着中国已经在全球范围内成为了新能源汽车领域的强国.比亚迪旗下的宋plus自2020年9月上市以来,在SUV车型中的月销量遥遥领先,现统计了自上市以来截止到2023年8月的宋plus的月销量数据.(1)通过调查研究发现,其他新能源汽车的崛起、购置税减免政策的颁布等,影响了汽车的月销量,现将残差过大的数据剔除掉,得到2022年8月至2023年8月部分月份月销量(单位:万辆)和月份编号的成对样本数据统计.月份2022.82022.92022.122023.12023.22023.32023.42023.62023.7202.8月份编号12345678910月销量(单位:万辆)4.254.594.993.53.783.012.462.723.023.28请用样本相关系数说明与之间的关系可否用一元线性回归模型拟合?若能,求出关于的经验回归方程;若不能,请说明理由.(运算过程及结果均精确到0.01)(若,则线性相关程度很高,可用一元线性回归模型拟合)(2)为庆祝2023年“双节”(中秋节和国庆节),某地店特推出抽奖优惠活动,奖项共设一、二、三等奖三个奖项,其中一等奖、二等奖、三等奖分别奖励1万元、5千元、2千元,抽中一等奖、二等奖、三等奖的概率分别为.现有甲、乙两人参加了抽奖活动(每人只有一次抽奖机会),假设他们是否中奖相互独立,求两人所获奖金总额超过1万元的概率.参考公式:样本相关系数,.参考数据:,.【答案】(1)能,(2)【分析】(1)利用公式计算出相关系数,从而得解;(2)分析所求概率甲、乙两人的获奖情况,从而得解.【详解】(1)依题意,,因为,所以,因为,,所以,则,故y与t的线性相关程度很高,可以用线性回归模型拟合,此时,则,所以关于的经验回归方程为.(2)依题意,甲、乙两人所获奖金总额超过1万元必须两人中至少有一人获得一等奖,所以甲、乙两人所获奖金总额超过1万元的概率为.已知某绿豆新品种发芽的适宜温度在6℃~22℃之间,一农学实验室研究人员为研究温度(℃)与绿豆新品种发芽数(颗)之间的关系,每组选取了成熟种子50颗,分别在对应的8℃~14℃的温度环境下进行实验,得到如下散点图:(1)由折线统计图看出,可用线性回归模型拟合与的关系,请用相关系数加以说明;(2)建立关于的回归方程,并预测在19℃的温度下,种子发芽的颗数.参考数据:,,,.参考公式:相关系数,回归直线方程中斜率和截距的最小二乘估计公式分别为,.【答案】(1)答案见解析;(2)44.【分析】(1)直接套公式求出系数r,即可判断;(2)套公式求出回归方程,把代入,即可求解.【详解】(1)由题意可知:..又,所以相关系数.因为相关系数,所以与的线性相关性较高,可以利用线性回归模型拟合与的关系.(2)由(1)知,,,.所以,所以.所以与的回归直线为.当时,.即在19℃的温度下,种子发芽的颗数为44.某骑行爱好者近段时间在专业人士指导下对骑行情况进行了统计,各次骑行期间的身体综合指标评分与对应用时(单位:小时)如下表:身体综合指标评分()12345用时(/小时)108.5876.5(1)由上表数据看出,可用线性回归模型拟合与的关系,请用相关系数如以说明;(2)建立关于的回归方程.参考数据和参考公式:相关系数,,,.【答案】(1)答案见解析(2)【分析】(1)根据表格数据可分别计算出与的平均值,再代入计算可得相关系数近似为,即可知与相关程度较高;(2)根据(1)中的计算结果可得,代入计算可得,即可求得关于的回归方程.【详解】(1)由题意得,,,,,因此相关系数.即相关系数近似为,与负相关,且相关程度相当高,从而可用线性回归模型拟合与的关系;(2)由(1)中数据,得,,所以关于的回归方程为.火车晚点是人们在旅行过程中最常见的问题之一,针对这个问题,许多人都会打进行投诉.某市火车站为了解每年火车的正点率对每年顾客投诉次数(单位:次)的影响,对近8年(2015年~2022年)每年火车正点率和每年顾客投诉次数的数据作了初步处理,得到下面的一些统计量的值.60059243837.293.8(1)求关于的经验回归方程;若预计2024年火车的正点率为,试估算2024年顾客对火车站投诉的次数;(2)根据顾客对火车站投诉的次数等标准,该火车站这8年中有6年被评为“优秀”,2年为“良好”,若从这8年中随机抽取3年,记其中评价“良好”的年数为,求的分布列和数学期望.附:经验回归直线的斜率和截距的最小二乘法估计公式分别为:,【答案】(1),20次;(2)分布列见解析,.【分析】(1)应用最小二乘法求回归直线,再代入估算2024年顾客对火车站投诉的次数;(2)根据题意写出的可能取值,应用超几何概率公式求对应概率,即得分布列,进而求期望.【详解】(1)由题设,,则,所以,所以;当时,代入,得到,所以2024年顾客对该市火车站投诉的次数约为20次.(2)由题意,服从超几何分布,可取0,1,2,,,,012所以.直播带货是一种直播和电商相结合的销售手段,目前已被广大消费者所接受.针对这种现状,某公司决定逐月加大直播带货的投入,直播带货销售金额稳步提升,以下是该公司2023年前6个月的带货金额:月份123456带货金额万元25435445495416542054(1)根据统计表中的数据,计算变量与的样本相关系数,并判断两个变量与的相关程度(若,则认为相关程度较强;否则没有较强的相关程度,精确到0.01);(2)若与的相关关系拟用线性回归模型表示,试求关于的经验回归方程,并据此预测2023年10月份该公司的直播带货金额(精确到整数).附:经验回归方程,其中,样本相关系数;参考数据:.【答案】(1),与相关程度较强,且正相关;(2),预测2023年10月份该公司的直播带货金额为3443万元.【分析】(1)直接代入相关系数方程即可.(2)求出线性回归方程,再将代入计算即可.【详解】(1)由已知可得.又,所以,则样本相关系数因为样本相关系数,所以与相关程度较强,且正相关.(2)设关于的经验回归方程为,其中,,所以关于的经验回归方程为.把代入得(万元).所以预测2023年10月份该公司的直播带货金额为3443万元.为助力四川新冠疫情后的经济复苏,某电商平台为某工厂的产品开设直播带货专场.为了对该产品进行合理定价,用不同的单价在平台试销,得到如下数据:单价x(元/件)88.28.48.68.89销量y(万件)908483807568(1)根据以上数据,求y关于x的线性回归方程;(2)若该产品成本是4元/件,假设该产品全部卖出,预测把单价定为多少时,工厂获得最大利润?(参考公式:回归方程,其中,).【答案】(1)(2)单价定为8.25元时,工厂获得利润最大【分析】(1)求出,代入公式求出,得到线性回归方程;(2)设获得的利润为L万元,表达出利润关于的关系式,配方后得到最大利润.【详解】(1),.,,∴,∴,所以回归直线方程为(2)设工厂获得的利润为L万元,则,所以该产品的单价定为8.25元时,工厂获得利润最大.人工智能教育是将人工智能与传统教育相结合,借助人工智能和大数据技术打造的智能化教育生态.为了解我国人工智能教育发展状况,通过中国互联网数据平台得到我国2015年-2020年人工智能教育市场规模统计图.如图所示,若用x表示年份代码(2015年用1表示,2016年用2表示,依次类推),用y表示市场规模(单位:亿元),试回答:(1)根据条形统计图中数据,计算变量y与x的相关系数r,并用r判断两个变量y与x相关关系的强弱(精确到小数点后2位);(2)若y与x的相关关系拟用线性回归模型表示,试求y关于x的线性回归方程,并据此预测2022年中国人工智能教育市场规模(精确到1亿元).附:线性回归方程y=bx+相关系数r=i=1参考数据:i=16【答案】(1)r≈0.96,正相关很强.(2)y=382.86x-386.01,2677亿元【分析】(1)根据统计图中数据计算x,y,i=1(2)根据统计图中数据结合公式即可求出线性回归方程,将x=8代入线性回归方程即可预测2022年中国人工智能教育市场规模.【详解】(1)∵x=16i=16xi∴相关系数r=6700∵相关系数r≈0.96>0.75,∴y与x具有线性相关关系,且正相关很强.(2)设y关于x的线性回归方程为y=其中b=a=∴y关于x的线性回归方程为y=382.86x-386.01把x=8代入得y≈2677(亿元)故据此预测2022年中国人工智能教育市场规模将达到约2677亿元.网上购物就是通过互联网检索商品信息,并通过电子订购单发出购物请求,厂商通过邮购的方式发货或通过快递公司送货上门,货到后通过银行转账、微信或支付宝支付等方式在线汇款,根据2019年中国消费者信息研究,超过40%的消费者更加频繁地使用网上购物,使得网上购物和送货上门的需求量激增,越来越多的消费者也首次通过第三方APP、品牌官方网站和微信社群等平台进行购物,某天猫专营店统计了2020年8月5日至9日这5天到该专营店购物的人数yi和时间第xx12345y75849398100由表中给出的数据是否可用线性回归模型拟合人数y与时间x之间的关系?若可用,估计8月10日到该专营店购物的人数(人数用四舍五入法取整数;若|r|>0.75,则线性相关程度很高,可用线性回归模型拟合,计算r时精确到0.01).参考数据:4340≈65.88.附:相关系数r=i=1nxi【答案】可用线性回归模型拟合人数y与天数x之间的关系,8月10日到该专营店购物的人数约为109;【分析】利用题中所给数据和公式,求出相关系数r的值,由此判断变量y与x具有很强的线性相关性,再求出b和a,得线性回归方程,令x=6代入即可求解;【详解】解:由表中数据可得x=3,y=90,i=1,i=15所以r=i=1所以可用线性回归模型拟合人数y与天数x之间的关系.而b=则a=所以y=6.4x+70.8令x=6,可得y=109.2答:8月10日到该专营店购物的人数约为109.题型八残差分析已知变量x和y的统计数据如下表:x678910y3.5455.57如果由表中数据可得经验回归直线方程为,那么,当时,残差为______.(注:残差=观测值预测值)【答案】/【分析】先求出回归方程,再根据回归方程求出预测值,最后计算残差即可.【详解】,所以,所以时,,所以残差为.故答案为:.已知回归方程,而试验中的一组数据是,,,则其残差平方和是______.【答案】0.03【分析】利用残差的定义求解,求得的残差平方后求和即可.【详解】残差,当时,,当时,,当时,,残差平方和为故答案为:0.03.经验表明,树高与胸径具有线性关系,为了解回归方程的拟合效果,利用下列数据计算残差,用来绘制残差图.胸径x/cm18.219.122.324.526.2树高的观测值y/m18.919.420.822.824.8树高的预测值18.619.321.523.024.4则残差的最大值和最小值分别是(

)A.0.4,1.8 B.1.8,0.4 C.0.4,0.7 D.0.7,0.4【答案】C【分析】根据表内数据进行分析,计算各组数据残差值,找出最大及最小即可.【详解】解:由表可得,各组数据的残差为:,,,,,故残差最大值为0.4,最小值为0.7.故选:C某工厂为研究某种产品的产量x(吨)与所需某种原材料y(吨)的相关性,在生产过程中收集了对应数据如表所示:x3456y235根据表中数据,得出y关于x的经验回归方程为.据此计算出在样本处的残差为,则表中m的值为__________.【答案】/【分析】先由样本处的残差求得,再由样本中心落在回归直线上得到关于的方程,解之即可.【详解】因为回归方程为,在样本处的残差为,所以,得,故回归方程为,因为,,所以,解得,故m的值为.故答案为:.(多选)对具有相关关系的两个变量x和y进行回归分析时,经过随机抽样获得成对的样本点数据,则下列结论正确的是(

)A.若两变量x,y具有线性相关关系,则回归直线至少经过一个样本点B.若两变量x,y具有线性相关关系,则回归直线一定经过样本点中心C.若以模型拟合该组数据,为了求出回归方程,设,将其变换后得到线性方程,则a,h的估计值分别是3和6D.回归分析中常用残差平方和来刻画拟合效果好坏,残差平方和越小,拟合效果越好【答案】BCD【分析】根据回归方程的性质判断A,B,比较列方程确定a,h的估计值判断C,根据残差和的意义判断D.【详解】对于A,若两变量x,y具有线性相关关系,则所有样本点都可能不在回归直线上,A错误;对于B,若两变量x,y具有线性相关关系,则回归直线一定经过样本点中心,B正确;对于C,因为,所以,即,又,所以a,h的估计值分别是3和6,C正确;对于D,残差平方和越小,拟合效果越好,D正确;故选:BCD.题型九相关指数关于线性回归的描述,下列命题错误的是(

)A.回归直线一定经过样本点的中心 B.残差平方和越小,拟合效果越好C.决定系数越接近1,拟合效果越好 D.残差平方和越小,决定系数越小【答案】D【分析】根据线性回归的性质判断即可【详解】对A,回归直线一定经过样本点的中心正确;对B,残差平方和越小,拟合效果越好正确;对C,决定系数越接近1,拟合效果越好正确;对D,残差平方和越小,拟合效果越好,决定系数越接近1,故D错误(多选)进入21世纪以来,全球二氧化碳排放量增长迅速,自2000年至今,全球二氧化碳排放量增加了约40%,我国作为发展中国家,经济发展仍需要大量的煤炭能源消耗.下图是2016—2020年中国二氧化碳排放量的统计图表(以2016年为第1年).利用图表中数据计算可得,采用某非线性回归模型拟合时,;采用一元线性回归模型拟合时,线性回归方程为,.则下列说法正确的是(

)A.由图表可知,二氧化碳排放量y与时间x正相关B.由决定系数可以看出,线性回归模型的拟合程度更好C.利用线性回归方程计算2019年所对应的样本点的残差为0.30D.利用线性回归方程预计2025年中国二氧化碳排放量为107.24亿吨【答案】ABD【分析】根据散点图即可判断A;根据决定系数越接近于1,拟合效果越好即可判断B;求出2019年所对应的样本点的残差即可判断C;由回归方程求出当时的估计值即可判断D.【详解】解:由散点图可得二氧化碳排放量y与时间x正相关,故A正确;因为,所以线性回归模型的拟合程度更好,故B正确;当时,,而,故C错误;当时,,即利用线性回归方程预计2025年中国二氧化碳排放量为107.24亿吨,故D正确.故选:ABD.某种农作物可以生长在滩涂和盐碱地,它的灌溉是将海水稀释后进行灌溉.某实验基地为了研究海水浓度(%)对亩产量(吨)的影响,通过在试验田的种植实验,测得了该农作物的亩产量与海水浓度的数据如下表.海水浓度(%)34567亩产量(吨)0.570.530.440.360.30残差0.010.02mn0绘制散点图发现,可以用线性回归模型拟合亩产量(吨)与海水浓度(%)之间的相关关系,用最小二乘法计算得与之间的线性回归方程为.(1)求的值;(参考公式:)(2)统计学中常用相关指数来刻画回归效果,越大,回归效果越好,如假设,就说明预报变量的差异有是解释变量引起的.请计算相关指数(精确到0.01),并指出亩产量的变化多大程度上是由灌溉海水浓度引起的?附残差相关指数其中【答案】(1)0;0.01(2)0.99,亩产量的变化有是由灌溉海水浓度引起的.【分析】(1)计算代入回归方程可得,利用残差求解方法可得的值;(2)利用相关指数的公式求解出相关指数的值,结合结果可得判断.【详解】(1)因为,

所以,即,所以线性回归方程为,

所以,.

,.(2),所以相关指数.故亩产量的变化有是由灌溉海水浓度引起的.题型十求非线性回归方程:幂函数方程拟合为了加快实现我国高水平科技自立自强,某科技公司逐年加大高科技研发投入.下图1是该公司2013年至2022年的年份代码x和年研发投入y(单位:亿元)的散点图,其中年份代码1∼10分别对应年份2013∼2022.根据散点图,分别用模型①,②作为年研发投入y(单位:亿元)关于年份代码x的经验回归方程模型,并进行残差分析,得到图2所示的残差图.结合数据,计算得到如下表所示的一些统计量的值:752.2582.54.512028.35表中,.(1)根据残差图,判断模型①和模型②哪一个更适宜作为年研发投入y(单位:亿元)关于年份代码x的经验回归方程模型?并说明理由;(2)(i)根据(1)中所选模型,求出y关于x的经验回归方程;(ii)设该科技公司的年利润(单位:亿元)和年研发投入y(单位:亿元)满足(且),问该科技公司哪一年的年利润最大?附:对于一组数据,,…,,其经验回归直线的斜率和截距的最小二乘估计分别为,.【答案】(1)选择模型②更适宜,理由见解析(2)(i);(ii)该公司2028年的年利润最大【分析】(1)根据残差图确定;(2)根据最小二乘法求非线性回归方程即可求解;【详解】(1)根据图2可知,模型①的残差波动性很大,说明拟合关系较差;模型②的残差波动性很小,基本分布在0的附近,说明拟合关系很好,所以选择模型②更适宜.(2)(i)设,所以,所以,,所以关于的经验回归方程为(ii)由题设可得,当取对称轴即,即时,年利润L有最大值,故该公司2028年的年利润最大.某县依托种植特色农产品,推进产业园区建设,致富一方百姓.已知该县近年人均可支配收入如下表所示,记年为,年为,…以此类推.年份年份代号人均可支配收入(万元)(1)使用两种模型:①;②的相关指数分别约为,,请选择一个拟合效果更好的模型,并说明理由;(2)根据(1)中选择的模型,试建立关于的回归方程.(保留位小数)附:回归方程中斜率和截距的最小二乘估计公式分别为,.参考数据:,令,.【答案】(1)应选择(2)【分析】(1)根据越大,模型拟合效果越好,可确定所选模型;(2)令,利用最小二乘法可求得,进而得到回归方程.【详解】(1),根据统计学知识可知:越大,模型拟合效果越好,应选择模型.(2)令,,,,又,,,关于的回归方程为.为帮助乡村脱贫,某勘探队计划了解当地矿脉某金属的分布情况,测得了平均金属含量y(单位:gm3)与样本对原点的距离x(单位:m)的数据,并作了初步处理,得到了下面的一些统计理的值.(表中uixyui=1i=1i=1i=1i=1697.900.21600.1414.1226.13-1.40(1)利用样本相关系数的知识,判断y=a+bx与y=c+dx哪一个更适宜作为平均金属含量y关于样本对原点的距离(2)根据(1)的结果回答下列问题:①建立y关于x的回归方程;②样本对原点的距离x=20时,金属含量的预报值是多少?附:对于一组数据t1,s1,t2,s【答案】(1)y=c+d(2)①y=100-10x;【分析】(1)分别求出y=a+bx与y=c+dx所对应的线性相关系数r(2)根据数据和公式即可求得y关于x的回归方程,根据回归方程代入x=20,即可求出金属含量的预报值.【详解】(1)由题y=a+bx的线性相关系数r1y=c+dx的线性相关系数因为r1r2所以y=c+dx更适宜作为平均金属含量y关于样本对原点的距离x(2)①由(1)y=c+dx,令ui则y=d所以d=i=1n则y=100-10u=100-10即y=100-10②当x=20时,金属含量的预报值y=100-数独是源自18世纪瑞士的一种数学游戏,玩家需要根据9×9盘面上的已知数字,推理出所有剩余空格的数字,并满足每一行、每一列、每一个粗线宫(3×3)内的数字均含1~9,且不重复.数独爱好者小明打算报名参加“丝路杯”全国数独大赛初级组的比赛.参考数据t=1i=1ti=117500.370.55参考公式:对于一组数据(u1,v1),(1)赛前小明进行了一段时间的训练,每天解题的平均速度y(秒/题)与训练天数x(天)有关,经统计得到如下数据:x(天)1234567y(秒/题)910800600440300240210现用y=a+bx作为回归方程模型,请利用表中数据,求出该回归方程;((2)小明和小红玩“对战赛”,每局两人同时开始解一道数独题,先解出题的人获胜,不存在平局,两人约定先胜3局者赢得比赛.若小明每局获胜的概率为23,且各局之间相互独立,设比赛X局后结束,求随机变量X【答案】(1)y=(2)分布列见解析,均值107【分析】(1)由y=a+bx,ti=(2)根据随机变量X的可能取值逐一分析,当X=3时,小明连胜3局或小红连胜3局;当X=4时,小明前3局胜2局最后一局胜或小红前3局胜2局最后一局胜;当X=5时,小明前4局胜2局最后一局胜或小红前4局胜2局最后一局胜;分别求出每个取值的概率.最后代入期望公式计算即可.【详解】(1)解:因为y=a+因为y=所以b=所以a=所以y=所以所求回归方程为y=(2)解:随机变量X的所有可能取值为3,4,5,P(P(P(所以随机变量X的分布列为X345P1108E(在正常生产条件下,根据经验,可以认为化肥的有效利用率近似服从正态分布N(0.54,0.022(1)假设生产条件正常,记X表示化肥的有效利用率,求P(X≥0.56);(2)课题组为研究每亩化肥施用量与某农作物亩产量之间的关系,收集了10组数据,并对这些数据作了初步处理,得到了如图所示的散点图及一些统计量的值.其中每亩化肥施用量为x(单位:公斤),粮食亩产量为y(单位:百公斤)参考数据:i=1i=1i=1i=1i=1i=1i=1i=165091.552.51478.630.5151546.5ti=lnxi,zi=lny(i)根据散点图判断,y=a+bx与y=cxd,哪一个适宜作为该农作物亩产量y关于每亩化肥施用量(ii)根据(i)的判断结果及表中数据,建立y关于x的回归方程;并预测每亩化肥施用量为27公斤时,粮食亩产量y的值.(附:①对于一组数据(ui,vi)(i=1,2,3,…,n),其回归直线②若随机变量X∼N(μ,σ2),则P(μ-σ<X<μ+σ)≈0.6827【答案】(1)0.15865(2)(i)y=cxd适宜作为粮食亩产量y关于每亩化肥施用量x的回归方程;(ii)y=e【分析】(1)根据正态分布曲线的对称性,结合P(X>0.56)=1-P(μ-σ<X<μ+σ)(2)(i)由散点图可知y与x的关系不是线性关系,即可得到答案;(ii)由y=cxd,得到lny=dlnx+lnc,令【详解】(1)解:由X∼N0.54,可得P(X>0.56)=1-P(0.54-0.02<X<0.54+0.02)(2)解:(i)由散点图可知y与x的关系不是线性关系,所以y=cxd适宜作为粮食亩产量y关于每亩化肥施用量(ii)因为y=cxd,所以lny=dlnx+由表可得t=1.5,z=1.5所以lnc=z-dt=1.5-当

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论