专题25概率与统计(回归分析独立性检验)(新高考地区专用)_第1页
专题25概率与统计(回归分析独立性检验)(新高考地区专用)_第2页
专题25概率与统计(回归分析独立性检验)(新高考地区专用)_第3页
专题25概率与统计(回归分析独立性检验)(新高考地区专用)_第4页
专题25概率与统计(回归分析独立性检验)(新高考地区专用)_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

专题2.5概率与统计(回归分析、独立性检验)1.有关独立性检验的问题,分析如下:(1)利用频率估计概率;(2)根据题意,求得的值,对照临界值得结果.2.对于非线性回归方程及其应用,考查将非线性回归问题转化为线性回归问题求解,在解题的过程中,要注重回归方程的公式的正确计算,注意所给数据的正确应用.1.(2023·辽宁朝阳·校联考一模)秋天的第一杯奶茶是一个网络词汇,最早出自四川达州一位当地民警之口,民警用“秋天的第一杯奶茶”顺利救下一名女孩,由此而火爆全网.后来很多人开始在秋天里买一杯奶茶送给自己在意的人.某奶茶店主记录了入秋后前7天每天售出的奶茶数量(单位:杯)如下:日期第一天第二天第三天第四天第五天第六天第七天日期代码x1234567杯数y4152226293132(1)请根据以上数据,绘制散点图,并根据散点图判断,y=a+bx与y=c+dlnx哪一个更适宜作为y关于(2)建立y关于x的回归方程(结果保留1位小数),并根据建立的回归方程,试预测要到哪一天售出的奶茶才能超过35杯?(3)若每天售出至少25杯即可盈利,则从第一天至第七天中任选三天,记随机变量X表示盈利的天数,求随机变量X的分布列.参考公式和数据:其中u回归直线方程y=byui=1i=1i=1e22.71.2759235.113.28.2【解题思路】(1)根据散点图趋势即可判断;(2)利用非线性回归方程转化为线性回归方程的方法求解;(3)根据超几何分布求分布列.【解答过程】(1)根据散点图,知y=c+dlnx更适宜作为y关于(2)令u=lnx,则由已知数据得d=c=所以y=5.7+14.2u故y关于x的回归方程为yˆ进而由题意知,令5.7+14.2lnx>35,整理得lnx>2.1故当x=9时,即到第9天才能超过35杯;(3)由题意知,这7天中销售超过25杯的有4天,则随机变量X的可能取值为0,1,2,3PX=0=CPX=2=C则随机变量X的分布列为X0123P1121842.(2023·四川成都·校考二模)2022年12月2日晚,神舟十四号、神舟十五号航天员乘组进行在轨交接仪式,两个乘组移交了中国空间站的钥匙,6名航天员分别在确认书上签字,中国空间站正式开启长期有人驻留模式.为调查大学生对中国航天事业的了解情况,某大学进行了一次抽样调查,若被调查的男女生人数均为20nn∈男生女生合计了解10n不了解5n合计(1)求n的值.(2)现采用分层抽样的方法在调查结果“了解中国航天事业”的学生中抽取5人,再从这5人中抽取3人进行第二次调查,以便了解学生获得中国航天事业信息的渠道,则至少有2名男生被第二次调查的概率.附表:P(0.100.050.0250.010.001k2.7063.8415.0246.63510.828K【解题思路】(1)根据已知完成列联表,结合K2(2)根据分层抽样的比例比,结合概率加法公式进行求解即可.【解答过程】(1)由已知,完成列联表,男生女生合计了解15n10n25n不了解5n10n15n合计20n20n40n将数值代入公式可得K2的观测值:K所以5.024≤8n3<6.635,解得1.884≤n<2.488,因为n∈(2)由上可知了解中国航天事业的男生、女生人数分别为30、20,所以根据分层抽样的性质可知:5名学生中男生人数为5×30女生人数为5×20设事件A:至少有2名男生被第二次调查,PA3.(2023·四川南充·统考二模)某甜品屋店庆当天为酬谢顾客,当天顾客每消费满一百元获得一次抽奖机会,奖品分别为价值5元,10元,15元的甜品一份,每次抽奖,抽到价值为5元,10元,15元的甜品的概率分别为12(1)若某人当天共获得两次抽奖机会,设这两次抽奖所获甜品价值之和为X元,求X的分布列与期望.(2)某大学“爱牙协会”为了解“爱吃甜食”与青少年“蛀牙”情况之间的关系,随机对200名青少年展开了调查,得知这200个人中共有120个人“有蛀牙”,其中“不爱吃甜食”且“有蛀牙”的有30人,“不爱吃甜食”且“无蛀牙”的有50人.有2×2列联表:有蛀牙无蛀牙合计爱吃甜食不爱吃甜食合计完成上面的列联表,根据独立性检验,能否有99.5%的把握认为“爱吃甜食”与青少年“蛀牙”有关?附:K2=nP0.050.010.005k3.8416.6357.879【解题思路】(1)由题意可得X的所有可能取值为10,15,20,25,30,分别求出对应的概率,即可得X的分布列,再求出数学期望;(2)由已知填充列联表,根据公式计算出K2【解答过程】(1)由题意,X的所有可能取值为10,15,20,25,30,PX=10=1PX=20=2×1PX=30则X的分布列为X1015202530P11511故EX(2)由题意可得列联表如下:有蛀牙无蛀牙合计爱吃甜食9030120不爱吃甜食305080合计12080200所有K2所以有99.5%的把握认为“爱吃甜食”与青少年“蛀牙”有关.4.(2023·宁夏石嘴山·校考一模)2022年卡塔尔世界杯足球赛于11月21日至12月18日在卡塔尔境内举办,这是第二十二届世界杯足球赛,是历史上首次在卡塔尔和中东国家境内举行,也是继2002年韩日世界杯之后时隔二十年第二次在亚洲举行的世界杯足球赛,备受瞩目,一时间掀起了国内外的足球热潮.某机构为了了解喜爱足球运动是否与性别有关,随机抽取了男性和女性各120名观众进行调查,统计数据如下:喜爱足球运动不喜爱足球运动男性8040女性6060(1)根据上表说明,能否在犯错误概率不超过0.01的前提下认为喜爱足球运动与性别有关?(2)现从参与调查且喜爱足球运动的观众中,采用按性别分层抽样的方法,选取7人进行有奖竞答.①求男、女性观众各选取多少人?②若从这7人中随机抽取4人进行本届世界杯赛事集锦分享,求抽到男生人数X的分布列和数学期望EX附:χ2=nα0.100.050.0250.0100.0050.001x2.7063.8415.0246.6357.87910.828【解题思路】(1)根据表中数据计算χ2(2)①根据已知条件及分层抽样的定义即可求解;②根据①的结论及已知条件,求出随机变量的取值,利用古典概型的概率公式求出随机变量对应取值的概率,写出随机变量的分布列,再利用随机变量的期望公式即可求解.【解答过程】(1)由题意可知,χ2所以能在犯错误概率不超过0.01的前提下认为喜爱足球运动与性别有关.(2)①根据分层抽样的原理,可知男生观众选取80140×7=4人,女生观众选取所以男、女性观众各选取4,3人.②随机变量X的可能取值为1,2,3,4,则PX=1PX=2PX=3PX=4所以X的分布列如下表X1234P418121所以EX5.(2023·吉林长春·校联考一模)某学校号召学生参加“每天锻炼1小时”活动,为了了解学生参与活动的情况,随机调查了100名学生一个月(30天)完成锻炼活动的天数,制成如下频数分布表:天数[0,5](5,10](10,15](15,20](20,25](25,30]人数4153331116(1)由频数分布表可以认为,学生参加体育锻炼天数X近似服从正态分布Nμ,σ2,其中μ(2)调查数据表明,参加“每天锻炼1小时”活动的天数在(15,30]的学生中有30名男生,天数在[0,15]的学生中有20名男生,学校对当月参加“每天锻炼1小时”活动超过15天的学生授予“运动达人”称号.请填写下面列联表:性别活动天数合计[0,15](15,30]男生女生合计并依据小概率值α=0.05的独立性检验,能否认为学生性别与获得“运动达人”称号有关联.如果结论是有关联,请解释它们之间如何相互影响.附:参考数据:Pμ−σ≤X≤μ+σ=0.6827;Pμ−2σ≤X≤μ+2σ=0.9545α0.10.050.010.0050.001x2.7063.8416.6357.87910.828【解题思路】(1)利用频数分布表,求得样本的平均数,从而写出X近似服从正态分布X−N(14.9,6.1),利用参考数据求得参加“每天锻炼1小时”活动超过21天的人数;(2)根据频数分布表和已知条件,完善列联表,根据独立性检验的公式,求出学生性别与获得“运动达人”称号是否有关联和它们之间如何相互影响.【解答过程】(1)由频数分布表知μ=4×2.5+15×7.5+33×12.5+31×17.5+11×22.5+6×27.5100=14.9,则X−N(14.9,6.1)∴P(X>21)=P(X>14.9+6.1)=1−0.6827∴3000×0.15865=475.95≈476,∴参加“每天锻炼1小时”活动超过21天的人数约为476人.(2)由频数分布表知,锻炼活动的天数在[0,15]的人数为:4+15+33=52,∵参加“每天锻炼1小时”活动的天数在[0,15]的学生中有20名男生,∴参加“每天锻炼1小时”活动的天数在[0,15]的学生中有女生人数:52−20=32由频数分布表知,锻炼活动的天数在(15,30]的人数为31+11+6=48,∵参加“每天锻炼1小时”活动的天数在(15,30]的学生中有30名男生,∴参加“每天锻炼1小时”活动的天数在[0,15]的学生中有女生人数:48−30=18列联表如下:性别活动天数合计[0,15](15,30]男生203050女生321850合计5248100零假设为H0χ依据α=0.05的独立性检验,我们推断H0而且此推断犯错误的概率不大于0.05,根据列联表中的数据得到,男生、女生中活动天数超过15天的频率分别为:3050=0.6和18506.(2023·内蒙古包头·一模)新型冠状病毒疫情已经严重影响了我们正常的学习、工作和生活.某市为了遏制病毒的传播,利用各种宣传工具向市民宣传防治病毒传播的科学知识.某校为了解学生对新型冠状病毒的防护认识,对该校学生开展防疫知识有奖竞赛活动,并从女生和男生中各随机抽取30人,统计答题成绩分别制成如下频数分布表和频率分布直方图.规定:成绩在80分及以上的同学成为“防疫标兵”.30名女生成绩频数分布表:成绩60,7070,8080,9090,100频数101064(1)根据以上数据,完成以下2×2列联表,并判断是否有95%的把握认为“防疫标兵”与性别有关;男生女生合计防疫标兵非防疫标兵合计(2)设男生和女生样本平均数分别为x和y,样本的中位数分别为x0和y0,求附:KP0.1000.0500.0250.0100.0050.001k2.7063.8415.0246.6357.87910.828【解题思路】(1)利用频率分布直方图及频数分布表完善2×2列联表,再计算K2(2)利用频率分布直方图、频数分布表求出平均数、中位数作答.【解答过程】(1)由频率分布直方图,可得30名男生中成绩大于等于80分的频率为(0.035+0.025)×10=0.6,因此30名男生中“防疫标兵”人数为30×0.6=18人,“非防疫标兵”人数为12人,由频数分布表,可得30名女生中“防疫标兵”人数为10人,“非防疫标兵”人数为20人,于是2×2列联表为:男生女生合计防疫标兵181028非防疫标兵122032合计303060则K2的观测值为K所以有95%的把握认为“防疫标兵”与性别有关.(2)由频率分布直方图知,x=65×0.1+75×0.3+85×0.35+95×0.25=82.5由频数分布表知,y=65×由频率分布直方图知,成绩在[60,80)的频率为0.40,成绩在[60,90)的频率为0.75,因此x0则由0.1+0.3+x0−80由频数分布表知,成绩在[60,70)的频率为13,成绩在[60,80)的频率为23,因此则由13+y所以x=82.5,y≈76.33,x07.(2023·河南·校联考模拟预测)基础学科招生改革试点,也称强基计划,强基计划是教育部开展的招生改革工作,主要是为了选拔培养有志于服务国家重大战略需求且综合素质优秀或基础学科拔尖的学生.聚焦高端芯片与软件、智能科技、新材料、先进制造和国家安全等关键领域以及国家人才紧缺的人文社会科学领域.某校在一次强基计划模拟考试后,从全体考生中随机抽取52名,获取他们本次考试的数学成绩(x)和物理成绩(y),绘制成如图散点图:根据散点图可以看出y与x之间有线性相关关系,但图中有两个异常点A,B.经调查得知,A考生由于重感冒导致物理考试发挥失常,B考生因故未能参加物理考试.为了使分析结果更科学准确,剔除这两组数据后,对剩下的数据作处理,得到一些统计的值:i=150xi=5800,i=150yi=3900,i=150xiyi=462770,(1)若不剔除A,B两名考生的数据,用52组数据作回归分析,设此时y与x的相关系数为r0.试判断r0与(2)求y关于x的线性回归方程(系数精确到0.01),并估计如果B考生加了这次物理考试(已知B考生的数学成绩为125分),物理成绩是多少?(精确到0.1)附:线性回归方程y=a+【解题思路】(1)根据已知条件,结合散点图,即可求解.(2)根据已知条件,结合最小二乘法,以及线性回归方程的公式,求出线性回归方程,再将x=125代入,即可求解.【解答过程】(1)r理由如下:由图可知,y与x成正相关关系,①异常点A,B会降低变量之间的线性相关程度,②52个数据点与其回归直线的总偏差更大,回归效果更差,所以相关系数更小,③50个数据点与其回归直线的总偏差更小,回归效果更好,所以相关系数更大,④50个数据点更贴近其回归直线l,⑤52个数据点与其回归直线更离散.(2)由题中数据可得:x=所以i=150xia=所以y=0.36x+36.24将x=125代入,得y=0.36×125+36.24=81.24≈81.2,所以估计B考生的物理成绩约为81.2分.8.(2023·河南·校考模拟预测)造林绿化对生态发展特别是在防风固沙、缓解温室效应、净化空气、涵养水源等方面有着重要意义.某苗木培养基地为了对某种树苗的高度偏差x(单位:cm)与树干最大直径偏差y(单位:mm)之间的关系进行分析,随机挑选了8株该品种的树苗,得到它们的偏差数据(偏差是指个别测定值与测定的平均值之差)如下:树苗序号12345678高度偏差x20151332−5−10−18直径偏差y6.53.53.51.50.5−0.5−2.5−3.5(1)若x与y之间具有线性相关关系,求y关于x的线性回归方程;(2)若这种树苗的平均高度为120cm,树干最大直径平均为31.5mm,试由(1)的结论预测高度为128cm的这种树苗的树干最大直径为多少毫米.参考数据:i=18xi参考公式:回归直线方程y=a+bx【解题思路】(1)根据最小二乘法公式求出b,(2)利用回归直线方程代入x=128−120,求解即可.【解答过程】(1)x=y=b=i=1n故y关于x的线性回归方程为y=(2)当树干高度为128cm时,高度偏差x=128−120=8(cm),y=所以树干直径约为2.5+31.5=34(mm)即预测高度为128cm的这种树苗的树干最大直径为34毫米.9.(2023·全国·模拟预测)为了研究某种细菌随天数x变化的繁殖个数y,收集数据如下:天数x123456繁殖个数y612254995190(1)在图中作出繁殖个数y关于天数x变化的散点图,并由散点图判断y=bx+a(a,b为常数)与y=c1ec2x(c1,c2为常数,且(2)对于非线性回归方程y=c1ec2x(c1,c2为常数,且c1xyzi=1i=1i=13.5062.833.5317.50596.5712.9①证明:“对于非线性回归方程y=c1ec2x,令z=lny,可以得到繁殖个数的对数z关于天数x具有②根据(1)的判断结果及表中数据,建立y关于x的回归方程(系数保留2位小数).附:对于一组数据u1,v1,u2,v2,…,【解题思路】(1)根据散点图,结合一次函数和指数型函数图象的特征进行判断即可;(2)①根据对数与指数的互化公式进行求解即可;②利用题中所给的数据和公式进行求解即可.【解答过程】(1)作出散点图如图所示.由散点图看出样本点分布在一条指数型曲线的周围,故选择y=c(2)①由已知,z=lny,则则α=lnc1,β=c2,即z=βx+α②由①知繁殖个数的对数z关于天数x可以用线性回归方程来拟合.由表中数据可得β=α=则z关于x的线性回归方程为z=0.69x+1.12又z=ln因此细菌的繁殖个数y关于天数x的非线性回归方程为y=10.(2023·辽宁抚顺·统考模拟预测)学校为提升高一年级学生自主体育锻炼的意识,拟称每周自主进行体育锻炼的时间不低于6小时的同学称为“体育迷”并予以奖励,为了确定奖励方案,先对学生自主体育锻炼的情况进行抽样调查,学校从高一年级随机抽取100名学生,将他们分为男生组、女姓组,对每周自主体育锻炼的时间分段进行统计(单位:小时)第一段0,2,第二段2,4,第三段4,6,第四段6,8,第五段8,10.将男生在各段的频率及女生在各段的频数用折线图表示如下:(1)求折线图中m的值,并估计该校高一年级学生中“体育迷”所占的比例;(2)填写下列2×2列联表,并判断是否有95%的把握认为是否为“体育迷”与学生的性别有关?体育迷非体育迷合计男女合计附:KP0.0500.0100.001K3.8416.63510.828(3)若中学生每周自主体育锻炼的时间不低于5小时,才能保持身体的良好健康发展,试估计该校高一年级学生的周平均锻炼时间是否达到保持身体良好健康发展的水平?(同一段中的数据用该组区间的中点值代表)【解题思路】(1)由折线图的性质可求m,由频数统计图求女生人数,再求男生人数,和男生和女生中的体育迷的人数,由此可求该校高一年级学生中“体育迷”所占的比例;(2)由已知数据填写列联表,由公式求K2(3)由已知数据求该校高一年级学生的周平均锻炼时间的估计值,由此确定结论.【解答过程】(1)由频率折线图可得m=1−0.04−0.20−0.24−0.16=0.36由频数折线图可知女生共有1+4+5+12+3=25人,其中“体育迷”有12+3=15人,故男生共有100−25=75人,其中“体育迷”有75×(0.24+0.16)=30人.因此估计该校高一学生中“体育迷”所占比例约为15+30100(2)体育迷非体育迷合计男304575女151025合计4555100因为K2=100故没有95%的把握认为是否为“体育迷”与性别有关.(3)由频率折线图可知男生的锻炼时间在每组的频数分别为75×0.04=3,75×0.20=15,75×0.36=27,75×0.24=18,75×0.16=12;故这100名学生每周的锻炼时间在每组的频率分别为(1+3)÷100=0.04,(4+15)÷100=0.19,(5+27)÷100=0.32,(12+18)÷100=0.30,(3+12)÷100=0.15.所以估计该校高一年级学生的周平均锻炼时间为:1×0.04+3×0.19+5×0.32+7×0.30+9×0.15=5.66.因为5.66>5,所以估计该校高一年级学生的周平均锻炼时间达到了保持身体良好健康发展的水平.11.(2023·陕西咸阳·统考二模)2021年,党中央、国务院印发了《关于进一步减轻义务教育阶段学生作业负担和校外培训负担的意见》,也就是我们现在所称的“双减”政策.某地为了检测双减的落实情况,从某高中选了6名同学,检测课外学习时长(单位:分钟),相关数据如下表所示.学生序号123456学习时长/分220180210220200230(1)若从被抽中的6名同学中随机抽出2名,则抽出的2名同学课外学习时长都不小于210分钟的概率;(2)下表是某班统计了本班同学2022年17月份的人均月课外劳动时间(单位:小时),并建立了人均月课外劳动时间y关于月份x的线性回归方程y=bx+4,y月份x1234567人均月劳动时间y89m12n1922由于某些原因导致部分数据丢失,但已知i=17(i)求m,n的值;(ii)求该班6月份人均月劳动时间数据的残差值(残差即样本数据与预测值之差).附:y=bx+a,【解题思路】(1)根据古典概型运算公式,结合列举法进行求解即可;(2)(i)根据题中所给的公式进行求解即可;(ii)利用代入法,结合残差的定义进行求解即可.【解答过程】(1)用x,y表示从被抽中的6名同学中随机抽出2名同学的序号分别为x和y,则基本事件有1,2,1,3,1,4,1,5,1,6,2,3,2,4,2,5,2,6,3,4,3,5,3,6,4,5,4,6,5,6,共15个,将“抽出的2名同学的课外学习时长都不小于210分钟”记为事件,由已知,序号为1,3,4,6的同学课外学习时长都不小于210分钟,∴事件A中基本事件有1,3,1,4,1,6,3,4,3,6,4,6,共6个,∴PA(2)(i)由表知x=y=∴i=17∴b=i=17∵回归直线恒过样本点的中心x,y,∴70+m+n7由①②,得b=177∵i=17xi由③④,得m=10,n=16.(ii)∵线性回归方程为y=∴当x=6时,预测值y=17712.(2023·辽宁·校联考一模)一所中学组织学生对某线下某实体店2022年部分月份的月利润情况进行调查统计,得到的数据如下:月份x24681012净利润y(万元)0.92.04.23.95.25.1λ=0.71.41.82.12.32.5μ=1.42.02.42.83.23.5根据散点图,准备用①y=alnx+b或②y=cx+d建立(1)用线性相关系数说明上面的两种模型哪种适宜作为y关于x的回归方程?(2)由参考数据,根据(1)的判断结果,求y关于x的回归方程(精确到0.1).附:对于一组数据ui,vi(i=1,2,3,⋯,n),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为β=参考数据:x=7,y=3.55,λ=1.80,μi=16μi−μi=16yi【解题思路】(1)计算相关系数比较大小即可确定更适宜的模型;(2)利用最小二乘法相关公式即可求解.【解答过程】(1)由题意y=aλ+b的线性相关系数的相关系数r1y=cx+d的相关系数所以1>r(2)根据(1)的判断结果,计算a与b由参考数据a=i=16所以b=y于是y关于x的回归方程①为y=2.5ln13.(2023·四川遂宁·校考模拟预测)某高校共有学生15000人,其中男生10500人,女生4500人.为了调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间(单位:小时)的样本数据.(1)应收集多少位女生的样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图),其中样本数据的分组区间为0,2,(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请给出每周平均体育运动时间与性别的列联表,并判断是否认为“该校学生的每周平均体育运动时间与性别有关”.附:P0.1000.0500.0100.005k2.7063.8416.6357.879参考公式:K2=n【解题思路】(1)利用分层抽样的定义即可求解;(2)利用频率分布直方图中,所有小长方形的面积之和等于1及频率等于(频率/组距)乘以组距即可求解;(3)根据已知条件求出列联表,然后计算K2【解答过程】(1)由分层抽样,得300×4500所以应收集90位女生的样本数据.(2)由频率分布直方图可得,学生每周平均体育运动时间超过4小时的频率为1−2×0.100+0.025所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.(3)由(2)可知,300位学生中有300×0.75=225(人)的每周平均体育运动时间超过4小时,则有300−225=75(人)的每周平均体育运动时间不超过4小时.又样本数据中有90份是关于女生的,210份是关于男生的,所以每周平均体育运动时间与性别列联表如下:男生女生总计每周平均体育运动时间不超过4小时453075每周平均体育运动时间超过4小时16560225总计21090300结合列联表可算得,K2的观测值k=所以有95%14.(2023·全国·模拟预测)第五届中国国际进口博览会(以下简称进博会)于2022年11月5日至10日在国家会展中心(上海)举办.本届进博会共有284家世界500强和行业龙头企业参展,数量超过上届,其中至少参展过两届及以上进博会的企业占比约为90%.本届进博会首次运用虚拟现实、三维建模等新技术手段,引入了全新的线上展示技术,为参观者带来不同以往的观展体验.活动结束后,进博会组委会从参观者中随机抽取100人(其中年龄在50周岁及以下的有60人)了解他们对全新的线上展示活动的满意度,并按年龄(50周岁及以下和50周岁以上)分类统计得到如下不完整的2×2列联表:不满意满意总计50周岁及以下5550周岁以上15总计100(1)根据统计数据完成以上2×2列联表,并根据小概率值α=0.001的独立性检验,能否认为对全新的线上展示活动是否满意与年龄有关联?(2)从本届参展的284家世界500强和行业龙头企业中随机抽取3家了解他们对组委会的组织工作的满意度,设其中至少参展过两届及以上进博会的企业的个数为X,若以本届参展的世界500强和行业龙头企业中至少参展过两届及以上进博会的企业的频率为概率.①求X的分布列和数学期望;②求PX−1参考公式及数据:χ2=nα0.1000.0500.0100.001x2.7063.8416.63510.828【解题思路】(1)根据题意中的数据完成列联表,利用卡方公式计算,结合题意表格中的参照数据和独立性检验的思想即可下结论;(2)由题意可得X∼B3,0.9,利用二项分布求概率公式求出PX=0,PX=1,PX=2,【解答过程】(1)由题意,抽取的100名参观者中年龄在50周岁及以下的有60人,则年龄在50周岁以上的有40人,所以50周岁及以下不满意的有5人,50周岁以上满意的有25人,补全的2×2列联表如下:不满意满意总计50周岁及以下5556050周岁以上152540总计2080100χ2所以认为对全新的线上展示活动是否满意与年龄有关联.(2)①由题意可得,一家参展企业至少参展过两届及以上进博会的概率为0.9,则X∼B3,0.9,X则PX=0=CPX=2=C所以X的分布列为X0123P0.0010.0270.2430.729数学期望EX②PX−115.(2023·福建厦门·统考二模)移动物联网广泛应用于生产制造、公共服务、个人消费等领域.截至2022年底,我国移动物联网连接数达18.45亿户,成为全球主要经济体中首个实现“物超人”的国家.右图是20182022年移动物联网连接数W与年份代码t的散点图,其中年份20182022对应的t分别为1~5.(1)根据散点图推断两个变量是否线性相关.计算样本相关系数(精确到0.01),并推断它们的相关程度;(2)(i)假设变量x与变量Y的n对观测数据为(x1,y1),(x2,y2),…,(xn,yn),两个变量满足一元线性回归模型

Y=bx+eE(e)=0,D(e)=σ2(随机误差ei=yi(ii)令变量x=t−t,y=w−w,则变量x与变量Y满足一元线性回归模型Y=bx+eE(e)=0,D(e)=σ附:样本相关系数r=i=1nti−t(w【解题思路】(1)根据相关系数计算,若r>0两个变量正相关,若r<0两个变量负相关,r越接近于1说明线性相关越强.(2)(i)整理得Q=b2i=1(ii)根据b计算公式求得经验回归方程,并代入t=7可预测2024年移动物联网连接数.【解答过程】(1)由散点图可以看出样本点都集中在一条直线附近,由此推断两个变量线性相关.因为t=所以i=15所以r=i=1所以这两个变量正线性相关,且相关程度很强.(2)(i)Q==b要使Q取得最小值,当且仅当b=(ii)由(i)知b=i=15所以y关于x的经验回归方程y=2.72x,又w=所以当t=7时,则x=7−3=4,w=y+w所以预测2024年移动物联网连接数23.04亿户.16.(2023·山西·统考模拟预测)某农科所对冬季大棚内的昼夜温差与某反季节大豆新品种发芽率之间的关系进行分析研究,记录了2023年1月1日至1月12日大棚内的昼夜温差与每天每100颗种子的发芽数,得到如下资料:日期1日2日3日4日5日6日7日8日9日10日11日12日温差x/℃101113128109111310129发芽数y/颗212428281522172230182718i=112xi=128;i=1已知发芽数y与温差x之间线性相关,该农科所确定的研究方案是:先从这12组数据中选取2组,用剩下的10组数据求线性回归方程,再用被选取的2组数据进行检验.(1)求选取的2组数据恰好是相邻2天的数据的概率;(2)若选取的是1日与6日的两组数据,试根据除这两日之外的其他数据,求出y关于x的线性回归方程y=(3)若由线性回归方程得到的估计数据与所选取的检验数据的误差均不超过2颗,则认为求得的线性回归方程是可靠的,试问:(2)中所得的线性回归方程是否可靠.参考公式:回归方程y=bx+a中斜率和截距的最小二乘估计公式分别为【解题思路】(1)利用组合及组合数公式,结合古典概型的概率的计算公式即可求解;(2)根据已知条件及参考数据,求出b,(3)利用(2)的回归方程求出x=10时的预报值,结合已知条件即可求解.【解答过程】(1)从12组数据中任选2组,选法数为C12选取的2组数据恰好是相邻的2天,选法数为11;所以所求概率为P=11(2)设剩下的10组数据分别为u1i=110u=110i=110ui所以b所以a=所以所求回归方程为y=3x−10(3)当x=10时,y=3×10−10=20因为21−20=1<2;22−20=2,所以根据所给的研究方案,可以判断(2)中所得的线性回归方程是可靠的.17.(2023·浙江·校联考三模)大坝是一座具有灌溉、防洪、发电、航运、养殖和游览等综合效益的大型水利枢纽工程.为预测渗压值和控制库水位,工程师在水库选取一支编号为BS3的渗压计,随机收集10个该渗压计管内水位和水库水位监测数据:样本号i12345678910总和水库水位x75.6975.7475.7775.7875.8175.8575.6775.8775.975.93758.01BS3渗压计管内水位y72.8872.9072.9272.9272.9372.9472.9472.9572.9672.98729.32并计算得i=110xi2=57457.98(1)估计该水库中BS3号渗压计管内平均水位与水库的平均水位;(2)求该水库BS3号渗压计管内水位与水库水位的样本相关系数(精确到0.01);(3)某天雨后工程师测量了水库水位,并得到水库的水位为76m.利用以上数据给出此时BS3附:相关系数r=i=1nxi−xy【解题思路】(1)根据平均数的计算方法直接求解即可;(2)根据表格数据计算得到相关系数公式中的各个数据,代入公式即可;(3)由最小二乘法可求得经验回归方程,代入x=76即可求得预估值.【解答过程】(1)水库的平均水位x=BS3号渗压计管内平均水位y=(2)i=110同理可得:i=110i=110∴r=i=1n(3)∵b=i=1∴BS3号渗压计管内水位关于水库水位的经验回归方程为y=0.23x+55.5当x=76时,预测值y=0.23×76+55.5=72.98即水库的水位为76m时,BS3号渗压计管内水位的估计值为72.9818.(2023·福建漳州·统考三模)2022年11月17日,由工业和信息化部、安徽省人民政府共同主办的第十七届“中国芯”集成电路产业大会在合肥成功举办.此次大会以“强芯固基以质为本”为主题,旨在培育壮大我国集成电路产业,夯实产业基础、营造良好产业生态.2022年,全国芯片研发单位相比2006年增加194家,提交芯片数量增加299个,均增长超过6倍.某芯片研发单位用在“A芯片”上研发费用占本单位总研发费用的百分比y(%)如表所示.年份2016201720182019202020212022年份代码1234567y20303239424650(1)根据表中的数据,作出相应的折线图;并结合相关数据,计算相关系数r,并推断y与t线性相关程度;(已知:0.8≤r≤1,则认为y与t线性相关很强;0.3≤r<0.8,则认为y与t线性相关一般;r<0.3(2)求出y与t的回归直线方程(保留一位小数);(3)请判断,若2024年用在“A芯片”上研发费用不低于295万元,则该单位2024年芯片研发的总费用预算为500万元是否符合研发要求?附:相关数据:i=17yi=259,7≈2.65相关计算公式:①相关系数r=i=1在回归直线方程y=bx+a中,【解题思路】(1)根据表格数据可绘制折线图,结合公式可求得相关系数r,对比已知线性相关强度判断依据即可得到结论;(2)采

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论