9.2成对数据的统计分析(精讲)(原卷版)_第1页
9.2成对数据的统计分析(精讲)(原卷版)_第2页
9.2成对数据的统计分析(精讲)(原卷版)_第3页
9.2成对数据的统计分析(精讲)(原卷版)_第4页
9.2成对数据的统计分析(精讲)(原卷版)_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

9.2成对数据的统计分析【题型解读】【知识必备】1.变量的相关关系(1)相关关系:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.(2)相关关系的分类:正相关和负相关.(3)线性相关:一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们称这两个变量线性相关.2.样本相关系数(1)r=eq\f(\i\su(i=1,n,)xi-\x\to(x)yi-\x\to(y),\r(\i\su(i=1,n,)xi-\x\to(x)2)\r(\i\su(i=1,n,)yi-\x\to(y)2)).(2)当r>0时,称成对样本数据正相关;当r<0时,称成对样本数据负相关.(3)|r|≤1;当|r|越接近1时,成对样本数据的线性相关程度越强;当|r|越接近0时,成对样本数据的线性相关程度越弱.3.一元线性回归模型(1)我们将eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))x+eq\o(a,\s\up6(^))称为Y关于x的经验回归方程,其中eq\b\lc\{\rc\(\a\vs4\al\co1(\o(b,\s\up6(^))=\f(\i\su(i=1,n,)xi-\x\to(x)yi-\x\to(y),\i\su(i=1,n,)xi-\x\to(x)2),,\o(a,\s\up6(^))=\x\to(y)-\o(b,\s\up6(^))\x\to(x).))(2)残差:观测值减去预测值,称为残差.4.列联表与独立性检验(1)关于分类变量X和Y的抽样数据的2×2列联表:XY合计Y=0Y=1X=0aba+bX=1cdc+d合计a+cb+dn=a+b+c+d(2)计算随机变量χ2=eq\f(nad-bc2,a+bc+da+cb+d),利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验.α0.100.050.0100.0050.001xα2.7063.8416.6357.87910.828【题型精讲】【题型一成对数据的相关性】必备技巧判定两个变量相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)样本相关系数:当r>0时,正相关;当r<0时,负相关;|r|越接近于1,相关性越强.(3)经验回归方程:当eq\o(b,\s\up6(^))>0时,正相关;当eq\o(b,\s\up6(^))<0时,负相关例1(2022·全国·高三专题练习)某统计部门对四组数据进行统计分析后,获得如图所示的散点图.下面关于相关系数的比较,正确的是()A. B. C. D.例2(2022·陕西·西北工业大学附属中学高三阶段练习)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是()A.x与y正相关,x与z负相关 B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关 D.x与y负相关,x与z正相关【跟踪精练】1.(2022·青岛高三月考)对两个变量x,y进行线性相关检验,得线性相关系数r1=0.8995,对两个变量u,v进行线性相关检验,得线性相关系数r2=﹣0.9568,则下列判断正确的是()A.变量x与y正相关,变量u与v负相关,变量x与y的线性相关性较强

B.变量x与y负相关,变量u与v正相关,变量x与y的线性相关性较强

C.变量x与y正相关,变量u与v负相关,变量u与v的线性相关性较强

D.变量x与y负相关,变量u与v正相关,变量u与v的线性相关性较强2.(2022·济南高三期末)(多选)下列有关经验回归分析的说法中正确的有()A.经验回归直线必过点(eq\x\to(x),eq\x\to(y))B.经验回归直线就是散点图中经过样本数据点最多的那条直线C.当样本相关系数r>0时,两个变量正相关D.如果两个变量的相关性越弱,则|r|就越接近于0【题型二相关系数求解】例3(2022·四川·成都七中高三阶段练习)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据,其中和分别表示第个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量(单位:头),并计算得,,,,.(1)估计该地区这种野生动物的数量;(2)求样本的相关系数.(精确到0.01)【跟踪精练】1.(2022·黑龙江·佳木斯一中三模)某网络电视剧已开播一段时间,其每日播放量有如下统计表:开播天数x(单位:天)12345当天播放量y(单位:百万次)335910(1)请用线性回归模型拟合y与x的关系,并用相关系数加以说明;(2)假设开播后的两周内(除前5天),当天播放量y与开播天数x服从(1)中的线性关系.若每百万播放量可为制作方带来0.7万元的收益,且每开播一天需支出1万元的广告费,估计制作方在该剧开播两周内获得的利润.参考公式:,,.参考数据:xiyi=110,=55,=224,≈10.5.注:①一般地,相关系数r的绝对值在0.95以上(含0.95)认为线性相关性较强;否则,线性相关性较弱.②利润=收益-广告费.【题型三线性回归方程】方法技巧求经验回归方程的步骤例4(2022·全国高三专题练习)对某位同学5次体育测试的成绩(单位:分)进行统计得到如下表格:第x次12345测试成绩y3940484850根据上表,可得y关于x的线性回归方程为,下列结论不正确的是()A.B.这5次测试成绩的方差为20.8C.y与x的线性相关系数D.预测第6次体育测试的成绩约为54例5(2022·广东深圳市·高三二模)重庆位于北半球亚热带内陆地区,其气候特征恰如几句俗谚:春早气温不稳定,夏长酷热多伏旱,秋凉绵绵阴雨天,冬暖少雪云雾多.尤其是10月份,昼夜温差很大,某数学兴趣小组欲研究昼夜温差大小与患感冒人数多少之间的关系,他们分别到气象局与某医院抄录了2021年10月某六天的昼夜温差情况与因患感冒而就诊的人数,得到如下资料:日期第一日第三日第五日第四日第二日第六日昼夜温差(℃)47891214就诊人数(个)其中:,,2,3,4,5,6,参考数据:,,.(1)根据散点图可以认为与之间存在线性相关关系,且相关系数,请用最小二乘法求出线性回归方程(,用分数表示);(2)分析数据发现:第六日就诊人数,第一日就诊患者中有3个小孩,其他患者全是大人,现随机的从第一日所有就诊患者中选出2人,若2人中至少有一个小孩的概率为;①求的值;②若,求,,,的值(只写结果,不要求过程).(参考公式:,,)【题型精练】1.(2022·全国·高三专题练习)对于数据组,如果由线性回归方程得到的对应于自变量的估计值是,那么将称为相应于点的残差.某工厂为研究某种产品产量(吨)与所需某种原材料吨)的相关性,在生产过程中收集4组对应数据如下表所示:34562.534根据表中数据,得出关于的线性回归方程为,据此计算出样本点(4,3)处的残差为-0.15,则表中的值为(

)A.3.3 B.4.5 C.5 D.5.52.(2022·全国·高三专题练习)新冠肺炎疫情发生以来,中医药全面参与疫情防控救治,做出了重要贡献.某中医药企业根据市场调研与模拟,得到研发投入x(亿元)与产品收益y(亿元)的数据统计如下:研发投入x(亿元)12345产品收益y(亿元)3791011(1)计算x,y的相关系数r,并判断是否可以认为研发投入与产品收益具有较高的线性相关程度?(若,则线性相关程度一般,若,则线性相关程度较高)(2)求出y关于x的线性回归方程,并预测研发投入20(亿元)时产品的收益.参考数据:,,.附:相关系数公式:,回归直线方程的斜率,截距.【题型四非线性回归方程】例6(2022·浙江高三专题练习)数据显示,中国在线直播用户规模及在线直播购物规模近几年都保持高速增长态势,下表为2017-2021年中国在线直播用户规模(单位:亿人),其中2017年-2021年对应的代码依次为1-5.年份代码x12345市场规模y3.984.565.045.866.36参考数据:,,,其中.参考公式:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计公式分别为,.(1)由上表数据可知,可用函数模型拟合y与x的关系,请建立y关于x的回归方程(,的值精确到0.01);(2)已知中国在线直播购物用户选择在品牌官方直播间购物的概率为p,现从中国在线直播购物用户中随机抽取4人,记这4人中选择在品牌官方直播间购物的人数为X,若,求X的分布列与期望.例7(2022·四川成都·高三月考)年月底,为严防新型冠状病毒疫情扩散,有效切断病毒传播途径,坚决遏制疫情蔓延势头,确保人民群众生命安全和身体健康,多地相继做出了封城决定.某地在月日至日累计确诊人数如下表:日期(月)日日日日日日日人数(人)由上述表格得到如散点图(月日为封城第一天).(1)根据散点图判断与(,均为大于的常数)哪一个适宜作为累计确诊人数与封城后的天数的回归方程类型(给出判断即可,不必说明理由);并根据上表中的数据求出回归方程;(2)随着更多的医护人员投入疫情的研究,月日武汉影像科医生提出存在大量核酸检测呈阴性(阳性则确诊),但观其肺片具有明显病变,这一提议引起了广泛的关注,月日武汉疾控中心接收了份血液样本,假设每份样本的检验结果是阳性还是阴性都是相互独立的,且每份样本是阳性样本的概率为,核酸试剂能把阳性样本检测出阳性结果的概率是(核酸检测存在阳性样本检测不出来的情况,但不会把阴性检测呈阳性),求这份样本中检测呈阳性的份数的期望.参考数据:其中,,参考公式:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计公式分别为,.【题型精练】1.(2022·四川成都·高三月考)当前,新一轮科技革命和产业变革蓬勃兴起,以区块链为代表的新一代信息技术迅猛发展,现收集某地近5年区块链企业总数量相关数据,如下表年份20172018201920202021编号x12345企业总数量y(单位:千个)2.1563.7278.30524.27936.224(1)根据表中数据判断,与(其中…为自然对数的底数),哪一个回归方程类型适宜预测未来几年我国区块链企业总数量?(给出结果即可,不必说明理由),并根据你的判断结果求y关于x的回归方程;(2)为了促进公司间的合作与发展,区块链联合总部决定进行一次信息化技术比赛,邀请甲、乙、丙三家区块链公司参赛.比赛规则如下:①每场比赛有两个公司参加,并决出胜负;②每场比赛获胜的公司与未参加此场比赛的公司进行下一场的比赛;③在比赛中,若有一个公司首先获胜两场,则本次比赛结束,该公司获得此次信息化比赛的“优胜公司”.已知在每场比赛中,甲胜乙的概率为,甲胜丙的概率为,乙胜丙的概率为,若首场由甲乙比赛,求甲公司获得“优胜公司”的概率.参考数据:,,,(其中).附:样本的最小二乘法估计公式为,.2.(2022·山东青岛·二模)某企业为加强科研创新,加大研发资金的投入,新研发了一种产品.该产品的生产成本由直接生产成本(如原料、工人工资、机器设备折旧等)和间接生产成本(如物料消耗、管理人员工资、车间房屋折旧等)组成.该产品的间接生产成本y(万元)与该产品的生产数量x(千件)有关,经统计并对数据作初步处理,得到散点图及一些统计量的值.3.513.241.8117.51.4619.95.84表中,.(1)根据散点图判断与哪一个更适合作为间接生产成本y与该产品的生产数量x的回归方程类型;(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程,并预测生产9千件产品时,间接生产成本是多少万元;(3)为确保产品质量,该企业在生产过程中对生产的每件产品均进行五个环节的质量检测,若检测出不合格产品,则需在未进入下一环节前立即修复(修复后再进入下一环节),已知每个环节是相互独立的,且每个环节产品检测的合格率均为98%,各环节中不合格的一件产品所需的修复费用均为100元,求一件产品需修复的平均费用.附:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计分别为,.【题型五独立性检验】例8(2022·浙江高三专题练习)根据分类变量x与y的观察数据,计算得到.依据下面给出的临界值表,0.500.400.250.150.100.050.0250.0100.0050.4550.7081.3232.0722.7063.8415.0246.6357.879可知下列判断中正确的是(

)A.有95%的把握认为变量x与y独立B.有95%的把握认为变量x与y不独立C.变量x与y独立,这个结论犯错误的概率不超过10%D.变量x与y不独立,这个结论犯错误的概率不超过10%例9(2022·四川成都·高三月考)2022年北京冬奥组委发布的《北京2022年冬奥会和冬残奥会经济遗产报告(2022)》显示,北京冬奥会已签约45家赞助企业,冬奥会赞助成为一项跨度时间较长的营销方式.为了解该45家赞助企业每天销售额与每天线上销售时间之间的相关关系,某平台对45家赞助企业进行跟踪调查,其中每天线上销售时间不少于8小时的企业有20家,余下的企业中,每天的销售额不足30万元的企业占,统计后得到如下列联表:销售额不少于30万元销售额不足30万元合计线上销售时间不少于8小时1720线上销售时间不足8小时合计45(1)请完成上面的列联表,能否有99%的把握认为赞助企业每天的销售额与每天线上销售时间有关?(2)按销售额在上述赞助企业中采用分层抽样方法抽取5家企业.在销售额不足30万元的企业中抽取时,记“抽到线上销售时间不少于8小时的企业数”为X,求X的分布列和数学期望.附:0.0500.0100.0013.8416.63510.828参考公式:,其中.【题型精练】1.(2022·四川成都·高三月考)在某大学一食品超市,随机询问了70名不同性别的大学生在购买食物时是否查看营养说明,得到如下的列联表:

女男总计要查看营养说明152540不查看营养说明201030总计353570附:,其中.0.500.400.250.150.100.050.0250.0100.00

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论