版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1第第 3 3 节节变量的相关变量的相关性性最新考纲1.会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系;2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆); 3.了解独立性检验(只要求 22 列联表)的基本思想、 方法及其简单应用;4.了解回归分析的基本思想、方法及其简单应用.知 识 梳 理1.变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在
2、左上角到右下角的区域内,两个变量的相关关系为负相关.2.回归分析对具有相关关系的两个变量进行统计分析的方法叫回归分析.其基本步骤是: ()画散点图;()求回归直线方程;()用回归直线方程作预报.(1)回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.(2)回归直线方程的求法最小二乘法.2其中n1n11n12,n2n21n22,n1n11n21,n2n12n22,nn11n21n12n22.(2)2统计量2n(n11n22n12n21)2n1n2n1n2.(3)两个临界值:3.841 与 6.635当23.841 时,有 95%
3、的把握说事件A与B有关;当26.635 时,有 99%的把握说事件A与B有关;当23.841 时,认为事件A与B是无关的.常用结论与微点提醒1.求解回归方程的关键是确定回归系数a,b,应充分利用回归直线过样本中心点(x,y).32.根据2的值可以判断两个分类变量有关的可信程度,若2越大,则两分类变量有关的把握越大.3.根据回归方程计算的y值,仅是一个预报值,不是真实发生的值.诊 断 自 测1.思考辨析(在括号内打“”或“”)(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.()(2)通过回归直线方程ybxa可以估计预报变量的取值和变化趋势.()(3)因为由任何一组观测值都可
4、以求得一个线性回归方程,所以没有必要进行相关性检验.()(4)事件X,Y关系越密切,则由观测数据计算得到的2的观测值越大.()答案(1)(2)(3)(4)2.(教材例题改编)某研究机构对高三学生的记忆力x和判断力y进行统计分析, 所得数据如表:x681012y2356则y对x的线性回归直线方程为()A.y2.3x0.7B.y2.3x0.7C.y0.7x2.3D.y0.7x2.3解析易求x9,y4,样本点中心(9,4)代入验证,满足y0.7x2.3.答案C3.两个变量y与x的回归模型中,分别选择了 4 个不同模型,它们的相关指数R2如下,其中拟合效果最好的模型是()A.模型 1 的相关指数R2为
5、 0.98B.模型 2 的相关指数R2为 0.80C.模型 3 的相关指数R2为 0.50D.模型 4 的相关指数R2为 0.25解析在两个变量y与x的回归模型中,它们的相关指数R2越近于 1,模拟效果越好,在四个选项中 A 的相关指数最大,所以拟合效果最好的是模型 1.4答案A4.(2015全国卷)根据下面给出的 2004 年至 2013 年我国二氧化硫年排放量(单位: 万吨)柱形图,以下结论不正确的是()A.逐年比较,2008 年减少二氧化硫排放量的效果最显著B.2007 年我国治理二氧化硫排放显现成效C.2006 年以来我国二氧化硫年排放量呈减少趋势D.2006 年以来我国二氧化硫年排放
6、量与年份正相关解析对于 A 选项,由图知从 2007 年到 2008 年二氧化硫排放量下降得最多,故 A 正确.对于 B 选项,由图知,由 2006 年到 2007 年矩形高度明显下降,因此 B 正确.对于 C 选项,由图知从 2006 年以后除 2011 年稍有上升外,其余年份都是逐年下降的,所以 C 正确.由图知2006 年以来我国二氧化硫年排放量与年份负相关,D 不正确.答案D5.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取 50 名学生,得到如下22 列联表:理科文科男1310女720根据表中数据, 得到250(1320107)2232720304.844.则有_的把握认
7、为选修文科与性别有关系.解析24.8443.841,有 95%的把握认为选修文科与性别有关系.答案95%考点一相关关系的判断【例 1】 (1)已知变量x和y近似满足关系式y0.1x1,变量y与z正相关.下列结论5中正确的是()A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关(2)甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:甲乙丙丁r0.820.780.690.85m106115124103则哪位同学的试验结果体现A,B两变量有更强的线性相关性()A.甲
8、B.乙C.丙D.丁解析(1)由y0.1x1,知x与y负相关,即y随x的增大而减小,又y与z正相关,所以z随y的增大而增大,减小而减小,所以z随x的增大而减小,x与z负相关.(2)在验证两个变量之间的线性相关关系时,相关系数的绝对值越接近于 1,相关性越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现了A,B两变量有更强的线性相关性.答案(1)C(2)D规律方法1.散点图中如果所有的样本点都落在某一函数的曲线附近, 变量之间就有相关关系.如果所有的样本点都落在某一直线附近, 变量之间就有线性相关关系.若点散布在从左下角到右上角的区
9、域,则正相关.2.利用相关系数判定,当|r|越趋近于 1 相关性越强.当残差平方和越小,相关指数R2越大,相关性越强.若r0,则正相关;r0 时,正相关;bR22;x,y之间不能建立线性回归方程.解析(1)从统计图表中看出, 月收入的中位数是12(1517)16, 收入增加, 则支出也增加,x与y正线性相关.(2)在散点图中,点散布在从左上角到右下角的区域,因此x,y是负相关关系,故正确;由散点图知用yc1ec2x拟合比用ybxa拟合效果要好,则R21R22,故正确;x,y之间可以建立线性回归方程,但拟合效果不好,故错误.答案(1)C(2)考点二线性回归方程及应用【例 2】 (2015全国卷)
10、某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近 8 年的年宣传费xi和年销售量yi(i1,2,8)数据作了初步处理,得到下面的散点图及一些统计量的值.7(1)根据散点图判断,yabx与ycdx哪一个适宜作为年销售量y关于年宣传费x的回归方程类型(给出判断即可,不必说明理由)?(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;(3)已知这种产品的年利润z与x,y的关系为z0.2yx.根据(2)的结果回答下列问题:年宣传费x49 时,年销售量及年利润的预报值是多少?年宣传费x为何值时,年利润的预报值最
11、大?附:对于一组数据(u1,v1),(u2,v2),(un,vn),其回归直线vu的斜率和截距的最小二乘估计分别为:解(1)由散点图可以判断,ycdx适宜作为年销售量y关于年宣传费x的回归方程类型.(2)令wx,先建立y关于w的线性回归方程,由于所以y关于w的线性回归方程为y100.668w,因此y关于x的回归方程为y100.668x.(3)由(2)知,当x49 时,年销售量y的预报值y100.668 49576.6,年利润z的预报值z576.60.24966.32.8根据(2)的结果知,年利润z的预报值z0.2(100.668x)xx13.6x20.12.所以当x13.626.8,即x46.
12、24 时,z取得最大值.故年宣传费为 46.24 千元时,年利润的预报值最大.规律方法1.(1)正确理解计算b,a的公式和准确的计算是求线性回归方程的关键.(2)回归直线方程ybxa必过样本点中心(x,y).2.(1)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.(2)本例中y与x不具有线性相关,先作变换,转化为y与w具有线性相关,求出y关于w的线性回归方程,然后进一步求解.【训练 2】 (2018日照调研)某地随着经济的发展,居民收入逐年增长,下表是该地一建设银行连续五年的储蓄存款(年底余额),如
13、下表 1:年份x20132014201520162017储蓄存款y(千亿元)567810表 1为了研究计算的方便,工作人员将上表的数据进行了处理,tx2 012,zy5 得到下表 2:时间代号t12345z01235表 2(1)求z关于t的线性回归方程;(2)通过(1)中的方程,求出y关于x的回归方程;(3)用所求回归方程预测到 2022 年年底,该地储蓄存款额可达多少?9b45532.255591.2,azbt2.231.21.4,所以z1.2t1.4.(2)将tx2 012,zy5,代入z1.2t1.4,得y51.2(x2 012)1.4,即y1.2x2 410.8.(3)因为y1.22
14、0222 410.815.6,所以预测到 2022 年年底,该地储蓄存款额可达 15.6 千亿元.考点三独立性检验【例 3】 某高校共有学生 15 000 人,其中男生 10 500 人,女生 4 500 人.为调查该校学生每周平均体育运动时间的情况, 采用分层抽样的方法, 收集了 300 位学生每周平均体育运动时间的样本数据(单位:小时).(1)应收集多少位女生的样本数据?(2)根据这 300 个样本数据, 得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:0,2,(2,4,(4,6,(6,8,(8,10,(10,12.估计该校学生每周平均体育运动时间超过
15、4 小时的概率;(3)在样本数据中, 有 60 位女生的每周平均体育运动时间超过 4 小时, 请完成每周平均体育运动时间与性别列联表,并判断是否有 95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.附:2n(adbc)2(ab) (cd) (ac) (bd)P(2k0)0.100.050.0100.005k02.7063.8416.6357.879解(1)利用分层抽样,3004 50015 00090,所以应收集 90 位女生的样本数据.10(2)由频率分布直方图得 12(0.1000.025)0.75.所以该校学生每周平均体育运动时间超过 4 小时的概率的估计值为 0.75.(3
16、)由(2)知,300 位学生中有 3000.75225 人的每周平均体育运动时间超过 4 小时,75人的每周平均体育运动时间不超过 4 小时.又因为样本数据中有 210 份是关于男生的,90 份是关于女生的,所以每周平均体育运动时间与性别列联表如下:男生女生总计每周平均体育运动时间不超过 4 小时453075每周平均体育运动时间超过 4 小时16560225总计21090300将 22 列联表中的数据代入公式计算,得2的观测值k300(456016530)27522521090100214.7623.841.所以,有 95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.规律方法1.在
17、 22 列联表中,如果两个变量没有关系,则应满足n11n22n12n210.|n11n22n12n21|越小,说明两个变量之间关系越弱;|n11n22n12n21|越大,说明两个变量之间关系越强.2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.【训练 3】 (2018潍坊质检)某校在高一年级学生中,对自然科学类、社会科学类校本选修课程的选课意向进行调查. 现从高一年级学生中随机抽取 180 名学生,其中男生 105 名;在这 180 名学生中选择社会科学类的男生、女生均为 45 名.(1)试问:从高一年级学生中随机抽取 1 人,抽到男生的概率约为多少?(2)根据抽取的 180
18、 名学生的调查结果, 完成下面的 22 列联表. 并根据列联表判断是否有95%的把握认为科类的选择与性别有关?选择自然科学类选择社会科学类合计男生女生合计解(1)从高一年级学生中随机抽取 1 人,抽到男生的概率约为105180712.(2)根据统计数据,可得 22 列联表如下:11选择自然科学类选择社会科学类合计男生6045105女生304575合计9090180则2180(60453045)21057590903675.142 93.841,所以有 95%的把握认为科类的选择与性别有关.基础巩固题组(建议用时:40 分钟)一、选择题1.为了判定两个分类变量X和Y是否有关系,应用独立性检验法算
19、得25,则下列说法正确的是()A.有 95%的把握认为“X和Y有关系”B.有 95%的把握认为“X和Y没有关系”C.有 99%的把握认为“X和Y有关系”D.有 99%的把握认为“X和Y没有关系”解析依题意253.841,因此有 95%的把握认为“X和Y有关系”.答案A2.(2018石家庄模拟)下列说法错误的是()A.回归直线过样本点的中心(x,y)B.两个随机变量的线性相关性越强,则相关系数的绝对值就越接近于 1C.对分类变量X与Y,随机变量2的值越大,则判断“X与Y有关系”的把握程度越小D.在回归直线方程y0.2x0.8 中,当解释变量x每增加 1 个单位时,预报变量y平均增加0.2 个单位
20、解析根据相关定义分析知 A,B,D 正确,C 中对分类变量X与Y的随机变量2值越大,判断“X与Y有关系”的把握程度越大,故 C 错误.答案C3.(2017阜新模拟)已知两个随机变量x,y之间的相关关系如表所示:12X42124Y5310.51根据上述数据得到的回归方程为ybxa,则大致可以判断()A.a0,b0B.a0,b0C.a0D.a0,b0,a6.635,有 99%的把握认为“爱好该项运动与性别有关”.答案A5.(2017山东卷)为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取 10 名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系,设其回归
21、直线方程为ybxa.已知 10i1xi225, 10i1yi1 600,b4.该班某学生的脚长为 24,据此估计其身高为()A.160B.163C.166D.17013解析由已知得x22.5,y160,回归直线方程过样本点中心(x,y),且b4,160422.5a,解得a70.回归直线方程为y4x70,当x24 时,y166.答案C二、填空题6.(2017滨州模拟)某车间为了规定工时定额, 需要确定加工零件所花费的时间, 为此进行了 5 次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y0.67x54.9.零件数x(个)1020304050加工时间y(min)62758189现发现
22、表中有一个数据看不清,请你推断出该数据的值为_.解析由x30,得y0.673054.975.设表中的“模糊数字”为a,则 62a758189755,a68.答案687.(2018赣中南五校联考)心理学家分析发现视觉和空间想象能力与性别有关, 某数学兴趣小组为了验证这个结论,从所在学校中按分层抽样的方法抽取 50 名同学(男 30,女 20),给所有同学几何题和代数题各一题,让各位同学自由选择一道题进行解答.选题情况如下表:(单位:人)几何题代数题总计男同学22830女同学81220总计302050根据上述数据,有_的把握推断视觉和空间想象能力与性别有关系.解析由列联表计算250(221288)
23、2302020305.5563.841.有 95%的把握推断视觉和空间想象能力与性别有关系.答案95%8.(2018长沙雅礼中学质检)某单位为了了解用电量y(度)与气温x()之间的关系,随机14统计了某 4 天的用电量与当天气温,并制作了对照表:气温()1813101用电量(度)24343864由表中数据得回归直线方程ybxa中的b2,预测当气温为4 时,用电量约为_度.解析根据题意知x181310(1)410,y24343864440.所以a40(2)1060,y2x60.所以当x4 时,y(2)(4)6068,所以用电量约为 68 度.答案68三、解答题9.(2018重庆调研)某厂商为了解
24、用户对其产品是否满意, 在使用该产品的用户中随机调查了 80 人,结果如下表:满意不满意男用户3010女用户2020(1)根据上表,现用分层抽样的方法抽取对产品满意的用户 5 人,在这 5 人中任选 2 人,求被选中的恰好是男、女用户各 1 人的概率;(2)有多大把握认为用户对该产品是否满意与用户性别有关?请说明理由.解(1)用分层抽样的方法在满意产品的用户中抽取 5 人,则抽取比例为550110.所以在满意产品的用户中应抽取女用户 201102(人),男用户 301103(人).抽取的 5 人中,三名男用户记为a,b,c,两名女用户记为r,s,则从这 5 人中任选 2 人,共有 10 种情况
25、:ab,ac,ar,as,bc,br,bs,cr,cs,rs.其中恰好是男、女用户各 1 人的有 6 种情况:ar,as,br,bs,cr,cs.故所求的概率为P6100.6.(2)由题意,得280(30202010)2(3020) (1020) (3010) (2020)1635.3333.841.故有 95%的把握认为“产品用户是否满意与性别有关”.1510.(2018惠州模拟)某市春节期间 7 家超市广告费支出xi(万元)和销售额yi(万元)数据如下表:超市ABCDEFG广告费支出xi1246111319销售额yi19324044525354(1)若用线性回归模型拟合y与x的关系,求y与x的线性回归方程;(2)若用二次函数回归模型拟合y与x的关系,可得回归方程:y0.17x25x20,经计算, 二次函数回归模型和线性回归模型的R2分别约为 0.93 和 0.75, 请用R2说明选择哪个回归模型更合适,并用此模型预测A超市广告费支
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度畜牧业绿色饲料生产加工合同范本4篇
- 《摄影家的眼力》课件
- 2025年车拖式汽油驱动路面取芯机项目可行性研究报告
- 2025年玻璃蒙砂膏项目可行性研究报告
- 《液体制剂生产设备》课件
- 2025年分碴车项目可行性研究报告
- 2025年PID自整定控制仪项目可行性研究报告
- 2025至2030年蜂窝陶瓷触媒片项目投资价值分析报告
- 2025年中国屋顶斜面窗市场调查研究报告
- 四年级数学(小数加减运算)计算题专项练习与答案
- 2025届北京巿通州区英语高三上期末综合测试试题含解析
- 公婆赠予儿媳妇的房产协议书(2篇)
- 煤炭行业智能化煤炭筛分与洗选方案
- 2024年机修钳工(初级)考试题库附答案
- Unit 5 同步练习人教版2024七年级英语上册
- 矽尘对神经系统的影响研究
- 分润模式合同模板
- 海南省汽车租赁合同
- 2024年长春医学高等专科学校单招职业适应性测试题库必考题
- (正式版)SHT 3046-2024 石油化工立式圆筒形钢制焊接储罐设计规范
- 2023年山东济南市初中学业水平考试地理试卷真题(答案详解)
评论
0/150
提交评论