第2讲变量间的相关关系、统计案例_第1页
第2讲变量间的相关关系、统计案例_第2页
第2讲变量间的相关关系、统计案例_第3页
第2讲变量间的相关关系、统计案例_第4页
第2讲变量间的相关关系、统计案例_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第2讲变量间的相关关系、统计案例一、知识梳理1. 变量间的相关关系常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系; 与函数关系不同,相关关系是一种非确定性关系.2. 两个变量的线性相关(1) 从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近, 称两个变量之间具有线性相关关系,这条直线叫回归直线.(2) 从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.nAAAA 刀 Af/iyi nx y A A_(3) 回归方程为 y= bx+ a,其中 b= n二 ,二bx.

2、刀 a x2 n 2i = 1(4) 相关系数当r > 0时,表明两个变量正相关;当rv 0时,表明两个变量负相关.r的绝对值越接近于 1,表明两个变量的线性相关性越弓 r的绝对值越接近于 0,表明 两个变量之间几乎不存在线性相关关系,通常|r|大于0.75时,认为两个变量有很强的线性相关性.3. 独立性检验(1) 2X 2列联表:假设有两个分类变量X和Y,它们的取值分别为xi, X2和yi, y2,(2)K2统计量其样本频数列联表(称2 X 2列联表)为:y1y2总计X1aba+ bX2cdc+ d总计a + cb + da+ b+ c+ d22n(ad be)K =(a + b)(c

3、+ d)(a + e)(b + d)(其中 n= a+ b + e+ d 为样本容量)常用结论i. 求解回归方程的关键是确定回归系数a, b,应充分利用回归直线过样本中心点(,2根据K2的值可以判断两个分类变量有关的可信程度,若K2越大,则两分类变量有 关的把握越大.3.根据回归方程计算的y值,仅是一个预报值,不是真实发生的值.二、教材衍化1已知x与y之间的一组数据如表:x0123ym35.57已求得y关于x的线性回归方程为y= 2.1x+ 0.85,则m的值为答案:0.5现随机抽取50名学生,得到2. 为了判断高中三年级学生是否选修文科与性别的关系,如下2X 2列联表:文科男1310女720

4、已知 P(K解析:K2的观测值k-4.844 > 3.841,这表明小概率事件发生根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.答案:5%一、思考辨析判断正误(正确的打“V”,错误的打“X”) 相关关系与函数关系都是一种确定性的关系,也是一种因果关系.() 利用散点图可以直观判断两个变量的关系是否可以用线性关系表示.() 只有两个变量有相关关系,所得到的回归模型才有预测价值.() 事件X, Y的关系越密切,由观测数据计算得到的 K2的观测值越大.()> 3.841)0.05, P(K2> 5.024)0.025.根据表

5、中数据,得到 K2的观测值k = 通过回归方程y= bx+a可以估计和观测变量的取值和变化趋势.()°X回答案:(1)X (2) V (3) V (4) V (5) V 二、易错纠偏 常见误区|(1)混淆相关关系与函数关系; (2)对独立性检验K2值的意义不清楚;°- 10X 7)2疋4.844.则认为选修文科与性别有关系出错的可能性为23 X 27 X 20 X 30不知道回归直线必过样本点中心.1. 两个变量的相关关系有正相关,负相关,不相关,则下列散点图从左到右分别反映的变量间的相关关系是 ()A .B.C.D.解析:选D .第一个散点图中,散点图中的点是从左下角区域

6、分布到右上角区域,则是正相关;第三个散点图中,散点图中的点是从左上角区域分布到右下角区域,则是负相关;第二个散点图中,散点图中的点的分布没有什么规律,则是不相关,所以应该是 2某校为了研究学生的性别和对待某一活动的态度(支持和不支持两种态度)的关系,运用2X 2列联表进行独立性检验,经计算K2= 7.069,则所得到的统计学结论是:有多少的把握认为“学生性别与支持该活动有关系”.()附:P(K2> k0)0.1000.0500.0250.0100.001k02.7063.8415.0246.63510.828A. 0.1%B. 1%C. 99%D. 99.9%解析:选C.因为7.069与

7、附表中的6.635最接近,所以得到的统计学结论是:有1 0.010= 0.99= 99%的把握认为“学生性别与支持该活动有关系”.3. 已知x, y的取值如下表,从散点图可以看出y与x线性相关,且回归方程为y= 0.95xAA+ a,贝U a =.x0134y2.24.34.86.7解析:由已知得乂 = 2, y = 4.5,因为回归方程经过点(M , y ),所以a = 4.5 0.95X 2=2.6.答案:2.6考点一相关关系的判断(基础型)复习指导|通过收集现实问题中两个有关联变量的数据作出散点图,并利用散点图直观认识变量间的相关关系.核心素养:直观想象1 .已知变量x和y满足关系y=

8、0.1x+ 1,变量y与z正相关.下列结论中正确的是()A . x与y正相关,x与z负相关B. x与y正相关,x与z正相关C. x与y负相关,x与z负相关D. x与y负相关,x与z正相关解析:选C.因为y= 0.1x+ 1的斜率小于0,故x与y负相关.因为y与z正相关, 可设 z= by+ a, b>0,贝U z= by + a = 0.1bx+ b+ a,故 x与 z负相关.2. 对变量x, y有观测数据(xi, yi)(i= 1, 2,,10),得散点图如图,对变量 u, v有观测数据(ui, vi)(i = 1, 2,10),得散点图如图.由这两个散点图可以判断()A .变量x与y

9、正相关,u与v正相关 B .变量x与y正相关,u与v负相关 C.变量x与y负相关,u与v正相关 D 变量x与y负相关,u与v负相关解析:选C.由散点图可得两组数据均线性相关,且图的线性回归方程斜率为负,图的线性回归方程斜率为正 ,则由散点图可判断变量 x与y负相关,u与v正相关.解析:选C 月收入的中位数是=16,收入增加,支出增加,故x与y有正线性3. 某公司在2019年上半年的月收入 x(单位:万元)与月支出y(单位:万元)的统计资料 如表所示:月份1月份2月份3月份4月份5月份6月份收入x12.314.515.017.019.820.6支出y5.635.755.825.896.116.1

10、8根据统计资料,则()A.月收入的中位数是15,x与y有正线性相关关系B.月收入的中位数是17,x与y有负线性相关关系C.月收入的中位数是16,x与y有正线性相关关系D.月收入的中位数是16,x与y有负线性相关关系15 + 17相关关系.判定两个变量正、负相关性的方法(1)画散点图 :点的分布从左下角到右上角 , 两个变量正相关;点的分布从左上角到右 下角 , 两个变量负相关相关系数:r> 0时,正相关;rv 0时,负相关.线性回归方程中:b > 0时,正相关;bv 0时,负相关.考点二 回归分析 (应用型 )复习指导 | 经历用不同估算方法描述两个变量线性相关的过程 , 知道最小

11、二乘法的思 想,能根据给出的线性回归方程系数公式建立线性回归方程 ,并进一步了解回归的基本思想、 方法及初步应用核心素养: 数学建模、数据分析角度一 线性回归方程及其应用(2020福州市第一学期抽测)随着我国 中医学的发展,药用昆虫的使用相应愈来愈多.每年春暖以后至寒冬前,昆虫大量活动与繁殖,易于采集各种药用昆虫已知一只药用昆虫的产卵数y(单位:个)与一定范围内的温度x(单位:C )有关,于是科研人员在 3月份的31天中随机挑选了 5天进行研究,现收集了该 种药用昆虫的5组观测数据如下表:日期2日7日15日22日30日温度x C101113128产卵数y/个2325302616科研人员确定的研

12、究方案是:先从这 5组数据中任选2组,用剩下的3组数据建立y关于x的线性回归方程,再对被选取的2组数据进行检验.(1) 若选取的是3月2日与30日这2组的数据,请根据 3月7日15日和22日这3组 的数据,求出y关于x的线性回归方程;(2) 若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2个,则认为得到的线性回归方程是可靠的,试问(1)中所得的线性回归方程是否可靠?n_.乙(xi x )(yi y ) a 附:回归直线的斜率和截距的最小二乘估计公式分别为b-二 ,a=苕(X x)2Ab x .33【解】(1)由已知数据得 亍=12, 丫 = 27,其 1 (xi x )(yi

13、y ) = 5,若 1 (xi x)2= 2.352,Ai-1 (xi x )(yi y)所以b=二苕(xi x )2A _5a= 7 -2亍=27-2X 12=-3.a 5所以y关于x的线性回归方程为y= 2X- 3.a 5由知,y关于x的线性回归方程为y= 2X-3.a 5当 x = 10 时,y= 5 X 10- 3 = 22, |22- 23|v2,a 5当 x = 8 时,y= |x 8-3 = 17, |17- 16|v 2.所以(1)中所得的线性回归方程3是可靠的.求回归直线方程的步骤角度二相关系数及其应用某基地蔬菜大棚采用无土栽培方式种 植各类蔬菜.过去 50周的资料显示,该地

14、周光照量X(单位:小时)都在30小时以上,其中不足50小时的有5周,不低于50小时且不超过 70小时的有35周,超过70小时的有10 周根据统计,该基地的西红柿增加量y(千克)与使用某种液体肥料的质量x(千克)之间的对应数据为如图所示的折线图.依据折线图计算相关系数r(精确到0.01),并据此判断是否可用线性回归模型拟合y与x的关系.(若|r|>0.75,则线性相关程度很高,可用线性回归模型拟合)相关系数公式:n参考数据:.0.3 0.55, ,0.9 0.95.0.75,(Xi x)(yi y)i =1=2®、2= Jr °95.因为 |r|>,-2+ 4 +

15、 5 + 6+ 83 + 4+ 4+ 4+ 5【解】由已知数据可得x = 5, y = 4.5' '55因为(Xi x )(yi y )= ( 3)x ( 1) + 0 + 0 + 0+ 3X 1 = 6,i= 1-(3)2 + ( 1)2+ 02 + 12+ 32= 2 .5,- 1)2+ 02+ 02 + 02 + 12= 2,5回归方程的拟合效果,可以利用相关系数判断,当|r|越趋近于1时,两变量的线性相关 性越强.1 对两个变量x, y进行线性回归分析,计算得到相关系数r =- 0.996 2,则下列说法中正确的是()A x与y正相关B x与y具有较强的线性相关关系C.

16、 x与y几乎不具有线性相关关系D. x与y的线性相关关系还需进一步确定解析:选B .因为相关系数r =- 0.996 2,所以x与y负相关,因为|r|= 0.996 2,非常 接近1,所以相关性很强,故选B .2. (2020成都第一次诊断性检测)在2018年俄罗斯世界杯期间, 莫斯科的部分餐厅销售 了来自中国的小龙虾,这些小龙虾均标有等级代码.为得到小龙虾等级代码数值x与销售单价y(单位:元)之间的关系,经统计得到如下数据:等级代码数值x384858687888销售单价y/元16.818.820.822.82425.8(1)已知销售单价y与等级代码数值x之间存在线性相关关系,求y关于x的线性

17、回归方程(系数精确到0.1);(2)若莫斯科某餐厅销售的中国小龙虾的等级代码数值为98,请估计该等级的中国小龙虾销售单价为多少元?参考公式:对于一组数据(X1, y1),(X2, y2),(xn, yn),其回归直线 y= bx+ a的斜率n人占Xiyi nx y人人和截距的最小二乘估计分别为b = n, a = y b x .2xi2 n x2i = 166参考数据:斗=jXiyi= 8 440, »#= 25 564.解:由题意,得乂 =如心58附78 + 88 = 63,-16.8+ 18.8 + 20.8+ 22.8+ 24+ 25.8y = 215,6 _ _A fixiy

18、i y 6 x y 8 440 - 6 X 63 X 21.5b = -6=0.2,冷 2 q 225 564 - 6 X 63 X 63iXjXi 6 xa= y b x = 21.5 0.2 X 63= 8.9.故所求线性回归方程为 y= 0.2x+ 8.9.(2)由(1),知当 x = 98 时,y= 0.2X 98 + 8.9= 28.5.所以估计该等级的中国小龙虾销售单价为28.5元.考点三独立性检验(应用型)复习指导|通过对典型案例(如“肺癌与吸烟有关吗”等)的探究,了解独立性检验(只 要求2X 2列联表)的基本思想、方法及初步应用.核心素养:数学建模、数据分析(2019高考全国卷

19、I )某商场为提高服务质量,随机调查了 50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满 意的评价,得到下面列联表:满意不满意男顾客4010女顾客3020(1)分别估计男、女顾客对该商场服务满意的概率;附:K2=(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?n (ad be)2(a+ b)(c+ d)(a+ c)(b+ d)P(K2> k)0.0500.0100.001k3.8416.63510.828【解】(1)由调查数据知,男顾客中对该商场服务满意的比率为50“.8,因此男顾客对该商场服务满意的概率的估计值为0.8.女顾客中对该商场服务满意的比率为5

20、0= 0.6,因此女顾客对该商场服务满意的概率的估计值为06K2=100 X (40 X 20 30X 10)50X 50X 70X 302一4.762.由于4.762 > 3.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.(1)独立性检验的一般步骤根据样本数据制成 2X2列联表;根据公式“n (ad be)2oK2=计算K2的值;(a+ b)(c+d)(a+ c)(b + d)查表比较K2与临界值的大小关系,作出统计判断.解独立性检验的应用问题的关注点两个明确:(i )明确两类主体;(ii )明确研究的两个问题;两个准确:(i )准确画出2 X 2列联表;(i )准确

21、理解(2020长沙市统一模拟考试)为了解某校学生参加社区服务的情况,采用按性别分层抽样的方法进行调查,已知该校共有学生960人,其中男生560人,从全校学生中抽取了容量为n的样本,得到一周参加社区服务时 间的统计数据如下表:超过1小时不超过1小时男208女12m(1)求m,n的值;1小时与性别有(2)能否有95%的把握认为该校学生一周参加社区服务时间是否超过关?附:P(K2 > k)0.0500.0100.001k3.8416.63510.828n(ad be)2(a + b)(c+ d)(a + e)(b + d)解:(1)由已知,该校有女生400人,得 m = 8,从而 n= 20+

22、 8+ 12+ 8 = 48.作出2X 2列联表如下:超过1小时的人数不超过1小时的人数总计男20828女12820合计32164848 X (160 96)224K2= 一0.685 7 V 3.841.28X 20X 32X 1635所以没有95%的把握认为该校学生一周参加社区服务时间是否超过1小时与性别有关.基础题组练1. (2020陕西西安陕师大附中等八校联考)设两个变量x和y之间具有线性相关关系,它们的相关系数为r, y关于x的回归直线方程为y= kx+ b,则()A . k与r的符号相同B. b与r的符号相同C. k与r的符号相反D. b与r的符号相反解析:选A .因为相关系数r为

23、正,表示正相关,回归直线方程上升,r为负,表示负相关,回归直线方程下降,所以k与r的符号相同故选 A .2在一次对性别与说谎是否相关的调查中,得到如下数据:说谎不说谎总计男6713女8917总计141630根据表中数据,得到如下结论正确的一项是()A 在此次调查中有 95%的把握认为是否说谎与性别有关B 在此次调查中有 99%的把握认为是否说谎与性别有关C.在此次调查中有 99.5%的把握认为是否说谎与性别有关D 在此次调查中没有充分的证据显示说谎与性别有关30X (6X 9-7X 8)2解析:选D 由已知得k= i3x i7x i4x 16 0.002v 0.455,所以在犯错误的概率不超

24、过50%的情况下,认为说谎与性别无关,也就是说,在此调查中没有充分的证据显示说谎 与性别有关.3 经调查某地若干户家庭的年收入x(万元)和年饮食支出y(万元)具有线性相关关系,并得到y关于x的回归直线方程:y= 0.245X+ 0.321,由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加 万元.解析:x 变为 x + 1 , y= 0.245(x+ 1) + 0.321 = 0.245x+ 0.321 + 0.245,因此家庭年收入每 增加1万元,年饮食支出平均增加 0.245万元.答案:0.2454某高校“统计初步”课程的教师随机调查了选该课的一些学生的情况,具体情况如下表:性

25、别专业非统计专业统计专业男1310女720为了检验主修统计专业是否与性别有关,根据表中的数据得到K2 =(精确到0.001).若断定主修统计专业与性别有关系,这种判断出错的可能性为.(由临界值表知 P(K2> 3.841) 0.05, P(K2> 5.024)0.025 ,其中 k2=n(ad bc)2n=a + b + c+ d)(a + b)(c + d)(a + c)(b+ d)'7解析:由题意,根据公式可得K2 =50 X (13 X 20- 10 X 7)223 X 27 X 20 X 304.844.因为5.024> 4.844> 3.841,所以断

26、定主修统计专业与性别有关系,这种判断出错的可能 性为0.05.答案:4.8440.055某品牌手机厂商推出新款的旗舰机型,并在某地区跟踪调查得到这款手机上市时间(x个月)和市场占有率(y%)的几组相关对应数据:x12345y0.020.050.10.150.18根据上表中的数据,用最小二乘法求出y关于x的线性回归方程;(2)根据上述回归方程,分析该款旗舰机型市场占有率的变化趋势,并预测自上市起经 过多少个月,该款旗舰机型市场占有率能超过0.5%(精准到月).解:(1)根据表中数据,1计算 x = -X (1 + 2 + 3+ 4 + 5)= 3,51y =-X (0.02 + 0.05+ 0.

27、1 + 0.15+ 0.18) = 0.1,5A 1 X 0.02 + 2 X 0.05 + 3 X 0.1+ 4X 0.15+ 5X 0.18 5X 3 X 0.1所以 b=:2222= 0.042,12+ 22+ 32 + 42 + 52 5X 32所以 a= 0.1 0.042 X 3 = 0.026,所以线性回归方程为y= 0.042x 0.026.(2)由上面的回归方程可知,上市时间与市场占有率正相关,即上市时间每增加1个月,市场占有率都增加 0.042个百分点;由 A= 0.042x 0.026>0.5 ,解得 x> 13;预计上市13个月时,该款旗舰机型市场占有率能超

28、过0.5%.6. (2020辽宁五校模拟)进入二十一世纪以来,科技发展日新月异,工业生产更加依赖 科技的发展,沈阳某企业积极进行升级,对现有设备进行改造,为了分析设备改造前后的效果,现从设备改造前后生产的大量产品中各抽取了200件产品作为样本,检测一项质量指标值,若该项质量指标值落在20 , 40)内的产品视为合格品,否则为不合格品,图1是设备改造前的样本的频率分布直方图,表1是设备改造后的样本的频数分布表:图1:设备改造前的样本的频率分布直方图表1:设备改造后的样本的频数分布表质量指标值15, 20)20 , 25)25, 30)30, 35)35 , 40)40, 45频数43696283

29、24(1)完成下面的2 X 2列联表,并判断是否有99%的把握认为该企业生产的这种产品的质 量指标值与设备改造有关.设备改造前设备改造后合计合格品不合格品合计(2)根据图1和表1提供的数据,试从产品合格率的角度对改造前后设备的优劣进行比较.附P(K2> ko)0.1500.1000.0500.0250.010ko2.0722.7063.8415.0246.6352K2=n(adbc),其中 n= a + b + c+ d.(a + b)(c+ d)(a + c)(b + d)解:(1)根据题意填写2X 2列联表设备改造前设备改造后合计合格品172192364不合格品28836合计2002

30、00400胡 2.210 > 6.635,400X (172 X 8- 192X 28)2364 X 36 X 200 X 200所以有99%的把握认为该企业生产的这种产品的质量指标值与设备改造有关.(2)根据频率分布直方图和频数分布表知,设备改造前产品为合格品的概率为172 43200=50,设备改造后产品为合格品的概率为19224、43>200 25 50'显然设备改造后产品合格率更高,因此设备改造后性能更优.综合题组练1. (2020兰州市诊断考试)"一本书,一碗面,一条河,一座桥”曾是兰州的城市名片,而现在“兰州马拉松”又成为了兰州的另一张名片,随着全民运

31、动健康意识的提高,马拉松运动不仅在兰州,而且在全国各大城市逐渐兴起, 参与马拉松训练与比赛的人数逐年增加.为此,某市对人们参加马拉松运动的情况进行了统计调查.其中一项调查是调查人员从参与马拉松运动的人中随机抽取 200人,对其每周参与马拉松长跑训练的天数进行统计,得到以下统计表:平均每周进行长跑训练天数不大于23或4不少于5人数3013040若某人平均每周进行长跑训练天数不少于5,则称其为“热烈参与者”,否则称为“非热烈参与者”.(1)经调查,该市约有 2万人参与马拉松运动,试估计其中“热烈参与者”的人数;(2)根据上表的数据,填写下列2X 2列联表,并通过计算判断是否能在犯错误的概率不热烈参与者非热烈参与者总计男140女55总计n(ad be)2 、(a+ b)(c+ d)(a+ c)(b+ d)(n 为样本容量)超过0.01的前提下认为“热烈参与马拉松”与性别有关?P(K2k°)0.5000.4000.2500.1500.1000.0500.0250.0100.0050.001k00.4550.7081.3232.0722.7063.8415.0246.6357.87910.828附:K2=解:(1)以200人中“

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论