2020与名师对话文变量间的相关关系统计案例_第1页
2020与名师对话文变量间的相关关系统计案例_第2页
2020与名师对话文变量间的相关关系统计案例_第3页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第十章?统计、统计案例(必修3、选修1-2)第三节变量间的相关关系、统计案例高考概览:1?会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系;2?了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程;3?了解独立性检验(只要求2X2列联表)的基本思想、方法及其简单应用;4?了解回归分析的基本思想、方法及其简单应用.主干知识机理Zhug汕whishghuli_?逻主干梳理精要归纳知识梳理1.变量间相关关系常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系:与函数关系不同、相关关系是一种非确定性关系从散点图上看,点散布在从左下角到右上角的区域内,称这两

2、个变量为五点散布在从左上角到右下角的区域内,则称这两个变量负相关A_两个变量线性相关从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线口H回归直线.回归方程最小二乘法:使得样本数据的点到回归育线的距离的平方和最小的方法叫最小二乘法.i=1vXiyi 回归方程为y=bx+a,贝Sb=.n2xinxi=1X乂yyb一,其中b是回归方程的斜率,告是在y轴上的截距,(二一)称为样本点的中心二(Kx呼y)i=1用它来衡量两个变量间的线性相关关系的强弱.样本相关系数当r0时n表明两个变量正相关当r0.75时,认为两个变量有很强的线性相关关系.独立性检验(

3、1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为冷,X2和yi,y2,其样本频数列联表为2X2列联表y1y2总计X1aba+bX2cdc+d总计a+cb+da+b+c+da+bc+d(其中n=+b+c+d为样本容量),则利用独立性检验判断表来判断“X与Y的关系”.辨识巧记1.两种关系函数关系与相关关系函数关系是一种确定性关系,相关关系是一种非确定性关系对线性相关关系求回归方程后,可以通过确定的函数关系对两个变量间的取值进行估计.回归直线方程的两个关注点(1)样本数据点不一定

4、在回归直线上,回归直线必过(x,y)点.在回归直线方程y=bx+a中,bo时,两个变量呈正相关关系;bkg)0.100.050.0250.010ko2.7063.8415.0246.635经计算,统计量K2?4.762,则有握认为药物有效.()99.5%B.95%C.99%D.97.5%解析因为k23.841,所以有95%的把握认为药物有效.故选B.答案B5.调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y对x的回归直线方程:y=0.254x+0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮

5、食支出平均增加元.解析由题意知,0.254(x+1)+0.321(0.254X+0.321)=0.254.答案0.254核儿考点犬破_H廿空_精研考题突破重难考点一相关关系的判断【例1】(1)下列两变量中不存在相关关系的是()人的身高与视力;曲线上的点与该点的坐标之间的关系;某农田的水稻产量与施肥量;某同学考试成绩与复习时间的投入量;匀速行驶的汽车的行驶距离与时间;商品的销售额与广告费A.B.D.对变量x,y有观测数据(为,yi)(i=1,2,3,4,5),得表1;对变量u,v有观测数据(Ui,Vi)(i=1,2,3,4,5),得表2.由这两个表可以判断()表1:x123452.93.33.6

6、4.45.1u12345v2520211513A.变量x与y正相关,u与v正相关B.变量x与y负相关,u与v正相关变量x与y负相关,u与v负相关D.变量x与y正相关,u与v负相关解析(1)人的视力不受身高的影响,故不存在相关关系;是函数关系;是相关关系,故选A.(2)出两组数据的散点图,如图所示,由散点图可知变量与y正相关,u与v负相关,故选D.VI1V-?25?201510*1?-?012345XO1234答案(1)A(2)D名师点拨A判定两个变量正、负相关性的方法画散点图:点的分布从左下角到右上角,两个变量正相关;上角到右下角,两个变量负相关.分别作x点的分布从左相关系数:r0时,正相关;

7、r0时,正相关;b0时,负相关.对点训练1.已知变量x和y满足关系y=0.1x+1,变量y与z正相关.下列结论中正确的是()A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关x与y负相关,x与z负相关D.x与y负相关,x与z正相关解析因为y=0.1x+1,x的系数为负,故x与y负相关;而y与z正相关,故x与z负相关.故选C.答案C2.对四组数据进行统计,获得以下散点图,关于其相关系数的101耳20253t)3SA.2V40A)0.0500,0100.001k3.8416,63510.828根据中的列联表,能否有99%的把握认为两种生产方式的效率有差异?解(1)第二种生产方式的效率更高

8、理由如下(任写一种即可):由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高. 由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高. 由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.由茎叶图可知:用第一种生产方式的工人完

9、成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又因为用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.由茎叶图可知中位数m=80.79+81列联表如下:超过m不超过m第一种生产方式155第一种生产方式5152o40X(15X15-5X5)2(3)由于K2=以有99%的把握认为两种生产方式的效率有差异20x20X20X20=16635,所名师点拨A独立性检验的一般步骤

10、根据样本数据制成2X2列联表;22n(adbe)2根据公式K2=计算K2的值;(a+b;(c+d)(a+c;(b+d)查表比较K2与临界值的大小关系,作出统计判断.对点训练(2019九江第一次统考)某校数学课外兴趣小组为研究数学成绩是否与性别有关,先统计本校高三年级每个学生一学期数学成绩平均分(采用百分制),剔除平均分在40分以下的学生后,共有男生300名,女生200名.现采用分层抽样的方法,从中抽取了100名学生,按性别分为两组,并将两组学生成绩分为6组,得到如下所示频数分布表.分数段40,50)50,60)60,70)70,80)80,90)90,100男39181569女64510132

11、(1)估计男、女生各自的平均分(同一组数据用该组区间中点值作代表),从计算结果看,数学成绩与性别是否有关;规定80分以上为优分(含80分),请你根据已知条件作出2X2列联表,并判断是否有90%以上的把握认为“数学成绩与性别有优分非优分合计男生女生附:K2=合计|X(15X2515X45f60X40X30X70?1.79,n(adbcfa+bc+da+cb+dP(K2k)0.250.150.100.05k1.322.0722.7063.84解(1)一男=45X0.05+55X0.15+65X0.3+75X0.25+85X0.1+95X0.15=71.5,x女=45X0.15+55X0.1+65X

12、0.125+75X0.25+85X0.325+(1) 95X0.05=71.5,从男、女生各自的平均分来看,并不能判断数学成绩与性别有关由频数分布表可知:在抽取的100名学生中,“男生组”中的优分有15可得K=人,“女生组”中的优分有15人,据此可得2X2列联表如下:优分非优分合计男生154560女生152540合计3070100因为1.79思维建模提升素养审题系列一一数据分析处理与转化素养解读:数据分析是指针对研究对象获得相关数据,运用统计方法对数据中的有用信息进行分析和推断,形成知识的过程.主要包括:收集数据,整理数据,提取信息,构建模型对信息进行分析、推断,获得结论.数据分析是大数据时代

13、数学应用的主要方法,已经深入到现代社会生活和科学研究的各个方面.在数据分析核心素养的形成过程中,学生能够提升数据处理的能力,增强基于数据表达现实问题的意识,养成通过数据思考问题的习惯,积极依托数据探索事物本质、关联和规律的活动经验.【典例】(2017全国卷I)为了监控某种零件的一条生产线的生产过程,检验员每隔30min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm)下面是检验员在一天内依次抽取的16个零件抽取次序12345678零件尺寸9.9510.19.969.9610.019.929.9810.0A抽取次序9210111213141516零件尺寸10.269.9110.1310.0

14、29.2210.0410.059.95的尺寸:116严Xi-x2=1S/4f16-16x2jo16-yP/16|=1?0.212,Ji-1I_VVi经计算得x=16Xi=9.97,i=1-8.5?18.439/16(Xi-x)(ii=18.5)=-2.78,其中Xi为抽取的第i个零件的尺寸,i=1,2,16.求(Xi,i)(i=1,2,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(或|r|0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变/J、).(2)一天内抽检零件中,如果出现了尺寸在(x3s,x+3s)之外的零件,就认为这条生

15、产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.从这一天抽检的结果看,是否需对当天的生产过程进行检查?在(3s,+3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差(精确到0.01)附:样本(Xi,yi)(i=1,2,,n)的相关系数r=n务xyi-yI!2。.00必0.09.切入点(1)利用相关系数的公式,求出相关系数r,并把计算的结果的绝对值与0.25进行比较,即可得出结论;(2)求出3s与一+3s,并对已抽查的数据进行检验,判断是否有数据落在3s,+3s)之外,从而可断定是否需要对当天的生产过程进行检查;依题意剔除离群值,再利用

16、均值与标准差的公式,即可得结论规范解答(1)由样本数据得(Xi,i)(i=1,2,,16)的相关系数为16_Xii=1xIi8.50.212XJ6X18.439一2.78由于|r|111-111ailir1-II11?11I1-n-Ii11系.温度x/C20222426283032产卵数y/个350630010212464113322t=x225000onn4845766767849001024z=lny200150792.303.043.184.164.735.7710050182022242628303234J.y26SQ80SxfJ)r=It(tr-fUyf-y-)TJ1.137.540

17、.43iLH乳57i-11-D?i0PDOO12其中xi,t=7二4,乙=lnyi,z=7二乙.1i=i171*2i=1图判断哪一个模型更适宜作为昆虫的产卵数y关于温度x的回归方程类型?(给出(1)分别在下图(2)中画出y关于t的散点图和z关于x的散点图,根据散点玉判断即可,不必说明理由)40050060070080090010001100120013001S2022242628303234根据表中数据,分别在两个模型下建立y关于x的回归方程,并在两个模型下分别估计温度为30C时的产卵数.(参考数据:e4.65?104.58,e4.85?127.74,?156.02)若模型的相关指数分别为R1

18、=0.82,R2=0.96,请根据相关指数判断哪个模型的拟合效果更好.附:对于一组数据(U1,V),(U2,V2),-,(Un,Vn),其回归直线V=BU+a的斜率和截距的最小二乘估计分别为B=送(u_uXVi_v)i=1AA35030025020015010011111111l?1【11.1_-IIILI1t11LB11_J.L-&111.11111|I1TJ-11”一厂。1-U-r1-JL_71-4-11_-1rIj1|L-iiii11111111I11_T1-f7i|Il*1111一1-.4-111-?*,,1-J-1-J-1-1-11111-J-40050060070080090010

19、00110012001300画出z关于x的散点图,如图所示.根据散点图可以判断模型更适宜作为昆虫的产卵数y关于温度x的回归方程类型.对于模型,因为t=x2,所以y=Cix2+C2=Cit+C2,7tjTyi-yi=1所以Ci=0.43,C2=yCit=80一7ti-T2i=10.43X692=-217.56,故所求回归方程为y=0.43x2-217.56,当x=30时,y=0.43X302-217.56=169.44,故估计温度为30C时的产卵数为169个;对于模型,因为y=eCsX+C4,所以z=lny=C3X+C4,7Zi-ZXi-Xi=1A=0.32,C4=zC3X=3.57所以C=xi

20、2Xi-i_10.32X26=-4.75,故所求回归方程为y=e0-32x-4-75,当x=30时,y=e0.32x30-4.75?127.74,故估计温度为30C时的产卵数为128个.因为R2=0.82,R2=0.96,R10,因此y与x具有正线性相关关系,所以选项A正确;由最小二乘法及回归直线方程的求解可知回归直线过样本点的中心(-x,-y),所以选项B正确;由于用最小二乘法得到的回归直线方程是估计值,而不是具体值,若该中学某高中女生身高增加1cm,则其体重约增加0.85kg,所以选项C正确,选项D不正确,故选D.答案D二、填空题6.为了均衡教育资源,加大对偏远地区的教育投入,调查了某地若

21、干户家庭的年收入x(单位:万元)和年教育支出y(单位:万元),调查显示年收入x与年教育支出y具有线性相关关系,并由调查数据得到y与x的回归直线方程为y=0.15x+0.2.由回归直线方程可知,家庭年收入每增加1万元,则年教育支出平均增加万元.解析因为回归直线的斜率为0.15,所以家庭年收入每增加1万元,年教育支出平均增加0.15万元.答案0.157.(2018福建龙岩质检)为了判断高中二年级学生喜欢足球运动是否与性别有关系,现随机抽取50名学生,得到如下2X2列联表:喜欢不喜欢总计男生151025女生52025总计203050参考公式a+b加b+dn=a+b+c+dP(K2&)0.0100.0

22、050.001k。6.6357.87910.828则有上的把握认为“喜欢足球与性别有关”解析根据题表中数据计算得K,=50x15X20-10X525X25x20X30?8.3337.879,所以有99.5%以上的把握认为“喜欢足球与性别有关”.答案99.5%8.(2019湖南衡阳联考)甲、乙、丙、丁四位同学各自对A,B两个变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m,如下表:r甲乙丙丁0.820.780.690.85m106115124103则学的试验结果体现A,B两变量有更强的线性相关解析r越大,m越小,线性相关性越强答案丁三、解答题9.从某居民区随机抽取10个家

23、庭,获得第i个家庭的月收入x(单1010位:千元)与月储蓄yi(单位:千元)的数据资料,算得Xi=80,yii=1i=11010=20,xiyi=184,xj=720.i=1i=1(1)求家庭的月储蓄y对月收入x的线性回归方程y=bx+a;与y之间是正相关还是负相关;若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.判断变量xXiyinxy附参考公式:AAb=,a=ybx.n22解(1)由题意知n=10,x=1n80为=10=8,i=1-1n20y=jyi=10=2,i=1n又lxx=x2-n以2=720-10X82=80,i=1nlxy=Ayinxy=18410X8X2=24,i=1由此得

24、b=1=80=0.3,a=ybx=20.3X8=0.4,故所求线性回归方程为y=0.3x04由于变量y的值随x值的增加而增加(b=0.30),故x与y之间是正相关.将x=7代入回归方程可以预测该家庭的月储蓄为y=0.3X7一0.4=1.7(万元)(2019福建厦门三中模拟)某大型企业人力资源部为了研究企业员工工作积极性和对待企业改革的关系,随机抽取了100名员工进行调查,其中支持企业改革的调查者中,工作积极的有46人,工作一般的有35人,而不太赞成企业改革的调查者中,工作积极的有4人,工作一般的有15人.(1) 根据以上数据建立一个2X2列联表;(2) 对于人力资源部的研究项目,根据以上数据可

25、以认为企业的全体员工对待企业改革的态度与其工作积极性是否有关系?2参考公式:K2=a+be+%da+战+d(其中n=a+b+e+d)P(K2耳岛)0.500.400.25O+150.106050.0250.010仇0050.0010,4550*7081.3232.0722.7063.8415.0246.6357r87910.823解(1)根据题设条件,得2X2列联表如下:支持企业改革不太赞成企业改革总计工作积极46450工作般351550总计8119100(2)提出假设:企业的全体员工对待企业改革的态度与其工作积根据(1)中的数据,可以求得100X15X46-35X42k=?7.8626.63

26、5,50X50X19X81所以有99%的把握说抽样员工对待企业改革的态度与工作积极性有关,从而认为企业的全体员工对待企业改革的态度与其工作积极性有关.能力提升练10. (2019黑龙江哈尔滨一模)千年潮未落,风起再扬帆,为实现“两个一百年”奋斗目标、实现中华民族伟大复兴的中国梦奠定坚实基础,某校积极响应国家号召,不断加大拔尖人才的培养力度,据不完全统计:年份(届)2014201520162017学科竞赛获省级等奖及以上的学生人数x51495557被清华、北大等世界名校录取的学生人数y10396108107根据上表可得回归方程y=bx+a中的b为1.35,该校2018届同学在学科竞赛中获省级一等

27、奖及以上的学生人数为63,据此模型预测该校今年被清华、北大等世界名校录取的学生人数为()A.111B.117C.118D.123b-=103.5-解析因为-=53,-=103.5,所以a=-1.35X53=31.95,所以回归直线方程为y=1.35x+31.95.当x=63时,代入解得y=117,故选B.答案B(2018山东济南诊断)某中学学生会为了调查爱好游泳运动与2运动,得到如下的列联表.由K2=n(adbe)并参照附性别是否有关,通过随机询问110名性别术+商C+建基否爰好命泳表,得到的正确结论是()男女总计爱好402060不爱好203050总计6050110附表:P(K2k)0.050

28、0.0100.11k3.8416.63510.828A.在犯错误的概率不超过1%的前提下,认为爱好游泳运动与性别有关”11. B.在犯错误的概率不超过1%的前提下,认为“爱好游泳运动与性别无关”C.有99.9%的把握认为“爱好游泳运动与性别有关”D.有99.9%的把握认为“爱好游泳运动与性别无关”2110X(40X3020X20f解析因为K=60X50X60X50?7.86.635,所以有99%的把握认为“爱好游泳运动与性别有关”,所以在犯错误的概率不超过1%的前提下,认为爱好游泳运动与性别有关”A.故选答案A某车间为了规定工时定额,需要确定加工零件所花费的时间,为此做了四次试验,根据试验数据得到如下图所示的散点图,其中X表示零件的个数,y表示加工时间,则y关于x的线性回归方程是n附参考公式:Ab=a=ybx.解析2+3+4城nxi=1=3.5,2.5+3+4+4.54=3.5,3.50.7.失,但可以确定横轴是从0开始计数的.(1) 根据频率分布直方图计算图中各小矩形的宽度;试估计该公司投入4万元广告费用之后,对应销售收益的平均值(以各组的区间中点值代表该组的取值);该公司按照类似的研究方法,测得另外一些数据,并整理得到下表:广告投入X/

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论