相关性、最小二乘估计、回归分析与独立性检验_第1页
相关性、最小二乘估计、回归分析与独立性检验_第2页
相关性、最小二乘估计、回归分析与独立性检验_第3页
相关性、最小二乘估计、回归分析与独立性检验_第4页
相关性、最小二乘估计、回归分析与独立性检验_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三节相关性、最小二乘估计、回归分析与独立性检验三年9考高考指数:★★★1.会作两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(不记公式).3.了解独立性检验的基本思想、方法及其初步应用.4.了解回归分析的基本思想、方法及其简单应用.1.线性回归方程的建立及应用和独立性检验的应用是考查重点;2.题型以选择题和填空题为主,主要是求线性回归方程的系数或利用线性回归方程进行预测,在给出临界值的情况下判断两个变量是否有关.1.相关性(1)散点图:在考虑两个量的关系时,为了对_____之间的关系有一个大致的了解,人们通常将______________的点描出来,这些点就组成了变量之间的一个图,通常称这种图为变量之间的散点图.(2)曲线拟合:从散点图上可以看出,如果变量之间_________________,这些点会有一个_____的大致趋势,这种趋势通常可以用一条___________来近似,这种近似的过程称为曲线拟合.变量所对应存在着某种关系光滑的曲线变量集中(3)线性相关:若在两个变量x和y的散点图中,所有点看上去都在__________附近波动,则称变量间是线性相关的.此时,我们可以用___________来近似.(4)非线性相关:若散点图上所有点看上去都在_________________________附近波动,则称此相关为非线性相关.此时,可以用___________来拟合.(5)不相关:如果所有的点在散点图中_________________,则称变量间是不相关的.一条直线一条直线某条曲线(不是一条直线)一条曲线没有显示任何关系【即时应用】(1)思考:相关关系与函数关系有什么异同点?提示:相同点:两者均是指两个变量的关系.不同点:①函数关系是一种确定的关系,相关关系是一种非确定的关系.②函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.(2)判断下列各关系是否是相关关系.(请在括号内填“是”或“否”)①路程与时间、速度的关系;()②加速度与力的关系;()③产品成本与产量的关系;()④圆周长与圆面积的关系;()⑤广告费支出与销售额的关系.()【解析】①②④是确定的函数关系,成本与产量,广告费支出与销售额是相关关系.答案:①否②否③是④否⑤是2.回归直线方程与相关系数(1)最小二乘法如果有n个点(x1,y1),(x2,y2),…,(xn,yn),可以用下面的表达式来刻画这些点与直线y=a+bx的接近程度:_____________________________________________________使得上式达到_________的直线y=a+bx就是我们所要求的直线,这种方法称为最小二乘法.[y1-(a+bx1)]2+[y2-(a+bx2)]2+…+[yn-(a+bxn)]2.最小值(2)线性回归方程假设样本点为(x1,y1),(x2,y2),…,(xn,yn),则直线方程y=a+bx称为线性回归方程,a、b是线性回归方程的________.系数(3)相关系数r①②当r>0时,称两个变量___________.当r<0时,称两个变量___________.当r=0时,称两个变量_____________.r的绝对值越接近于1,表明两个变量之间的线性相关程度越高;r的绝对值越接近于0,表明两个变量之间的线性相关程度越低.正相关负相关线性不相关【即时应用】(1)由一组样本数据(x1,y1),(x2,y2),…,(xn,yn)得到回归直线方程y=a+bx,判断下面说法是否正确.(请在括号内打“√”或“×”)①任何一组观测值都能得到具有代表意义的回归直线方程;()②直线y=a+bx至少经过点(x1,y1),(x2,y2),…,(xn,yn)中的一个点;()③直线y=a+bx的斜率()④直线y=a+bx和各点(x1,y1),(x2,y2),…,(xn,yn)的偏差是该坐标平面上所有直线与这些点的偏差中最小的.()(2)已知回归方程y=4.4x+838.19,则可估计x与y的增长速度之比约为_________.【解析】(1)任何一组观测值都能利用公式得到直线方程,但这个方程可能无意义,①不正确;回归直线方程y=bx+a经过样本点的中心可能不经过(x1,y1),(x2,y2),…,(xn,yn)中的任何一点,这些点分布在这条直线附近,②不正确;③正确;④正确.(2)x与y的增长速度之比即约为回归方程的斜率的倒数答案:(1)①×②×③√④√(2)3.独立性检验(1)2×2列联表设A,B为两个变量,每一个变量都可以取两个值,变量A:A1,A2=;变量B:B1,B2=通过观察得到如表所示的数据:BAB1B2总计A1A2总计aba+bcdc+da+cb+dn=a+b+c+d(2)独立性判断方法选取统计量________________________,用它的大小来检验变量之间是否独立.①当χ2__________时,没有充分的证据判定变量A,B有关联,可以认为变量A,B是没有关联的;②当χ2__________时,有90%的把握判定变量A,B有关联;③当χ2__________时,有95%的把握判定变量A,B有关联;④当χ2__________时,有99%的把握判定变量A,B有关联.≤2.706>2.706>3.841>6.635【即时应用】(1)下面是一个2×2列联表则表中a、b处的值分别为_____________.y1y2总计x1a2173x222527总计b46(2)在一项打鼾与患心脏病的调查中,共调查了1671人,经过计算χ2的观测值为27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是___________的(填“有关”或“无关”).【解析】(1)∵a+21=73,∴a=52.又∵a+2=b,∴b=54.(2)∵27.63>6.635,∴有99%的把握认为“打鼾与患心脏病有关”.答案:(1)52、54(2)有关 相关关系的判断【方法点睛】利用散点图判断相关关系的技巧利用散点图判断两个变量是否有相关关系是比较简便的方法:(1)在散点图中如果所有的样本点都落在某一函数的曲线上,就用该函数来描述变量之间的关系,即变量之间具有函数关系;(2)如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系;(3)如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.【例1】关于人体的脂肪含量(百分比)和年龄关系的研究中,得到如下一组数据:判断它们是否有相关关系.年龄2327394145495051脂肪含量

9.517.821.225.927.526.328.229.6【解题指南】判断有无相关关系,一种常用的简便方法就是绘制散点图.【规范解答】本题涉及两个变量:年龄与脂肪含量,可以以年龄为自变量,考查脂肪含量的变化趋势,分析相关关系通常借助散点图.以年龄作为x轴,脂肪含量作为y轴,可得相应的散点图如图所示.由散点图可知,两者之间具有相关关系.【反思·感悟】粗略判断相关性,可以观察一个变量随另一个变量变化而变化的情况.画出散点图能够更直观的判断是否相关,相关时是正相关还是负相关.【变式训练】5个学生的数学和物理成绩如下表:画出散点图,并判断它们是否有相关关系.学生学科

ABCDE数学8075706560物理7066686462【解析】把数学成绩作为横坐标,把相应的物理成绩作为纵坐标,在直角坐标系中描点(xi,yi)(i=1,2,…,5),作出散点图如图.从图中可以直观地看出数学成绩和物理成绩具有相关关系,且当数学成绩增大时,物理成绩也在由小变大,即它们正相关. 线性回归方程及其应用【方法点睛】求样本数据的线性回归方程的步骤第一步,计算平均数第二步,求和第三步,计算第四步,写出回归方程y=bx+a.【提醒】对于任意一组样本数据,利用上述公式都可以求得“回归方程”,如果这组数据不具有线性相关关系,即不存在回归直线,那么所得的“回归方程”是没有实际意义的.因此,对一组样本数据,应先作散点图,在具有线性相关关系的前提下再求回归方程.【例2】(1)(2011·广东高考)某数学老师身高176cm,他爷爷、父亲和儿子的身高分别是173cm、170cm和182cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为__________cm.(2)测得某国10对父子身高(单位:英寸)如下:父亲身高(x)

60626465666768707274儿子身高(y)

63.6

65.2

6665.566.967.167.468.370.170①画出散点图,说明变量y与x的相关性;②如果y与x之间具有线性相关关系,求线性回归方程.(已知:≈4490.34,=44794,=44941.93,=44842.4)【解题指南】(1)求出回归方程,代入相关数据求得;(2)①根据散点图判断相关性.②根据已知数据和提示的公式数据求解,写出线性回归方程.【规范解答】(1)由题设知:设相对的父亲的身高为x,相对的儿子的身高为y,它们对应的取值如表所示于是有a=176-173×1=3,得回归方程为y=x+3,所以当x=182时,y=185.答案:185x173170176y170176182(2)①散点图如图所示:观察散点图中点的分布可以看出:这些点在一条直线的附近分布,所以变量y与x之间具有线性相关关系.②设回归方程为y=bx+a.由=67.01-0.4646×66.8≈35.9747.得所求的线性回归方程为y=0.4646x+35.9747.【互动探究】若本例(2)题干不变,如果父亲的身高为73英寸,试估计儿子的身高.【解析】由本例(2)可知回归方程为y=0.4646x+35.9747.当x=73时,y=0.4646×73+35.9747≈69.9(英寸).所以当父亲身高为73英寸时,儿子的身高约为69.9英寸.【反思·感悟】求线性回归方程,主要是利用公式,求出回归系数b,a,求解过程中注意计算的准确性和简便性.利用回归方程预报,就是求函数值.【变式训练】一般来说,一个人脚越长,他的身高就越高.现对10名成年人的脚长x与身高y进行测量,得如下数据(单位:cm):x20212223242526272829y141146154160169176181188197203作出散点图后,发现散点在一条直线附近.经计算得到一些数据:某刑侦人员在某案发现场发现一对裸脚印,量得每个脚印长26.5cm,请你估计案发嫌疑人的身高为_________cm.【解析】由已知故y=7x.当x=26.5时,y=185.5.答案:185.5 独立性检验的基本思想及其应用【方法点睛】利用统计量χ2进行独立性检验的步骤(1)根据数据列出2×2列联表;(2)根据公式计算χ2的值;(3)比较χ2与临界值的大小关系,作出统计推断.【例3】某企业为了更好地了解设备改造前后与生产合格品的关系,随机抽取了180件产品进行分析,其中设备改造前的合格品有36件,不合格品有49件,设备改造后生产的合格品有65件,不合格品有30件.根据所给数据:(1)写出2×2列联表;(2)判断产品是否合格与设备改造是否有关.【解题指南】列表后利用χ2的值进行检验.【规范解答】(1)由已知数据得(2)∵≈12.38.由于12.38>6.635,所以有99%以上的把握认为产品是否合格与设备改造有关.合格品不合格品合计设备改造后653095设备改造前364985合计10179180【反思·感悟】准确计算χ2的值是关键.能有多大的把握认为两个变量有关,应熟悉常用的几个临界值.【变式训练】为研究是否喜欢饮酒与性别之间的关系,在某地区随机抽取290人,得到如下列联表:利用列联表的独立性检验判断是否喜欢饮酒与性别是否有关?喜欢饮酒不喜欢饮酒总计男10145146女12420144总计22565290【解析】由列联表中的数据得∵χ2≈11.953>6.635.所以有99%以上的把握认为是否喜欢饮酒与性别有关.【变式备选】有两个分类变量X与Y,其一组观测的2×2列联表如下表.其中a,15-a均为大于5的整数,则a取何值时有90%以上的把握认为X与Y之间有关系?y1y1x1a20-ax115-a30+a【解析】要有90%以上的把握认为X与Y之间有关系,则χ2>2.706,而χ2==解χ2>2.706得a>7.19或a<2.04.又因为a>5且15-a>5,a∈Z,所以a=8,9,故当a取8或9时有90%以上的把握认为X与Y之间有关系.【满分指导】线性回归方程解答题的规范解答【典例】(12分)(2011·安徽高考)某地最近十年粮食需求量逐年上升,下表是部分统计数据:年份20022004200620082010需求量(万吨)236246257276286(1)利用所给数据求年需求量与年份之间的回归直线方程y=bx+a;(2)利用(1)中所求出的直线方程预测该地2012年的粮食需求量.【解题指南】将数据进行处理,把数据同时减去一个数代入公式计算;利用公式求回归直线方程,并进行预测.【规范解答】(1)由所给数据看出,年需求量与年份之间是近似直线上升,下面来求回归直线方程,先将数据预处理如下:…………………2分年份-2006

-4

-20

2

4

需求量-257-21-1101929对预处理的数据,容易算得………………4分………………6分由上述计算结果,知所求回归直线方程为y-257=b(x-2006)+a=6.5(x-2006)+3.2.……………8分即y=6.5(x-2006)+260.2.……………10分(2)利用所求得的直线方程,可预测2012年的粮食需求量为6.5×(2012-2006)+260.2=6.5×6+260.2=299.2(万吨).…………12分【阅卷人点拨】通过高考中的阅卷数据分析与总结,我们可以得到以下失分警示和备考建议:失分警示在解答本题时有两点容易造成失分:(1)不知道回归直线必过中心点,求不出回归直线方程;(2)应用回归直线进行预测时对回归系数理解错误.备考建议

解决回归分析问题时,还有以下几点容易造成失分,在备考时要高度关注:(1)没有对变量间的相关性判断,求出的回归方程无意义;(2)公式中的系数计算失误;另外要注意联系实际,结合生活中的经验解决相关问题.1.(2011·江西高考)为了解儿子身高与其父亲身高的关系,随机抽取5对父子身高数据如下则y对x的线性回归方程为()(A)y=x-1(B)y=x+1(C)y=88+x(D)y=176父亲身高x(cm)

174

176176176

178儿子身高y(cm)

175175176177177【解析】选C.由表中数据知回归直线是上升的,首先排除D.由线性回归性质知:点=(176,176)一定在回归直线上,代入各选项检验,只有C符合,故选C.2.(2011·陕西高考)设(x1,y1),(x2,y2),…,(xn,yn)是变量x和y的n个样本点,直线l是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论正确的是()(A)直线l过点(B)x和y的相关系数为直线l的斜率(C)x和y的相关系数在0到1之间(D)当n为偶数时,分布在l两侧的样本点的个数一定相同【解析】选A.选项具体分析结论A回归直线l一定过样本点的中心;由回归直线方程的计算公式可知直线l必过点

正确B相关系数用来衡量两个变量之间的相关程度,直线的斜率表示直线的倾斜程度;它们的计算公式也不相同不正确选项具体分析结论C

相关系数的值有正有负,还可以是0;当相关系数在0到1之间时,两个变量为正相关,在-1到0之间时,两个变量负相关

不正确

D

l两侧的样本点的个数分布与n的奇偶性无关,也不一定是平均分布

不正确

3.(2011·辽宁高考)调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y对x的回归直线方程:y=0.254x+0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加___________万元.【解析】由于y=0.254x+0.321,当x增加1万元时,年饮食支出y增加0.254万元.答案:0.2549、春去春又回,新桃换旧符。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论