已阅读5页,还剩15页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1.两个变量的线性相关(1)正相关在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)负相关在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)线性相关关系、回归直线如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.2.回归方程(1)最小二乘法求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法.(2)回归方程方程 x 是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),(xn,yn)的回归方程,其中 , 是待定参数.3.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.(2)样本点的中心对于一组具有线性相关关系的数据(x1,y1),(x2,y2),(xn,yn),其中(,)称为样本点的中心.(3)相关系数当r0时,表明两个变量正相关;当r0时,表明两个变量负相关.r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.4.独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.(2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为x1,x2和y1,y2,其样本频数列联表(称为22列联表)为22列联表y1y2总计x1ababx2cdcd总计acbdabcd构造一个随机变量K2,其中nabcd为样本容量.(3)独立性检验利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.【思考辨析】判断下面结论是否正确(请在括号中打“”或“”)(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.()(2)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.()(3)只有两个变量有相关关系,所得到的回归模型才有预测价值.()(4)某同学研究卖出的热饮杯数y与气温x()之间的关系,得回归方程2.352x147.767,则气温为2时,一定可卖出143杯热饮.()(5)事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越大.()(6)由独立性检验可知,有99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.()1.(2015湖北)已知变量x和y满足关系 0.1x1,变量y与z正相关.下列结论中正确的是()A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关答案C解析因为 0.1x1,0.10),所以 0.1 x ,0.1 r;x、y之间不能建立线性回归方程.答案(1)D(2)解析(1)所有点均在直线上,则样本相关系数最大即为1,故选D.(2)显然正确;由散点图知,用拟合的效果比用 x 拟合的效果要好,故正确;x,y之间能建立线性回归方程,只不过预报精度不高,故不正确.思维升华判定两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r0时,正相关;r0时,正相关; 0时,y与x正相关,当0时,y与x负相关,一定错误.(2)对于变量Y与X而言,Y随X的增大而增大,故Y与X正相关,即r10;对于变量V与U而言,V随U的增大而减小,故V与U负相关,即r20,所以选C.题型二线性回归分析例2(2015课标全国)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费xi和年销售量yi(i1,2,8)数据作了初步处理,得到下面的散点图及一些统计量的值.(xi)2(wi)2(xi)(yi)(wi)(yi)46.65636.8289.81.61 469108.8表中wi,i.(1)根据散点图判断,yabx与ycd哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;(3)已知这种产品的年利润z与x,y的关系为z0.2yx.根据(2)的结果回答下列问题:年宣传费x49时,年销售量及年利润的预报值是多少?年宣传费x为何值时,年利润的预报值最大?附:对于一组数据(u1,v1),(u2,v2),(un,vn),其回归直线vu的斜率和截距的最小二乘估计分别为,.解(1)由散点图可以判断,ycd适宜作为年销售量y关于年宣传费x的回归方程类型.(2)令w,先建立y关于w的线性回归方程,由于 68, 563686.8100.6,所以y关于w的线性回归方程为 100.668w,因此y关于x的回归方程为 100.668.(3)由(2)知,当x49时,年销售量y的预报值 100.668576.6,年利润z的预报值 576.60.24966.32.根据(2)的结果知,年利润z的预报值 0.2(100.668)xx13.620.12.所以当6.8,即x46.24时, 取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.思维升华(1)回归直线 x 必过样本点的中心(,).(2)正确运用计算 , 的公式和准确的计算,是求线性回归方程的关键.(3)分析两变量的相关关系,可由散点图作出判断,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.某车间为了制定工时定额,需要确定加工零件所花费的时间,为此做了四次试验,得到的数据如下:零件的个数x(个)2345加工的时间y(小时)2.5344.5(1)在给定的坐标系中画出表中数据的散点图;(2)求出y关于x的线性回归方程x,并在坐标系中画出回归直线;(3)试预测加工10个零件需要多少小时?(注:, )解(1)散点图如图.(2)由表中数据得:iyi52.5,3.5,3.5,54, 0.7,1.05,0.7x1.05,回归直线如图所示.(3)将x10代入线性回归方程,得0.7101.058.05,故预测加工10个零件约需要8.05小时.题型三独立性检验例3大家知道,莫言是中国首位获得诺贝尔奖的文学家,国人欢欣鼓舞.某高校文学社从男女生中各抽取50名同学调查他们对莫言作品的了解程度,结果如下:阅读过莫言的作品数(篇)0252650517576100101130男生36111812女生48131510(1)试估计该校学生阅读莫言作品超过50篇的概率;(2)对莫言作品阅读超过75篇的则称为“对莫言作品非常了解”,否则为“一般了解”.根据题意完成下表,并判断能否有75%的把握认为对莫言作品非常了解与性别有关?非常了解一般了解合计男生女生合计附:K2P(K2k0)0.500.400.250.150.100.050.050.010k00.4550.7081.3232.0722.7063.8415.0246.635解(1)由抽样调查得阅读莫言作品在50篇以上的频率为,据此估计该校学生阅读莫言作品超过50篇的概率约为.(2)非常了解一般了解合计男生302050女生252550合计5545100根据列联表数据得K21.0106.635,所以有99%的把握认为其亲属的饮食习惯与年龄有关.22.求线性回归方程的方法技巧典例(12分)某地最近十年粮食需求量逐年上升,下表是部分统计数据:年份20062008201020122014需求量/万吨236246257276286(1)利用所给数据求年需求量与年份之间的线性回归方程x;(2)利用(1)中所求出的线性回归方程预测该地2016年的粮食需求量.规范解答解(1)由所给数据看出,年需求量与年份之间是近似直线上升,下面来求线性回归方程,先将数据处理如下:年份201042024需求257211101929对处理的数据,容易算得0,3.2,4分6.5, 3.2.6分由上述计算结果,知所求线性回归方程为2576.5(x2010)3.2,即6.5(x2010)260.2.8分(2)利用所求得的线性回归方程,可预测2016年的粮食需求量大约为6.5(20162010)260.26.56260.2299.2(万吨).12分温馨提醒求线性回归方程时,重点考查的是计算能力.若本题用一般法去解,计算更烦琐(如年份、需求量,不做如上处理),所以平时训练时遇到数据较大的题目时,要考虑有没有更简便的方法解决.方法与技巧1.回归分析是处理变量相关关系的一种数学方法.主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组观察值,预测变量的取值及判断变量取值的变化趋势;(3)求出线性回归方程.2.根据K2的值可以判断两个分类变量有关的可信程度.失误与防范1.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.2.独立性检验中统计量K2的观测值k的计算公式很复杂,在解题中易混淆一些数据的意义,代入公式时出错,而导致整个计算结果出错.A组专项基础训练(时间:40分钟)1.(2014湖北)根据如下样本数据x345678y4.02.50.50.52.03.0得到的回归方程为x,则()A.0,0 B.0,0C.0 D.0,0答案B解析作出散点图如下:观察图象可知,回归直线x的斜率0.故0,0,y与x正相关,A正确;回归直线经过样本点的中心(,),B正确;y0.85(x1)85.71(0.85x85.71)0.85,C正确.故选D.5.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:男女总计爱好402060不爱好203050总计6050110由K2算得,K27.8.附表:P(K2k0)0.0500.0100.001k03.8416.63510.828参照附表,得到的正确结论是()A.有99%以上的把握认为“爱好该项运动与性别有关”B.有99%以上的把握认为“爱好该项运动与性别无关”C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”答案A解析根据独立性检验的定义,由K27.86.635可知,我们有99%以上的把握认为“爱好该项运动与性别有关”,故选A.6.已知x与y之间的几组数据如下表:x123456y021334假设根据上表数据所得线性回归方程为 x ,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为ybxa,则以下结论正确的是()A. b, a B. b, aC. a D. b, a答案C解析b2,a2,由公式 求得, , , a.7.以下四个命题,其中正确的序号是_.从匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;两个随机变量相关性越强,则相关系数的绝对值越接近于1;在线性回归方程 0.2x12中,当解释变量x每增加一个单位时,预报变量 平均增加0.2个单位;对分类变量X与Y的随机变量K2的观测值k来说,k越小,“X与Y有关系”的把握程度越大.答案解析是系统抽样;对于,随机变量K2的观测值k越小,说明两个相关变量有关系的把握程度越小.8.某班班主任对全班30名男生进行了“认为作业量多少”的调查,数据如下表:认为作业多认为作业不多总计喜欢玩电脑游戏12820不喜欢玩电脑游戏2810总计141630该班主任据此推断男生认为作业多与喜欢玩电脑游戏有关系,则这种推断犯错误的概率不超过_.答案0.050解析计算得K2的观测值为k4.2863.841,则推断犯错误的概率不超过0.050.9.假设关于某设备的使用年限x(年)和所支出的维修费用y(万元)有如下表的统计资料:使用年限x(年)23456维修费用y(万元)2.23.85.56.57.0若由资料可知y对x呈线性相关关系,试求:(1)线性回归方程;(2)根据线性回归方程,估计使用年限为12年时,维修费用是多少?解(1)列表i12345合计xi2345620yi2.23.85.56.57.025xiyi4.411.422.032.542.0112.3x49162536904,5;x90;xiyi112.31.23,于是 51.2340.08.所以线性回归方程为 1.23x0.08.(2)当x12时, 1.23120.0814.84(万元),即估计使用12年时,维修费用是14.84万元.10.某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出了500件,量其内径尺寸,得结果如下表:甲厂:分组29.86,29.90)29.90,29.94)29.94,29.98)29.98,30.02)30.02,30.06)30.06,30.10)30.10,30.14)频数12638618292614乙厂:分组29.86,29.90)29.90,29.94)29.94,29.98)29.98,30.02)30.02,30.06)30.06,30.10)30.10,30.14)频数297185159766218(1)试分别估计两个分厂生产的零件的优质品率;(2)由以上统计数据填下面22列联表,问是否有99%的把握认为“两个分厂生产的零件的质量有差异”?甲厂乙厂合计优质品非优质品合计附P(K2k)0.05 0.01k3.8416.635解(1)甲厂抽查的500件产品中有360件优质品,从而估计甲厂生产的零件的优质品率为100%72%;乙厂抽查的500件产品中有320件优质品,从而估计乙厂生产的零件的优质品率为100%64%.(2)完成的22列联表如下:甲厂乙厂合计优质品360320680非优质品140180320合计5005001 000由表中数据计算得K2的观测值k7.3526.635,所以有99%的把握认为“两个分厂生产的零件的质量有差异”.B组专项能力提升(时间:30分钟)11.下列说法:将一组数据中的每一个数据都加上或减去同一个常数后,方差不变;设有一个线性回归方程 35x,变量x增加1个单位时,y平均增加5个单位;设具有相关关系的两个变量x,y的相关系数为r,则|r|越接近于0,x和y之间的线性相关程度越强;在一个22列联表中,由计算得K2的值,则K2的值越大,判断两个变量间有关联的把握就越大.以上,错误结论的个数为()A.0 B.1 C.2 D.3答案C解析方差反应一组数据的波动大小,将一组数据中的每个数据都加上或减去同一个常数后,方差不变,故正确;在线性回归方程 35x中,变量x增加1个单位时,y平均减小5个单位,故不正确;根据线性回归分析中相关系数的定义:在线性回归分析中,相关系数为r,|r|越接近于1,相关程度越强,故不正确;对分类变量x与y的随机变量的观测值K2来说,K2越大,“x与y有关系”的可信程度越大,故正确.综上所述,错误结论的个数为2,故选C.12.对具有线性相关关系的变量x,y有一组观测数据(xi,yi)(i1,2,8),其线性回归方程是 x ,且x1x2x3x82(y1y2y3y8)6,则实数 的值是()A. B. C. D.答案B解析依题意可知样本点的中心为,则 ,解得 .13.有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:优秀非优秀总计甲班10b乙班c30合计已知在全部105人中随机抽取1人,成绩优秀的概率为,则下列说法正确的是()A.列联表中c的值为30,b的值为35B.列联表中c的值为15,b的值为50C.根据列联表中的数据,若按97.5%的可靠性要求,能认为“成绩与班级有关系”D.根据列联表中的数据,若按97.5%的可靠性要求,不能认为“成绩与班级有关系”答案C解析由题意知,成绩优秀的学生数是30,成绩非优秀的学生数是75,所以c20,b45,选项A、B错误.根据列联表中的数据,得到K26.1095.024,因此有97.5%的把握认为“成绩与班级有关系”.14.某百货公司16月份的销售量x与利润y的统计数据如下表:月份123456销售量x(万件)1011131286利润y(万元)222529261612(1)根据25月份的数据,画出散点图,求出y关于x的线性回归方程 x ;(2)若由线性回归方程得到的估计数据与剩下的检验数据的误差均不超过2万元,则认为得到的线性回归方程是理想的,试问所得线性回归方程是否理想?解(1)根据表中25月份的数据作出散点图,如图所示:计算得11,24,xiyi1125132912268161 092,x11213212282498,则 , 2411.故y关于x的线性回归方程为 x.(2)当x10时, 10,此时|22|2;当x6时, 6,此时|12|2.故所得的线性回归方程是理想的.15.某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关,现采用
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年离婚财产处理协议样本
- 物业管理的公共事务管理考核试卷
- 2024年哈尔滨市租房协议模板
- 搪瓷制品的创新技术与材料研发考核试卷
- 创业空间的文化建设与价值观塑造考核试卷
- 内陆养殖中的病害防治与兽药使用规范考核试卷
- 《基于杜邦分析体系的JC公司盈利研究》
- 《Ce3+-Yb3+、Tb3+-Yb3+和Pr3+-Nd3+-Yb3+混掺碲酸锌玻璃用于提高硅太阳能电池效率的研究》
- 焙烤食品制造企业人才战略规划考核试卷
- 《基于分布式爬虫的云健康资讯平台设计与实现》
- 储能系统介绍-电化学能-储能电站
- 分布式文件存储方案
- 小学家长进课堂课件-认识桥梁
- 基于MCGS组态软件开发水位控制系统
- 《微观经济学》教案
- 医院药事管理委员会会议纪要汇编五篇
- 着色牙-四环素牙(口腔科课件)
- 《领导梯队:全面打造领导力驱动型公司》解读教学课件
- 初中音乐-黄河船夫曲教学设计学情分析教材分析课后反思
- 幼儿园中班教案《沙啦沙啦》含反思
- 医院医务科科长岗位竞聘答辩PPT课件(带内容)
评论
0/150
提交评论