




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
PAGE第三章统计案例3.1回来分析的基本思想及其初步应用[目标]1.了解随机误差、残差、残差分析的概念.2.会用残差分析推断线性回来模型的模拟效果.3.通过典型案例的探究,了解非线性模型通过变换可以转化为线性回来模型的思想.[重点]建立变量之间的线性回来方程,能依据散点图初步推断两个变量之间是否具有线性关系.[难点]1.会求线性回来方程.2.驾驭建立回来模型的步骤,会选择回来模型,特殊是非线性回来模型.学问点一线性回来模型[填一填]1.回来方程的相关计算对于两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn).设其回来直线方程为y=bx+a,其中a,b是待定参数,由最小二乘法得eq\o(b,\s\up6(^))=eq\f(\i\su(i=1,n,)xi-\x\to(x)yi-\x\to(y),\i\su(i=1,n,)xi-\x\to(x)2)=eq\f(\i\su(i=1,n,x)iyi-n\x\to(x)\x\to(y),\i\su(i=1,n,x)\o\al(2,i)-n\x\to(x)2),eq\o(a,\s\up6(^))=eq\x\to(y)-eq\o(b,\s\up6(^))eq\x\to(x).其中eq\x\to(x)=eq\f(x1+x2+…+xn,n),eq\x\to(y)=eq\f(y1+y2+…yn,n),eq\o(a,\s\up6(^)),eq\o(b,\s\up6(^))分别是a,b的估计值.(eq\x\to(x),eq\x\to(y))称为样本点的中心.2.线性回来模型(1)线性回来模型eq\b\lc\{\rc\(\a\vs4\al\co1(y=bx+a+e,,Ee=0,De=σ2,))其中a,b为未知参数,通常e为随机变量,称为随机误差.(2)x称为说明变量,y称为预报变量.[答一答]1.yi,eq\o(y,\s\up6(^))i,eq\x\to(y)相同吗?试说明缘由.提示:不相同.yi是样本点(xi,yi)的纵坐标;eq\x\to(y)是样本点的中心(eq\x\to(x),eq\x\to(y))的纵坐标;eq\o(y,\s\up6(^))i是yi的估计值.2.回来分析中,利用线性回来方程求出的函数值是否肯定为真实值?提示:不肯定是真实值,利用线性回来方程求的值,在许多时候是个预报值.例如,人的体重与身高存在肯定的线性关系,但体重除了受身高的影响外,还受其他因素的影响,如饮食、是否喜爱运动等.3.线性回来方程能否用散点图中的某两点来确定?提示:不能用散点图中过某两点的直线方程来作为线性回来方程.由散点图易发觉,样本点散布在某一条直线旁边,而不是一条直线上,不能用一次函数y=bx+a描述它们之间的关系,因此用线性回来模型y=bx+a+e来表示,其中a,b的最小二乘法估计分别为eq\o(a,\s\up6(^)),eq\o(b,\s\up6(^)).学问点二线性回来分析[填一填]1.残差对于样本点(xi,yi)(i=1,2,…,n)的随机误差的估计值eq\o(e,\s\up6(^))i=yi-eq\o(y,\s\up6(^))i称为相应于点(xi,yi)的残差,eq\a\vs4\al(\i\su(i=1,n,)yi-\o(y,\s\up6(^))i2)称为残差平方和.2.残差图利用图形来分析残差特性,作图时纵坐标为残差,横坐标可以选为样本编号,也可用其他测量值,这样作出的图形称为残差图.3.相关指数R2=1-eq\f(\i\su(i=1,n,)yi-\o(y,\s\up6(^))i2,\i\su(i=1,n,)yi-\x\to(y)2),R2越接近于1,表示回来效果越好.[答一答]4.有时散点图的各点并不集中在一条直线的旁边,仍旧可以依据求回来直线方程的步骤求回来直线,明显这样的回来直线没有实际意义.用残差能否推断建立的回来模型是否合理?提示:残差能对x,y的线性相关性进行检验.残差可以发觉原始数据中的可疑数据,假如残差点比较匀称地落在水平的带状区域中说明选用的模型较为合适.5.残差分析只是从直观上对模型的模拟效果进行推断,哪些量能从数据角度对模型的模拟效果进行精确预报?提示:R2=1-eq\f(\i\su(i=1,n,)yi-\o(y,\s\up6(^))i2,\i\su(i=1,n,)yi-\x\to(y)2)可对模型的模拟效果进行精确预报,R2表示说明变量对于预报变量改变的贡献率,如R2≈0.72则表示说明变量说明白72%的预报变量.6.R2与原来学过的相关系数r有区分吗?提示:它们都是刻画两个变量之间的相关关系的,区分是R2表示说明变量对预报变量改变的贡献率,其表达式为R2=1-eq\f(\i\su(i=1,n,)yi-\o(y,\s\up6(^))i2,\i\su(i=1,n,)yi-\x\to(y)2);相关系数r是检验两个变量相关性的强弱程度,其表达式为r=eq\f(\i\su(i=1,n,)xi-\x\to(x)yi-\x\to(y),\r(\i\su(i=1,n,)xi-\x\to(x)2\i\su(i=1,n,)yi-\x\to(y)2))=eq\f(\i\su(i=1,n,x)iyi-n\x\to(x)\x\to(y),\r(\i\su(i=1,n,x)\o\al(2,i)-n\x\to(x)2\i\su(i=1,n,y)\o\al(2,i)-n\x\to(y)2)).1.对线性回来模型的两点说明(1)线性回来模型较好地说明白利用线性回来方程求出的函数值不肯定是真实值的缘由.例如,人的体重与身高存在肯定的线性关系,但体重除了受身高的影响外,还受其他因素的影响,如饮食,是否喜爱运动等.(2)线性回来模型中随机误差的主要来源:①线性回来模型与真实状况引起的误差;②省略了一些因素的影响产生的误差;③观测与计算产生的误差.2.线性回来分析(1)残差分析是回来分析的一种方法.利用残差图,可以较直观形象地观测到样本数据同线性回来方程间的关系.(2)对R2的理解.①R2是相关系数的平方,其改变范围为[0,1],而相关系数的改变范围为[-1,1].②相关系数可较好地反映变量的相关性及正相关或负相关,而R2反映了回来模型拟合数据的效果.③当相关系数|r|接近于1时说明两变量的相关性较强,当|r|接近于0时说明两变量的相关性较弱,而当R2接近于1时,说明线性回来方程的拟合效果较好.类型一线性回来方程【例1】某商场经营一批进价是30元/件的小商品,在市场试验中发觉,此商品的销售单价x(x取整数)元与日销售量y台之间有如下关系:x35404550y56412811(1)y与x是否具有线性相关关系?假如具有线性相关关系,求出回来直线方程.(方程的斜率精确到1)(2)设经营此商品的日销售利润为P元,依据(1)写出P关于x的函数关系式,并预报当销售单价x为多少元时,才能获得最大日销售利润.【解】(1)散点图如图所示,从图中可以看出这些点大致分布在一条直线旁边,因此两个变量线性相关.设回来直线方程为eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))x+eq\o(a,\s\up6(^)),由题知eq\x\to(x)=42.5,eq\x\to(y)=34,则求得eq\o(b,\s\up6(^))=eq\f(\i\su(i=1,4,)xi-\x\to(x)yi-\x\to(y),\i\su(i=1,4,)xi-\x\to(x)2)≈-3.eq\o(a,\s\up6(^))=eq\x\to(y)-eq\o(b,\s\up6(^))eq\x\to(x)≈34-(-3)×42.5=161.5.∴eq\o(y,\s\up6(^))=-3x+161.5.(2)依题意有P=(-3x+161.5)(x-30)=-3x2+251.5x-4845=-3eq\b\lc\(\rc\)(\a\vs4\al\co1(x-\f(251.5,6)))2+eq\f(251.52,12)-4845.∵x∈N*,∴当x=42时,P有最大值,约为426.故预报当销售单价为42元时,才能获得最大日销售利润.1散点图是定义在具有相关关系的两个变量基础上的,对于性质不明确的两组数据,可先作散点图,从图中看它们有无关系,关系的亲密程度,再进行相关的回来分析.2求回来直线方程,首先应留意到,只有在散点图大致呈线性时,求出的回来直线方程才有实际意义,否则,求出的回来直线方程毫无意义.为了探究车流量与PM2.5的浓度是否相关,现采集到北方某城市2024年12月份某星期星期一到星期日某一时间段车流量与PM2.5的数据如下表:时间星期一星期二星期三星期四星期五星期六星期日车流量x/万辆1234567PM2.5的浓度y/(微克/立方米)28303541495662(1)由散点图知y与x具有线性相关关系,求y关于x的线性回来方程;(2)①利用(1)所求的回来方程,预料该市车流量为8万辆时PM2.5的浓度;②规定:当一天内PM2.5的浓度平均值在(0,50]内,空气质量等级为优;当一天内PM2.5的浓度平均值在(50,100]内,空气质量等级为良.为使该市某日空气质量为优或良,则应限制当天车流量在多少万辆以内?(结果以万辆为单位,保留整数.)参考公式:回来直线的方程是eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))x+eq\o(a,\s\up6(^)),其中eq\o(b,\s\up6(^))=eq\f(\i\su(i=1,n,x)iyi-n\x\to(x)\x\to(y),\i\su(i=1,n,x)\o\al(2,i)-n\x\to(x)2),eq\o(a,\s\up6(^))=eq\x\to(y)-eq\o(b,\s\up6(^))eq\x\to(x).解:(1)由数据可得eq\x\to(x)=eq\f(1,7)(1+2+3+4+5+6+7)=4,eq\x\to(y)=eq\f(1,7)(28+30+35+41+49+56+62)=43,eq\i\su(i=1,7,x)iyi=1372,eq\i\su(i=1,7,x)eq\o\al(2,i)=140,eq\o(b,\s\up6(^))=eq\f(\i\su(i=1,7,x)iyi-7\x\to(x)\x\to(y),\i\su(i=1,7,x)\o\al(2,i)-7\x\to(x)2)=eq\f(1372-1204,140-112)=6,eq\o(a,\s\up6(^))=eq\x\to(y)-eq\o(b,\s\up6(^))eq\x\to(x)=43-6×4=19,故y关于x的线性回来方程为eq\o(y,\s\up6(^))=6x+19.(2)①当车流量为8万辆,即x=8时,eq\o(y,\s\up6(^))=6×8+19=67.故当车流量为8万辆时,PM2.5的浓度为67微克/立方米.②依据题意得6x+19≤100,即x≤13.5,故要使该市某日空气质量为优或良,应限制当天车流量在13万辆以内.类型二线性回来分析【例2】某运动员训练次数与成果之间的数据关系如下:次数(x)3033353739444650成果(y)3034373942464851(1)作出散点图;(2)求出回来方程;(3)作出残差图;(4)计算R2,并说明运动员的训练次数对成果的影响占百分之几.【解】(1)作出该运动员训练次数(x)与成果(y)之间的散点图,如图所示,由散点图可知,它们之间具有线性相关关系.(2)eq\x\to(x)=39.25,eq\x\to(y)=40.875,eq\i\su(i=1,8,x)eq\o\al(2,i)=12656,eq\i\su(i=1,8,x)iyi=13180,∴eq\o(b,\s\up6(^))=eq\f(\i\su(i=1,8,x)iyi-8\x\to(x)\x\to(y),\i\su(i=1,8,x)\o\al(2,i)-8\x\to(x)2)≈1.0415,eq\o(a,\s\up6(^))=eq\x\to(y)-eq\o(b,\s\up6(^))eq\x\to(x)=-0.003875,∴回来方程为eq\o(y,\s\up6(^))=1.0415x-0.003875.(3)某运动员训练次数与成果之间的数据及相应的残差数据为x30333537y30343739eq\o(e,\s\up6(^))=y-eq\o(y,\s\up6(^))-1.2411-0.36560.55140.4684x39444650y42464851eq\o(e,\s\up6(^))=y-eq\o(y,\s\up6(^))1.38540.17790.0949-1.0711作残差图如图所示.由图可知,残差点比较匀称地分布在水平带状区域中,说明选用的模型比较合适.(4)计算得R2≈0.9855,说明白该运动员的成果的差异有98.55%是由训练次数引起的.解答线性回来问题时,应用散点图估计一下说明变量与预报变量间的关系是否是线性相关关系,也可以借助于残差图来分析变量间相关性的强弱.关于x与y有如下数据:x24568y3040605070有如下的两个线性模型:(1)eq\o(y,\s\up6(^))=6.5x+17.5;(2)eq\o(y,\s\up6(^))=7x+17.试比较哪一个拟合效果更好.解:由题得eq\x\to(y)=50,由(1)得yi-eq\o(y,\s\up6(^))i与yi-eq\x\to(y)的关系如下表:yi-eq\o(y,\s\up6(^))i-0.5-3.510-6.50.5yi-eq\x\to(y)-20-1010020∴eq\i\su(i=1,5,)(yi-eq\o(y,\s\up6(^))i)2=(-0.5)2+(-3.5)2+(10)2+(-6.5)2+0.52=155,eq\i\su(i=1,5,)(yi-eq\x\to(y))2=(-20)2+(-10)2+102+02+202=1000.∴Req\o\al(2,1)=1-eq\f(\i\su(i=1,5,)yi-\o(y,\s\up6(^))i2,\i\su(i=1,5,)yi-\x\to(y)2)=1-eq\f(155,1000)=0.845.由(2)可得yi-eq\o(y,\s\up6(^))i与yi-eq\x\to(y)的关系如下表:yi-eq\o(y,\s\up6(^))i-1-58-9-3yi-eq\x\to(y)-20-1010020∴eq\i\su(i=1,5,)(yi-eq\o(y,\s\up6(^))i)2=(-1)2+(-5)2+82+(-9)2+(-3)2=180,eq\i\su(i=1,5,)(yi-eq\x\to(y))2=(-20)2+(-10)2+102+02+202=1000.∴Req\o\al(2,2)=1-eq\f(\i\su(i=1,5,)yi-\o(y,\s\up6(^))i2,\i\su(i=1,5,)yi-\x\to(y)2)=1-eq\f(180,1000)=0.82,由于Req\o\al(2,1)=0.845,Req\o\al(2,2)=0.82,0.845>0.82.∴Req\o\al(2,1)>Req\o\al(2,2).∴(1)的拟合效果好于(2)的拟合效果.非线性回来分析的应用【例3】某地区不同身高的未成年男性的体重平均值如下表:试建立y与x之间的回来方程.【思路分析】由样本点画出散点图,找出拟合曲线,转化为线性回来模型解题,留意最终要将中间变量变换回原来的变量.【解】(1)依据上表中的数据,作出散点图如图所示.由图可以看出,样本点分布在某条指数函数曲线y=c1ec2x的四周,于是令z=lny,则上表变换后为:x60708090100110120130140150160170z1.812.072.302.502.712.863.043.293.443.663.864.01作出散点图如图所示.从图中可以看出,变换后的样本点分布在某条直线的旁边,因此可用线性回来模型来拟合.由表中数据可得,z与x之间的线性回来方程为eq\o(z,\s\up6(^))=0.02x+0.6625,则y与x之间的非线性回来方程为eq\o(y,\s\up6(^))=e0.02x+0.6625.【解后反思】非线性回来问题有时并不干脆给出阅历公式,所以在由散点图来选择一种跟数据拟合得最好的函数时,往往会选择得不是很恰当.因此在解决问题时,应与学过的幂函数、指数函数、对数函数等细致比较.某种书每册的成本费y(元)与印刷册数x(千册)有关,经统计得到数据如下:x(千册)123510203050100200y(元)10.155.524.082.852.111.621.411.301.211.15检验每册书的成本费y(元)与印刷册数的倒数eq\f(1,x)之间是否具有线性相关关系,如有,求出y对x的回来方程,并画出其图形.解:首先作变量置换u=eq\f(1,x),题目中所给的数据变成如下表所示的10对数据.ui10.50.330.20.10.050.030.020.010.005yi10.155.524.082.852.111.621.411.301.211.15然后作相关性检验.经计算得r=0.9998>0.75,从而认为u与y之间具有线性相关关系,由公式得eq\o(a,\s\up6(^))=1.125,eq\o(b,\s\up6(^))=8.973,所以eq\o(y,\s\up6(^))=1.125+8.973u,最终回代u=eq\f(1,x),可得eq\o(y,\s\up6(^))=1.125+eq\f(8.973,x).这就是题目要求的y对x的回来曲线方程.回来曲线的图形如图所示,它是经过平移的反比例函数图象的一个分支.1.下表是x与y之间的一组数据,则y关于x的线性回来直线必过点(D)x0123y1357A.(2,2) B.(1.5,2)C.(1,2) D.(1.5,4)解析:∵eq\x\to(x)=eq\f(0+1+2+3,4)=1.5,eq\x\to(y)=eq\f(1+3+5+7,4)=4,∴样本点的中心为(1.5,4),而回来直线必过样本点的中心,故选D.2.有下列说法:①在残差图中,残差点比较匀称地落在水平的带状区域内,说明选用的模型比较合适;②相关指数R2来刻画回来效果,R2值越大,说明模型拟合效果越好;③比较两个模型的拟合效果,可以比较残差平方和的大小,残差平方和越小的模型,拟合效果越好.其中正确命题的个数是(D)A.0 B.1C.2 D.33.为了表示n个点与相应直线在整体上的接近程度,我
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年3月份法拍房原租赁合同解除条件变更
- 2025年企业向个人借款合同范本
- 2025便利店经销代销合同书
- 2025广告公司业务执行合同
- 急诊科室物资管理优化计划
- 乡镇店面员工劳动合同范例
- 深基坑沉井施工方案
- 供暖锅炉设备租赁合同样本
- 施工方案检测内容包括
- 养殖基地租赁合同标准文本
- 校服采购投标方案投标文件
- 奔腾B50汽车说明书
- 华为QSA审核报告
- 钢筋笼(螺旋箍筋)工程量自动计算表
- 幼儿园ppt课件小班科学:认识蚕豆
- 标准入库授权委托书
- 【消防监督管理】中级专业技术任职资格评审备考题库大全-4简答、论述题部分
- 河南对外经济贸易职业学院教师招聘考试历年真题
- 个人遗体捐赠协议书
- 烟花爆竹考试真题模拟汇编(共758题)
- 政府采购供应商推荐表(附件1)
评论
0/150
提交评论