版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
8.2.2一元线性回归模型参数的最小二乘估计1.经验回归方程,其中2.残差分析残差是随机误差的估计值,通过对残差的分析可判断回归模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面的工作称为残差分析.复习引入编号123456胸径/cm18.120.122.224.426.028.3树高/m18.819.221.021.022.122.1编号789101112胸径/cm29.632.433.735.738.340.2树高/m22.422.623.024.323.924.7例
经验表明,对于同一树种,一般树的胸径(树的主干在地面以上1.3m处的直径)越大,树就越高.由于测量树高比测量胸径困难,因此研究人员希望由胸径预测树高.在研究树高与胸径之间的关系时,某林场收集了某种树的一些数据如下表所示,试根据这些数据建立树高关于胸径的经验回归方程.探究新知解:
以胸径为横坐标,树高为纵坐标作散点图如下:
散点大致分布在一条从左下角到右上角的直线附近,表明两个变量线性相关,并且是正相关,因此可以用一元线性回归模型刻画树高与胸径之间的关系.探究新知302520152422161820树高/m354045胸径/cm26············探究新知用d表示胸径,h表示树高,根据据最小二乘法,计算可得经验回归方程为相应的经验回归直线如图所示:302520152422161820树高/m354045胸径/cm26············根据经验回归方程,由胸径的数据可以计算出树高的预测值(精确到0.1)以及相应的残差,如下表所示.编号胸径/cm树高观测值/m树高预测值/m残差/m118.118.819.4-0.6220.119.219.9-0.7322.221.020.40.6424.421.020.90.1526.022.121.30.8628.322.121.90.2729.622.422.20.2832.422.622.9-0.3933.723.023.2-0.21035.724.323.70.61138.323.924.4-0.51240.224.724.9-0.2探究新知以胸径为横坐标,残差为纵坐标,作残差图,得到下图.30252015-1.0-0.50.00.51.0·······残差/m·····354045胸径/cm
观察残差表和残差图,可以看到残差的绝对值最大是0.8,所有残差分布在以横轴为对称轴、宽度小于2的带状区域内.可见经验回归方程较好地刻画了树高与胸径的关系,我们可以根据经验回归方程由胸径预测树高.探究新知编号12345678年份18961912192119301936195619601968记录/s11.8010.6010.4010.3010.2010.1010.009.95问题人们常将男子短跑100m的高水平运动员称为“百米飞人”.下表给出了1968年之前男子短跑100m世界纪录产生的年份和世界纪录的数据.试依据这些成对数据,建立男子短跑100m世界纪录关于纪录产生年份的经验回归方程.探究新知以成对数据中的世界纪录产生年份为横坐标,世界纪录为纵坐标作散点图,得到下图192019101900189011.511.09.510.010.5记录/s193019401950年份12.0········19601970在左图中,散点看上去大致分布在一条直线附近,似乎可用一元线性回归模型建立经验回归方程.将经验回归直线叠加到散点图,得到下图:
用Y表示男子短跑100m的世界纪录,t表示纪录产生的年份,利用一元线性回归模型来刻画世界纪录和世界纪录产生年份之间的关系.根据最小二乘法,由表中的数据得到经验回归方程为探究新知192019101900189011.511.09.510.010.5Y/s193019401950t12.0········19601970
第一个世界纪录所对应的散点远离经验回归直线,并且前后两时间段中的散点都在经验回归直线的上方,中间时间段的散点都在经验回归直线的下方.
这说明散点并不是随机分布在经验回归直线的周围,而是围绕着经验回归直线有一定的变化规律,即成对样本数据呈现出明显的非线性相关的特征.探究新知思考:从图中可以看到,经验回归方程较好地刻画了散点的变化趋势,请再仔细观察图形,你能看出其中存在的问题吗?192019101900189011.511.09.510.010.5Y/s193019401950t12.0········19601970回顾已有的函数知识,可以发现函数y=-lnx的图象具有类似的形状特征思考:你能对模型进行修改,以使其更好地反映散点的分布特征吗?仔细观察,可以发现散点更趋向于落在中间下凸且递减的某条曲线附近
注意到100m短跑的第一个世界纪录产生于1896年,因此可以认为散点是集中在曲线y=f(t)=c1+c2ln(t-1895)的周围,其中c1,c2为未知参数,且c2<0.探究新知192019101900189011.511.09.510.010.5Y/s193019401950t12.0········19601970y=f(t)=c1+c2ln(t-1895)令x=ln(t-1895),则Y=c2x+c1编号12345678年份/t18961912192119301936195619601968x0.002.833.263.563.714.114.174.29记录/s11.8010.6010.4010.3010.2010.1010.009.95这是一个非线性经验回归函数,如何利用成对数据估计参数c1,c2对数据进行变化可得下表:探究新知对数据进行变化可得下表:得到散点图如下:由表中的数据得到经验回归方程为:探究新知将经验回归直线叠加到散点图,如图所示:上图表明,经验回归方程对于成对数据具有非常好的拟合精度.,得将x=ln(t-1895)代入思考:对于通过创纪录时间预报世界纪录的问题,我们建立了两个回归模型,得到了两个回归方程,你能判断哪个回归方程拟合的精度更好吗?②
(1)直接观察法.在同一坐标系中画出成对数据散点图、非线性经验回归方程②的图象(蓝色)以及经验回归方程①的图象(红色).探究新知我们发现,散点图中各散点都非常靠近②的图象,表明非线性经验回归方程②对于原始数据的拟合效果远远好于经验回归方程①.①(2)残差分析:残差平方和越小,模型拟合效果越好.Q2明显小于Q1,说明非线性回归方程的拟合效果要优于线性回归方程.思考:对于通过创纪录时间预报世界纪录的问题,我们建立了两个回归模型,得到了两个回归方程,你能判断哪个回归方程拟合的精度更好吗?探究新知②①(3)利用决定系数R2刻画回归效果.思考:对于通过创纪录时间预报世界纪录的问题,我们建立了两个回归模型,得到了两个回归方程,你能判断哪个回归方程拟合的精度更好吗?探究新知R2越大,表示残差平方和越小,即模型的拟合效果越好;R2越小,表示残差平方和越大,即模型的拟合效果越差.①和②的R2分别为0.7325和0.9983
在一元线性回归模型中R2=r2,即决定系数R2等于响应变量与解释变量的样本相关系数r的平方.显然0≤R2≤1,R2越接近1,则线性回归刻画的效果越好.在使用经验回归方程进行预测时,需注意以下问题1.回归方程只适用于我们所研究的样本的总体;2.我们所建立的回归方程一般都有时间性;3.样本采集的范围会影响回归方程的适用范围;4.不能期望回归方程得到的预报值就是预报变量的精确值.事实上,它是预报变量的可能取值的平均值.探究新知1.某电脑公司有6名产品推销员,其工作年限与年推销金额数据如下表:推销员编号12345工作年限x/年35679推销金额y/万元23345(1)画出散点图.(2)建立年推销金额
y关于工作年限
x的经验回归方程;(3)说明回归模型拟合效果的好坏;(4)若第6名推销员的工作年限为11年,预测他的年推销金额.巩固练习参考数据:解:(1)以工作年限为x轴,推销金额为y轴,画出散点图如下:散点大致分布在一条从左下角到右上角的直线附近,表明两个变量线性相关,并且是正相关.巩固练习(2)设所求的线性回归方程为,则所以年推销金额y关于工作年限x的线性回归方程为.巩固练习所以回归模型拟合效果很好.(3)所以可以估计第6名推销员的年推销金额为5.9万元.(4)当x=11时,巩固练习2.某企业新研发了一种产品,产品的成本由原料成本及非原料成本.每件产品的非原料成本y(元)与生产的数量x(千件)有关,经统计得到如下数据:根据以上数据,绘制了散点图.x12345678y1126144.53530.5282524观察散点图,两个变量不具有线性相关关系,现考虑用反比例函数模型和指数函数模型
分别对两个变量的关系进行拟合.已求得用指数函数模型拟合的回归方程为,lny与x的相关系数r1=-0.94.(1)用反比例函数模型求y关于x的回归方程;(2)用相关系数判断上述两个模型哪一个拟合效果更好(精确到0.01),并用其估计产量为10千件时每件产品的非原料成本;参考公式:对于一组数据(u1,y1),(u2,y2),…,(un,yn),其回归直线y=a+bu
的斜率和截距的最小二乘估计分别为:x12345678y1126144.53530.5282524巩固练习183.40.340.1151.5336022385.561.40.135这里解:(1)令,则可转化为因为,所以所以y关于x的回归方程为巩固练习已求得用指数函数模型拟合的回归方程为,lny与x的相关系数r1=-0.94.(2)y与相关系数为因为|r1|<|r2|,所以用反比例函数模型拟合效果更好.当x=10时,所以当产量为10千件时,每件产品的非原料成本为21元.建立非线性经验回归模型的基本步骤:1.确定研究对象,明确哪个是解释变量,哪个是响应变量;2.由经验确定非线性经验回归方程的模型;3.通过变换,将非线性经验回归模型转化为线性经验回归模型;4.按照公式计算经验回归方程中的参数,得到经验回归方程;5.消去新元,得到非线性经验回归方程;6.得出结果后分析残差图是否有异常.归纳总结非线性回归分析(1)指数型函数y=ebx+a类①函数y=ebx+a
的图象,如图所示线性回归分析②两边取对数得lny=lnebx+a,即
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《保单体检服务》课件
- 2025届四川省眉山一中办学共同体重点中学高三第三次模拟考试英语试卷含解析
- 广东省广州市2025届高三下学期一模考试数学试题含解析
- 2025届河北省石家庄二中润德学校高三适应性调研考试英语试题含解析
- 北京市首都师范大学附属回龙观育新学校2025届高考冲刺数学模拟试题含解析
- 云南省楚雄州2025届高三第四次模拟考试英语试卷含解析
- 上海市华东师大三附中2025届高考数学三模试卷含解析
- 山西省长治市潞州区长治二中2025届高三一诊考试语文试卷含解析
- 河南省驻马店2025届高三第五次模拟考试英语试卷含解析
- 云南省江川第二中学2025届高考适应性考试英语试卷含解析
- 关于学习考察应急管理工作情况报告.doc
- 焚烧炉热工计算
- 商业发票INVOICE模板
- 铝表面阳极氧化处理方法及缺陷分析
- 直线训练仪使用技术
- (完整版)Tinetti评估表
- 纪检监察系统“六个过硬”大练兵演讲比赛活动方案
- 科斯的学术性著作:社会成本问题
- 海南劳模休养活动心得体会
- 智慧树外国建筑赏析期末考试南昌大学
- 携程发展历程及融资决策
评论
0/150
提交评论