版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
选修三《第八章成对数据的统计分析》8.2.1一元线性回归模型课时目标:研究当两个变量线性相关时,如何利用成对样本数据建立适当的统计模型,能结合具体实例了解模型及其参数的含义.提出问题确定研究变量收集数据画散点图求回归模型做出预报(一元线性回归模型)在统计学中,回归分析指的是定量分析两种或两种以上变量间相关关系的一种统计分析方法。回归分析按照涉及的变量的个数,分为一元回归分析和多元回归分析。回归回归分析定相关关系计算r问题背景——确定两个变量的相关关系及强弱生活经验告诉我们,儿子身高与父亲身高存在正线性相关关系,即父亲的身高较高时,儿子的身高通常也较高.
以横轴表示父亲身高、纵轴表示儿子身高建立直角坐标系,由表中的成对样本数据作散点图,如图所示.可以发现,散点大致分布在一条从左下角到右上角的直线附近,表明儿子身高和父亲身高线性相关.利用统计软件,求得样本相关系数为r≈0.886,表明儿子身高和父亲身高正线性相关,且相关程度较高.
为了进一步研究两者之间的关系,有人调查了14名男大学生的身高及其父亲的身高,得到的数据如表所示.问题提出——建立两个相关变量的关系式思考1:根据上表中的数据或散点图,儿子身高和父亲身高这两个变量之间的关系可以用函数模型刻画吗?存在父亲身高相同,而儿子身高不同的情况.也存在儿子身高相同,而父亲身高不同的情况。不符合函数的定义,可见儿子身高和父亲身高之间不是函数关系,不能用函数模型刻画.思考2:为什么儿子身高和父亲身高有相关关系而不是函数关系?因为影响儿子身高的因素除了父亲身高这个主要因素外,还受其他随机因素的影响,如母亲身高、生活环境、饮食习惯、锻炼时间等.思考3:考虑上述随机因素的影响,你能否用类似于函数的表达式来表示父亲身高x和儿子身高Y的关系?问题解决——建立两个相关变量的统计模型用x表示父亲身高,Y表示儿子身高,e表示随机误差.假定随机误差e的均值为0,方差为与父亲身高无关的定值σ2,则它们之间的关系可以表示为:称为Y关于x的一元线性回归模型.Y称为因变量或响应变量;x称为自变量或解释变量;a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.思考4:为什么要假设E(e)=0,而不假设它为某个不为0的常数?因为随机误差表示大量已知和未知的影响因素之和,因为误差是随机的,即取各种正负误差的可能性一样,它们会相互抵消,所以随机误差的期望值应为0.理解模型——一元线性回归模型的实际意义用x表示父亲身高,Y表示儿子身高,e表示随机误差.则它们之间的关系可以表示为下面的一元线性回归模型:思考5:你能结合身高案例解释上述模型的意义吗?由于E(Y)=bx+a,故模型可解释为父亲身高为xi的所有男大学生的身高(子总体)的均值E(Y)为bxi+a,即该子总体的均值与父亲身高是线性函数关系。yi不一定为bxi+a,yi=bxi+a+ei,bxi+a是子总体的均值,yi只是该子总体中的一个样本值,这个样本值yi与均值E(Y)有一个误差项ei=yi−(bxi+a).思考6:父亲身高为xi的某一名男大学生,他的身高yi一定为bxi+a吗?理解为理解模型——一元线性回归模型的实际意义思考7:你能结合上述身高案例解释模型中产生随机误差项e的原因吗?(1)存在其他可能影响儿子身高Y的因素,如母亲身高、生活环境、饮食习惯和锻炼时间等;(2)测量身高时,可能存在由测量工具、测量精度导致的测量误差;(3)实际问题中,我们不知道儿子身高和父亲身高的相关关系是什么,而利用一元线性回归模型来近似刻画这种关系,这种近似产生了误差.用x表示父亲身高,Y表示儿子身高,e表示随机误差.则它们之间的关系可以表示为下面的一元线性回归模型:理解为若Y与x呈现线性相关,则Y关于x的一元线性回归模型为:Y称为因变量或响应变量;x称为自变量或解释变量;a,b为参数;e是Y与bx+a之间的随机误差.可理解为E(Y)=bx+a课堂小结yi不一定为bxi+a,观测值yi与子总体的均值E(Y)有一个误差项ei=yi−(bxi+a).选修三《第八章成对数据的统计分析》8.2.2一元线性回归模型参数的最小二乘估计课时目标:利用最小二乘法和成对样本数据估计一元线性回归模型Y=bx+a+e中的参数a和b;了解最小二乘法的原理,能利用该原理推导参数估计值的计算公式.提出问题确定研究变量收集数据画散点图建立回归模型做出预报(一元线性回归模型)定相关关系计算r求解回归直线方程y=bx+a(估计参数a,b)问题提出——由散点图寻找一条适当的直线思考1:如何从散点图中寻找到一条适当的直线,使得这些散点在整体上与这条直线最接近?方案1:先画出一条直线,测量出各点与直线的距离,然后移动直线,到达一个使距离的和最小的位置.测量出此时的斜率和截距,就可得到一条直线,如图.方案2:在图中选择两点画直线,使得直线两侧的点的个数基本相同,把这条直线作为所求直线,如图.方案3:在散点图中多取几对点,确定出几条直线的方程,再分别求出这些直线的斜率、截距的平均数,将这两个平均数作为所求直线的斜率和截距.上面这些方法虽然有一定的道理,但比较难操作,我们需要另辟蹊径.问题提出——利用样本数据寻找一条适当的直线思考2:如何利用成对样本数据,用数学方法刻画“从整体上看,各散点与直线最接近”?析:可令n个样本点与直线的竖直距离之和最小y=bx+a问题分析——利用样本数据寻找一条适当的直线最小二乘法经验回归直线及其方程问题解决——最小二乘法求经验回归方程图形推导模型运用——求身高案例的经验回归方程模型理解——身高案例的经验回归方程
含义2:父亲身高为176cm的所有儿子身高的均值的估计值为177cm.
斜率可以解释为父亲身高每增加1cm,其儿子身高平均增加0.839cm.含义1:由方程作出推测,当父亲身高为176cm时,儿子身高一般在177cm左右.思考5:根据方程,父亲身高为多少时,长大成人的儿子身高和父亲身高一样?模型理解——身高案例的经验回归方程高个子父亲有生高个子儿子的趋势,矮个子父亲有生矮个子儿子的趋势,思考6:分析案例中的经验回归方程可得到什么结论?
儿子身高有向平均身高回归的趋势英国统计学家高尔顿把这种后代身高向中间值靠近的趋势称为“回归现象”(自阅课本P122-123了解“回归的含义”)随机抽查了205对夫妇及其928个成年子女的身高数据记中亲身高为X,子女身高为Y
女子身高×1.08换算为男子升高父母身高取平均数得中亲身高新知:残差的定义父亲身高x174170173169182172180172168166182173164180儿子身高观测值yi176176170170185176178174170168178172165182174.943171.587174.104170.748181.655173.265179.977173.265169.909168.231181.655174.104166.553179.9771.0574.413-4.104-0.7483.3452.735-1.9770.7350.091-0.231-3.655-2.104-1.5532.023残差表:残差=观测值-预报值残差之和为0.027(计算或测量时数据四舍五入)新知:残差分析2.残差的作用:判断回归模型刻画数据的效果;发现原始数据中是否存在可疑数据,对模型进行改进,使我们能根据改进模型作出更符合实际的预测与决策.1.残差分析途径:列残差表、作残差图.以残差为纵坐标,以样本编号(或x)为横坐标.若存在某几个样本点的残差绝对值较大,则为可以数据,需予以纠正或剔除,再重新建立回归模型.残差图:残差有正有负,比较均匀地分布在横轴的两边,说明残差比较符合一元线性回归模型中对于随机误差的假定带状区域宽度越窄,残差绝对值越小,且较均匀地落在横轴附近,说明回归方程预报的精度越高.理解辨析——残差
残差与观测时间有线性关系,应将时间变量纳入模型残差与观测时间有非线性关系,应在模型中加入时间的非线性函数部分残差的方差不是一个常数,随观测时间的变大而变大残差比较均匀地分布在以取值为0的横轴为对称轴的水平带状区域内理解运用——残差练习1.已知两个线性相关变量与的统计数据如下表:x3456y2.534m
B残差的概念回归直线过样本点中心理解运用——残差练习2.2020年初,新型冠状病毒引起的肺炎疫情爆发以来,各地医疗机构采取了各种针对性的治疗方法,取得了不错的成效,某医疗机构开始使用中西医结合方法后,每周治愈的患者人数如下表所示:第x周12345治愈人数y(单位:十人)38101415
B课堂小结1——回归分析的流程
课堂小结2——经验回归方程的理解④解释变量的取值不能离样本数据的范围太远.一般解释变量的取值在样本数据范围内,经验回归方程的预报效果会比较好,超出这个范围越远,预报的效果越差.⑤不能期望经验回归方程得到的预报值就是响应变量的精确值.它是响应变量的可能取值的平均值.②经验回归方程只适用于所研究的样本的总体.如,根据我国父亲身高与儿子身高的数据建立的经验回归方程,不能用来描述美国父亲身高与儿子身高之间的关系.根据生长在南方多雨地区的树高与胸径的数据建立的经验回归方程不能用来描述北方干旱地区的树高与胸径之间的关系.①只有在散点图大致呈线性相关关系时,求出的经验回归方程才有实际意义,否则求出的经验回归方程毫无意义.③经验回归方程一般都有时效性.例如,根据20世纪80年代的父亲身高与儿子身高的数据建立的经验回归方程,不能用来描述现在的父亲身高与儿子身高之间的关系.综合应用——树高与胸径的关系P113-例.经验表明,一般树的胸径(树的主干在地面以上1.3m处的直径)越大,树就越高.由于测量树高比测量胸径困难,因此研究人员希望由胸径预测树高.在研究树高与胸径之间的关系时,某林场收集了某种树的一些数据(如下表),试根据这些数据建立树高关于胸径的经验回归方程.编号123456789101112胸径d/cm18.120.122.224.426.028.329.632.433.735.738.340.2树高h/m18.819.221.021.022.122.122.422.623.024.323.924.7解:以胸径为横坐标、树高为纵坐标作散点图,可见两个变量呈正线性相关,因此可用一元线性回归模型刻画树高h与胸径d之间的关系.综合应用——树高与胸径的关系根据经验回归方程,由表中的胸径d的数据可以计算出树高的预测值(精确到0.1):以胸径为横坐标,残差为纵坐标,作残差图如下:残差的绝对值最大是0.8,所有残差分布在以横轴为对称轴、宽度小于2的带状区域内.可见经验回归方程较好地刻画了树高与胸径的关系,可以根据经验回归方程由胸径预测树高.综合应用
非线性关系的回归模型思想:变换为线性回归模型析:以世界纪录产生年份为横坐标,世界纪录为纵坐标作散点图如下:问题.(P115-119)人们常将男子短跑的高水平运动员称为“百米飞人”.下表给出了1968年之前男子短跑100m世界纪录产生的年份和世界纪录的数据.试依据这些成对数据,建立男子短跑100m世界纪录产生年份的经验回归方程.在图中,散点看上去大致分布在一条直线附近,似乎可用一元线性回归模型建立经验回归方程.思考1:仔细观察图中散点与直线的位置关系,你能看出其中存在的问题吗?以经验回归直线为参照,第1个散点远离经验回归直线,且前后两时间段的散点都在经验回归直线的上方,中间时间段的散点都在经验回归直线的下方.这说明散点并不是随机分布在经验回归直线的周围,而是围绕着经验回归直线有一定的变化规律,即成对样本数据呈现出明显的非线性相关的特征.思考2:你能对模型进行修改,以使其更好地反映散点的分布特征吗?散点更趋向于落在中间下凸且递减的某条曲线附近.已学的函数_________________的图象具有类似的形状特征.注意到短跑的第1个世界纪录产生于1896年,因此可以认为散点是集中在曲线y=c1+c2ln(t−1895)的周围,其中c1和c2为未知参数,且c2<0.思考1:仔细观察图中散点与直线的位置关系,你能看出其中存在的问题吗?y=﹣lnx、y=﹣lgx思考3:如何利用成对数据估计参数c1和c2?注意到短跑的第1个世界纪录产生于1896年,因此可以认为散点是集中在曲线y=c1+c2ln(t−1895)的周围,其中c1和c2为未知参数,且c2<0.非线性经验回归函数精确到0.01作出(xi,yi)的散点图,可见x与y呈现出很强的负线性相关特征.思考3:如何利用成对数据估计参数c1和c2?注意到短跑的第1个世界纪录产生于1896年,因此可以认为散点是集中在曲线y=c1+c2ln(t−1895)的周围,其中c1和c2为未知参数,且c2<0.非线性经验回归函数该经验回归方程对于表中的成对数据xi,yi具有非常好的拟合精度.x和Y之间的线性相关程度比t和Y的线性相关程度强得多.由图可看出,非线性经验回归方程②对于原始数据的拟合效果远远好于线性经验回归方程①思考4:你能否通过残差分析来比较这两个经验回归方程对数据刻画的好坏?方程②各项残差的绝对值远远小于方程①,即方程②的拟合效果要远远好于①.一般情况下,直接一一比较两个模型的各项残差绝对值比较困难,因为对于某些散点,模型①的残差的绝对值比模型②的小,而另一些散点的情况则相反.方案二:通过比较残差的平方和来比较两个模型的效果.在残差平方和最小的标准下,非线性回归模型的拟合效果要优于一元线性回归模型的拟合效果.方案一:通过比较残差的绝对值之和来比较两个模型的效果.方案二:通过比较残差的平方和来比较两个模型的效果.经验回归方程②的拟合效果要优于经验回归方程①的拟合效果.方案三:通过比较决定系数R2来比较两个模型的效果.残差平方和总偏差平方和(与回归方程无关)(与回归方程有关)R2越大,残差平方和越小,模型拟合效果越好.经验回归方程②的刻画效果比经验回归方程①的好很多.新知——决定系数R2①R2越大,残差平方和越小,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 细胞应激反应的
- 基于差动变压器原理的多臂井径仪探头技术研究
- 2014-2020年精密空调行业咨询报告
- 2024至2030年中国无烟全自动化燃煤气化燃烧锅炉数据监测研究报告
- 2024至2030年中国岸边固定回转吊行业投资前景及策略咨询研究报告
- 2024至2030年中国双端面机械密封数据监测研究报告
- 2024至2030年中国加强型输送网带行业投资前景及策略咨询研究报告
- 2024至2030年中国CL双直线杯数据监测研究报告
- 2024年中国饲料塔市场调查研究报告
- 2024年中国船舶通讯导航专用电源市场调查研究报告
- 粉丝见面会策划方案
- 主机改造方案图解
- 红外物理与技术(第2版)杨风暴课后习题解答
- 小说阅读的方法和技巧课件
- 倒数的认识分层作业设计
- 无线电能传输的经济性分析
- 23秋国家开放大学《植物病虫害防治基础》形考任务1-4参考答案
- 学校校园网络及信息安全管理制度(7篇)
- 《新能源汽车维护与故障诊断》课程标准
- 贵州省医疗服务项目收费标准4170项
- 2021年陕西省中小学教师职称职务评审表
评论
0/150
提交评论