




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、整理课件回归分析的基本思想及其初步应用回归分析的基本思想及其初步应用2010年年7月月整理课件123 ljzh.回归分析的基本思想及其初步应用回归分析的基本思想及其初步应用整理课件 ljzh.选修选修2-3回归部分增加的内容回归部分增加的内容必修3已学回归内容: 1.画散点图;画散点图; 2.最小二乘法的思想;最小二乘法的思想; 3.求回归直线方程求回归直线方程y=bx+a; 4. 用回归直线方程解决应用问题。用回归直线方程解决应用问题。选修2-3中增加内容: 1.引入线性回归模型引入线性回归模型y=bx+a+e. 2.了解模型中随机误差了解模型中随机误差e产生的原因。产生的原因。 3.了解相
2、关指数了解相关指数R2和模型拟合效果之间的关系。和模型拟合效果之间的关系。 4.了解残差图的作用。了解残差图的作用。 5.利用线性回归模型解决一类非线性回归模型。利用线性回归模型解决一类非线性回归模型。 6.正确理解统计分析方法与分析结果。正确理解统计分析方法与分析结果。整理课件 ljzh.回归分析知识结构图回归分析知识结构图问题背景分析问题背景分析线性回归模型线性回归模型两个变量线性相关两个变量线性相关最小二乘法最小二乘法两个变量非线性相关两个变量非线性相关非线性回归模型非线性回归模型残差分析残差分析相关指数相关指数散点图散点图应用应用注:虚线表示高中阶段不涉及的关系整理课件 ljzh.回归
3、分析教学内容分析回归分析教学内容分析一、教学任务分析一、教学任务分析1、利用残差和、利用残差和R2探讨回归模型拟合的效果,让学生理解在统探讨回归模型拟合的效果,让学生理解在统计中回归诊断的重要性,只有拟合效果好的模型才能利用回归计中回归诊断的重要性,只有拟合效果好的模型才能利用回归模型预报。模型预报。2、通过例、通过例1归纳出建立回归模型的基本步骤,并归纳出利用回归纳出建立回归模型的基本步骤,并归纳出利用回归模型预报体重时应该注意的适用性。归模型预报体重时应该注意的适用性。3、通过例、通过例2让学生体会如何借助线性回归模型研究具有非线性关让学生体会如何借助线性回归模型研究具有非线性关系的两个变
4、量。系的两个变量。4、寻求近似效果好的模型及寻求最有效的数据处理方法是人们、寻求近似效果好的模型及寻求最有效的数据处理方法是人们不断追求的目标。不断追求的目标。整理课件 ljzh.二、教学重点二、教学重点1、函数模型与、函数模型与“回归模型回归模型”的关系;散点图与模型的选择。的关系;散点图与模型的选择。2、建立回归模型的步骤,特别强调回归诊断中如何利用残差和、建立回归模型的步骤,特别强调回归诊断中如何利用残差和相关指数相关指数R23、注意提炼案例所蕴含的统计思想。应用统计方法解决实际问、注意提炼案例所蕴含的统计思想。应用统计方法解决实际问题需要注意的问题。题需要注意的问题。三、教学难点三、教
5、学难点借助函数变换把非线性相关关系转化为线性相关关系,例借助函数变换把非线性相关关系转化为线性相关关系,例2中所中所建立的两个模型:一个是把预报变量对数化,一个是把解释变量建立的两个模型:一个是把预报变量对数化,一个是把解释变量平方化。平方化。回归分析教学内容分析回归分析教学内容分析整理课件 ljzh.四、教学情境设计四、教学情境设计问题一:问题一:结合例结合例1得出线性回归模型及随机误差。并且得出线性回归模型及随机误差。并且区分函数区分函数 模型和回归模型。模型和回归模型。问题二:问题二:在线性回归模型中,在线性回归模型中,e是用是用bx+a预报真实值预报真实值y的随机误差,的随机误差, 它
6、是一个不可观测的量,那么应如何研究随机误差呢?它是一个不可观测的量,那么应如何研究随机误差呢?问题三:问题三:如何发现数据中的错误?如何衡量随机模型的拟合效果?如何发现数据中的错误?如何衡量随机模型的拟合效果?问题四:问题四:结合例结合例1思考:用回归方程预报体重时应注意什么?思考:用回归方程预报体重时应注意什么?问题五:问题五:归纳建立回归模型的基本步骤。归纳建立回归模型的基本步骤。问题六:问题六:若两个变量呈现非线性关系,如何解决?(分析例若两个变量呈现非线性关系,如何解决?(分析例2)整理课件 ljzh.例例1 从某大学中随机选取从某大学中随机选取8名女大学生,其身高和体重数据如表名女大
7、学生,其身高和体重数据如表1-1所示。所示。5943616454505748体重/kg170155165175170157165165身高/cm87654321编号求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为172cm的女大学生的体重。的女大学生的体重。问题一:问题一:结合例结合例1得出线性回归模型及随机误差。并且得出线性回归模型及随机误差。并且区分函数区分函数 模型和回归模型。模型和回归模型。解:解:1、选取身高为自变量、选取身高为自变量x,体重为因变量,体重为因变量y,作散点图:,作散点图:整理课件 ljz
8、h.问题一:问题一:结合例结合例1得出线性回归模型及随机误差。并且得出线性回归模型及随机误差。并且区分函数区分函数 模型和回归模型。模型和回归模型。2.回归方程:回归方程:172.85849. 0 xy学学身身 高高 1 17 72 2c cm m女女 大大生生 体体 重重y y = = 0 0. .8 84 49 91 17 72 2 - - 8 85 5. .7 71 12 2 = = 6 60 0. .3 31 16 6( (k kg g) )探究:身高为172cm的女大学生的体重一定是60.316kg吗?如果不是,你能解析一下原因吗?答:用这个回归方程不能给出每个身高为答:用这个回归方
9、程不能给出每个身高为172cm的女大学生的体重的预测值,的女大学生的体重的预测值,只能给出她们平均体重的值。只能给出她们平均体重的值。整理课件 ljzh.问题一:问题一:结合例结合例1得出线性回归模型及随机误差。并且得出线性回归模型及随机误差。并且区分函数区分函数 模型和回归模型。模型和回归模型。由于所有的样本点不共线,而只是散布在某一直线的附近,所以身高由于所有的样本点不共线,而只是散布在某一直线的附近,所以身高和体重的关系可以用和体重的关系可以用线性回归模型线性回归模型来表示:来表示:其中其中a和和b为模型的未知参数,为模型的未知参数,e称为随机误差称为随机误差.y=bx+a+e,E(e)
10、=0,D(e)=2.注:注:1、随机误差、随机误差e包含预报体重不能由身高的线性函数解释的所有部分。包含预报体重不能由身高的线性函数解释的所有部分。 2、E(e)=0可用回归方程必过样本点中心可用回归方程必过样本点中心 解释。解释。(,)xy整理课件 ljzh.问题一:问题一:结合例结合例1得出线性回归模型及随机误差。并且得出线性回归模型及随机误差。并且区分函数区分函数 模型和回归模型。模型和回归模型。11函数模型与函数模型与“回归模型回归模型”的关系的关系函数模型:函数模型: yfx样本点在函数曲线上样本点在函数曲线上回归模型:回归模型: yfxe样本点不在回归函数曲线上样本点不在回归函数曲
11、线上整理课件 ljzh.函数模型与函数模型与“回归模型回归模型”的关系的关系函数模型:因变量函数模型:因变量y完全由自变量完全由自变量x确定确定回归模型:回归模型: 预报变量预报变量y完全由解释变量完全由解释变量x和随机误差和随机误差e确定确定问题一:问题一:结合例结合例1得出线性回归模型及随机误差。并且得出线性回归模型及随机误差。并且区分函数区分函数 模型和回归模型。模型和回归模型。整理课件 ljzh.问题二:问题二:在线性回归模型中,在线性回归模型中,e是用是用bx+a预报真实值预报真实值y的随机误差,的随机误差, 它是一个不可观测的量,那么应如何研究随机误差呢?它是一个不可观测的量,那么
12、应如何研究随机误差呢?,1,2,. ,1,2,.iiiiiiiiybxa ineyyybxa ine1122nniii残差:一般的对于样本点(x ,y),(x ,y ),.,(x ,y ),它们的随机误差为e其估计值为称为相应于点(x ,y )的残差。 结合例结合例1除了身高影响体重外的其他因素是不可测量的,不能希望有某种方法获除了身高影响体重外的其他因素是不可测量的,不能希望有某种方法获取随机误差的值以提高预报变量的估计精度,但却可以估计预报变量观测值中所包取随机误差的值以提高预报变量的估计精度,但却可以估计预报变量观测值中所包含的随机误差,这对我们查找样本数据中的错误和模型的评价极为有用,
13、因此在此含的随机误差,这对我们查找样本数据中的错误和模型的评价极为有用,因此在此我们引入残差概念。我们引入残差概念。整理课件 ljzh.问题三:问题三:如何发现数据中的错误?如何衡量随机模型的拟合效果?如何发现数据中的错误?如何衡量随机模型的拟合效果?(1)我们可以通过分析发现原始数据中的可疑数据,判断建立模型的拟合效果。我们可以通过分析发现原始数据中的可疑数据,判断建立模型的拟合效果。iiieybxa(1)计算(i=1,2,.n)残差分析(2)画残差图(1)查找异常样本数据(3)分析残差图(2)残差点分布在以O为中心的水平带状区域,并沿水平方向散点的分布规律相同。整理课件 ljzh.残差图的
14、制作和作用:残差图的制作和作用:制作:坐标纵轴为残差变量,横轴可以有不同的选择. 横轴为编号:可以考察残差与编号次序之间的关系, 常用于调查数据错误. 横轴为解释变量:可以考察残差与解释变量的关系,常用于研究模型是否有改进的余地.作用:判断模型的适用性若模型选择的正确,残差图中的点应该分布在以横轴为中心的带形区域.问题三:问题三:如何发现数据中的错误?如何衡量随机模型的拟合效果?如何发现数据中的错误?如何衡量随机模型的拟合效果?整理课件 ljzh.问题三:问题三:如何发现数据中的错误?如何衡量随机模型的拟合效果?如何发现数据中的错误?如何衡量随机模型的拟合效果?下面表格列出了女大学生身高和体重
15、的原始数据以及相应的残差数据。下面表格列出了女大学生身高和体重的原始数据以及相应的残差数据。编号编号12345678身高身高/cm165165157170175165155170体重体重/kg4857505464614359残差残差-6.3732.6272.419-4.6181.1376.627-2.8830.382整理课件残差图的制作及作用。残差图的制作及作用。坐标纵轴为残差变量,横轴可以有不同的选择;坐标纵轴为残差变量,横轴可以有不同的选择;若模型选择的正确,残差图中的点应该分布在以横轴若模型选择的正确,残差图中的点应该分布在以横轴为心的带形区域为心的带形区域;对于远离横轴的点,要特别注意
16、对于远离横轴的点,要特别注意。身高与体重残差图异常点 错误数据 模型问题 几点说明:几点说明: 第一个样本点和第第一个样本点和第6个样本点的残差比较大,需要确认在采集过程中是否有人为的错误。个样本点的残差比较大,需要确认在采集过程中是否有人为的错误。如果数据采集有错误,就予以纠正,然后再重新利用线性回归模型拟合数据;如果数据采如果数据采集有错误,就予以纠正,然后再重新利用线性回归模型拟合数据;如果数据采集没有错误,则需要寻找其他的原因。集没有错误,则需要寻找其他的原因。 另外,残差点比较均匀地落在水平的带状区域中,说明选用的模型计较合适,这样的带另外,残差点比较均匀地落在水平的带状区域中,说明
17、选用的模型计较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高。状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高。整理课件 ljzh.问题三:问题三:如何发现数据中的错误?如何衡量随机模型的拟合效果?如何发现数据中的错误?如何衡量随机模型的拟合效果?显然,显然,R2的值越大,说明残差平方和越小,也就是说模型拟合效果越好。的值越大,说明残差平方和越小,也就是说模型拟合效果越好。在线性回归模型中,在线性回归模型中,R2表示解析变量对预报变量变化的贡献率。表示解析变量对预报变量变化的贡献率。 R2越接近越接近1,表示回归的效果越好(因为,表示回归的效果越好(
18、因为R2越接近越接近1,表示解析变量和预报变量的,表示解析变量和预报变量的线性相关性越强)线性相关性越强)。 如果某组数据可能采取几种不同回归方程进行回归分析,则可以通过比较如果某组数据可能采取几种不同回归方程进行回归分析,则可以通过比较R2的值的值来做出选择,即选取来做出选择,即选取R2较大的模型作为这组数据的模型。较大的模型作为这组数据的模型。注:相关指数注:相关指数R R2 2是度量模型拟合效果的一种指标。在线性模型中,它代表是度量模型拟合效果的一种指标。在线性模型中,它代表自变量刻画预报变量的能力。自变量刻画预报变量的能力。(2)我们可以用相关指数)我们可以用相关指数R2来刻画回归的效
19、果,其计算公式是来刻画回归的效果,其计算公式是22121()11()niiiniiyyRyy残 差 平 方 和。总 偏 差 平 方 和整理课件 ljzh.1354总计0.36128.361残差变量0.64225.639随机误差比例平方和来源 从上中可以看出,解析变量对总效应约贡献了从上中可以看出,解析变量对总效应约贡献了64%,即,即R2 0.64,可以叙述为,可以叙述为“身高解析了身高解析了64%的体重变化的体重变化”,而随机误,而随机误差贡献了剩余的差贡献了剩余的36%。 所以,身高对体重的效应比随机误差的效应大得多。所以,身高对体重的效应比随机误差的效应大得多。问题三:问题三:如何发现数
20、据中的错误?如何衡量随机模型的拟合效果?如何发现数据中的错误?如何衡量随机模型的拟合效果?下面我们用相关指数分析一下例下面我们用相关指数分析一下例1:整理课件 ljzh.问题四:结合例问题四:结合例1思考:用回归方程预报体重时应注意什么?思考:用回归方程预报体重时应注意什么?用身高预报体重时应注意的问题:用身高预报体重时应注意的问题:1.回归方程只适用于我们所研究的样本的总体。回归方程只适用于我们所研究的样本的总体。2.我们建立的回归方程一般都有时间性。我们建立的回归方程一般都有时间性。3.样本取值的范围会影响回归方程的适用范围。样本取值的范围会影响回归方程的适用范围。4.不能期望回归方程得到
21、的预报值就是预报变量的精确值。不能期望回归方程得到的预报值就是预报变量的精确值。涉及到统计的一些思想:涉及到统计的一些思想:模型适用的总体;模型的时间性;模型适用的总体;模型的时间性;样本的取值范围对模型的影响;模型预报结果的正确理解。样本的取值范围对模型的影响;模型预报结果的正确理解。整理课件 ljzh.一般地,建立回归模型的基本步骤为:一般地,建立回归模型的基本步骤为:(1)确定研究对象,明确哪个变量是解析变量,哪个变量是预报变量。)确定研究对象,明确哪个变量是解析变量,哪个变量是预报变量。(2)画出确定好的解析变量和预报变量的散点图,观察它们之间的关系)画出确定好的解析变量和预报变量的散
22、点图,观察它们之间的关系 (如是否存在线性关系等)。(如是否存在线性关系等)。(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程程y=bx+a).(4)按一定规则估计回归方程中的参数(如最小二乘法)。)按一定规则估计回归方程中的参数(如最小二乘法)。(5)得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差呈现不随机的)得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差呈现不随机的规律性,等等),过存在异常,则检查数据是否有误,或模型是否合适等。规律性,等等),过存在异常,则检
23、查数据是否有误,或模型是否合适等。问题五:问题五:归纳建立回归模型的基本步骤。归纳建立回归模型的基本步骤。整理课件 ljzh.问题六:问题六:若两个变量呈现非线性关系,如何解决?(分析例若两个变量呈现非线性关系,如何解决?(分析例2)例例2 一只红铃虫的产卵数一只红铃虫的产卵数y和温度和温度x有关。现收集了有关。现收集了7组观测数据列于表中:组观测数据列于表中:温度温度xoC21232527293235产卵数产卵数y/个个711212466115325(1 1)试建立产卵数)试建立产卵数y y与温度与温度x x之间的回归方程;并预测温度为之间的回归方程;并预测温度为2828o oC C时产卵数
24、目。时产卵数目。(2 2)你所建立的模型中温度在多大程度上解释了产卵数的变化?)你所建立的模型中温度在多大程度上解释了产卵数的变化? 整理课件 ljzh.选变量选变量 解:选取气温为解释变量解:选取气温为解释变量x x,产卵数,产卵数 为预报变量为预报变量y y。画散点图画散点图假设线性回归方程为假设线性回归方程为 :=bx+a选选 模模 型型分析和预测分析和预测当当x=28时,时,y =19.8728-463.73 93估计参数估计参数由计算器得:线性回归方程为由计算器得:线性回归方程为y=y=19.8719.87x x-463.73-463.73 相关指数相关指数R R2 2= =r r2
25、 20.8640.8642 2=0.7464=0.7464所以,一次函数模型中温度解释了所以,一次函数模型中温度解释了74.64%的产卵数变化。的产卵数变化。050100150200250300350036912151821242730333639当当x=28时,时,y =19.8728-463.73 93方法一:一元函数模型方法一:一元函数模型问题六:问题六:若两个变量呈现非线性关系,如何解决?(分析例若两个变量呈现非线性关系,如何解决?(分析例2)整理课件 ljzh. y= c1 x2+c2 变换变换 y= c1 t+c2 非线性关系非线性关系 线性关系线性关系问题问题选用选用y=c1x2
26、+c2 ,还是,还是y=c1x2+cx+c2 ?问题问题3 产卵数产卵数气温气温问题问题2如何求如何求c1、c2? t=x2方法二,二元函数模型方法二,二元函数模型问题六:问题六:若两个变量呈现非线性关系,如何解决?(分析例若两个变量呈现非线性关系,如何解决?(分析例2)整理课件 ljzh.平方变换平方变换:令令t=xt=x2 2,产卵数,产卵数y y和温度和温度x x之间二次函数模型之间二次函数模型y=bxy=bx2 2+a+a就转化就转化为产卵数为产卵数y y和温度的平方和温度的平方t t之间线性回归模型之间线性回归模型y=bt+ay=bt+a温度温度21232527293235温度的平方
27、温度的平方t44152962572984110241225产卵数产卵数y/个个711212466115325作散点图,并由计算器得:作散点图,并由计算器得:y y和和t t之间的线性回归方程为之间的线性回归方程为y=y=0.3670.367t t-202.54-202.54,相关指数,相关指数R R2 2= =r r2 20.8960.8962 2=0.802=0.802将将t=xt=x2 2代入线性回归方程得:代入线性回归方程得: y=y=0.3670.367x x2 2 -202.54 -202.54当当x x=28=28时时,y y=0.367=0.36728282 2- -202.54
28、85202.5485,且,且R R2 2=0.802=0.802,所以,二次函数模型中温度解所以,二次函数模型中温度解释了释了80.2%80.2%的产卵数变化。的产卵数变化。t问题六:问题六:若两个变量呈现非线性关系,如何解决?(分析例若两个变量呈现非线性关系,如何解决?(分析例2)整理课件 ljzh.产卵数产卵数气温气温 变换变换 y=bx+a 非线性关系非线性关系 线性关系线性关系43c xyc e对数对数问题六:问题六:若两个变量呈现非线性关系,如何解决?(分析例若两个变量呈现非线性关系,如何解决?(分析例2)方法三:指数函数模型整理课件 ljzh.温度温度xoC212325272932
29、35z=lgy0.851.041.321.381.822.062.51产卵数产卵数y/个个711212466115325xz当当x=28x=28o oC C 时,时,y 44 y 44 ,指数回归模型,指数回归模型中温度解释了中温度解释了98%98%的产卵数的变化的产卵数的变化由计算器得:由计算器得:z z关于关于x x的线性回归方程的线性回归方程为为z=0.272z=0.272x x-3.849 -3.849 ,相关指数相关指数R R2 2= =r r2 20.99250.99252 2=0.98=0.980.272x-3.849 ye 对数变换:在对数变换:在 中两边取自然对数得中两边取自然对数得令令 ,则,则 就转换为就转换为z z=bx+a=bx+a44333434lnln()lnlnlnlnlnc xc xyc ececc xec xc43c xyc e34ln,ln,zy acbc43c xyc e问题六:问题六:若两个变量呈现非线性关系,如何解决?(分析例若两个变量呈现非线性关系,如何解决?(分析例2)整理课件 ljzh.函数模型函数模型相关指数相关指数R2线性回归模型线性回归模型0.7464二次函数模型二次函数模型0.802指数函数模型指数函数模型0.98最好的模型是哪个最好的模型是哪个?显然,指数函数模型最好!显然
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 幼儿早期学习支持知到课后答案智慧树章节测试答案2025年春长春市城建工程学校
- 2025健康美容项目服务合同
- 网络平台搭建合同范本
- 2025设备租赁合同书版
- 清单招标工程合同范本
- 2025年租赁合同范本:住宅房屋出租合同
- 五年级下册数学教案-《一、分数》 西师大版
- 2024年南京市溧水区人民医院招聘真题
- 2024年贵州社区工作者招聘真题
- 2024年福建省宁德职业技术学院招聘真题
- 信息技术必修1数据与计算2.2《做出判断的分支》教学设计
- 七年级生物上册 3.2.1 种子的萌发说课稿1 (新版)新人教版
- 2025年临床医师定期考核必考复习题库及答案(1000题)
- 2024年中国男式印花T-恤衫市场调查研究报告
- 保安指挥车辆标准手势培训
- 【MOOC】医学心理学-北京大学 中国大学慕课MOOC答案
- 中建塔式起重机安装、拆除专项施工方案
- 《光明乳业公司企业应收账款管理现状及优化建议(10000字论文)》
- 邀请招标文件模板
- 金融投资项目立项管理制度
- 大学生职业规划学习通超星期末考试答案章节答案2024年
评论
0/150
提交评论