1.1 回归分析的基本思想及其初步应用ppt课件_第1页
1.1 回归分析的基本思想及其初步应用ppt课件_第2页
1.1 回归分析的基本思想及其初步应用ppt课件_第3页
1.1 回归分析的基本思想及其初步应用ppt课件_第4页
1.1 回归分析的基本思想及其初步应用ppt课件_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、统计案例第一章 .? , ? , :, 等等等等性性相相关关关关系系 线线体体重重之之间间是是否否存存在在身身高高和和一一个个重重要要因因素素 肥肥胖胖是是影影响响人人类类健健康康的的与与患患肺肺癌癌有有关关系系吗吗 吸吸烟烟胁胁人人类类性性命命的的一一种种疾疾病病肺肺癌癌是是严严重重威威 面面的的问问题题我我们们经经常常会会遇遇到到类类似似下下在在现现实实中中 ., ,)(, ,)( , 以以得得到到最最可可靠靠的的结结论论当当的的方方法法分分析析数数据据 然然后后用用恰恰的的方方法法数数据据并并确确定定获获取取变变量量值值题题 决决的的问问用用怎怎样样的的量量来来描描述述要要解解是是什什么

2、么总总体体 象象必必须须明明确确问问题题涉涉及及的的对对为为了了回回答答这这些些问问题题 ., , , , . , 的的作作用用认认识识统统计计方方法法在在决决策策中中想想 的的基基本本思思并并初初步步了了解解独独立立性性检检验验其其应应用用 析析方方法法及及进进一一步步讨讨论论线线性性回回归归分分的的讨讨论论 通通过过对对典典型型例例案案我我们们将将在在此此基基础础上上章章中中 本本归归等等基基本本知知识识样样本本估估计计总总体体、线线性性回回 用用我我们们学学习习过过关关于于抽抽样样、在在必必修修模模块块中中 其初步应用回归分析的基本思想及1 . 1 ., , ,3. )analysisr

3、egression( . , 行行预预报报并并用用回回归归直直线线方方程程进进直直线线方方程程 求求回回归归点点图图其其步步骤骤为为画画散散进进行行了了研研究究 的的方方法法系系的的变变量量利利用用回回归归分分析析性性相相关关关关 我我们们对对两两个个具具有有线线中中数数学学在在方方法法 析析的的一一种种常常用用分分系系的的两两个个变变量量进进行行统统计计 是是对对具具有有相相关关关关析析 回回归归分分定定性性关关系系而而相相关关关关系系是是一一种种非非确确 性性关关系系函函数数关关系系是是一一种种确确定定我我们们知知道道 : ,y,x,y,x,y,x nn2211 二乘估计公式分别为二乘估计

4、公式分别为 截距和斜率的最小截距和斜率的最小我们知道其回归方程的我们知道其回归方程的 关系的数据关系的数据对于一组具有线性相关对于一组具有线性相关探究探究 1xb y a 2, xx yyxx b n 1i 2 i n 1i ii ?. y, x.yy,x n 1 x n 1i i n 1i i 公公式式吗吗你你能能推推导导出出这这两两个个计计算算 称称为为其其中中 样样本本点点的的 中中心心 .心心回回归归直直线线过过样样本本点点的的中中 ., xy, Q b a , n 1i 2 ii 的值取最小值时 分别是使和斜率截距从已经学过的知识知道 n 1i 2 ii xyxyxy, Q由于 2

5、n 1i ii 2 ii xyxy xyxy2xyxy ,xynxy xyxy2xyxy 2 n 1i ii n 1i 2 ii xyxyxy n 1i ii 注意到 n 1i ii xyxyxy n 1i n 1i ii xynxyxy , 0 xynxnynxy 2 n 1i 2 ii xynxyxy, Q 所以 2 n 1i 2 i i n 1i n 1i i 2 i 2 xynyy yyxx2xx 2 n 1i 2 i n 1i ii n 1i 2 i 2 xx yyxx xxxyn .yy xx yyxx n 1i 2 i n 1i 2 i 2 n 1i ii 即有均为 当且仅当前两

6、项的值取最小值因此要使数 而前两项为非负无关后两项和在上式中 , 0 ,Q, , , .xy, xx yyxx n 1i 2 i n 1i ii .公式这正是我们所要推导的 . , 基基本本思思想想及及其其应应用用 进进一一步步学学习习回回归归分分析析的的下下面面我我们们通通过过案案例例 .11 ,81 所示重数据如表 其身高和体名女大学生从某大学中随机选取 5943616454505748kg/ 170155165175170157165165cm/ 87654321 体体重重 身身高高 编编号号 .cm172 , 的的女女大大学学生生的的体体重重并并预预报报一一名名身身高高为为 归归方方程

7、程身身高高预预报报她她的的体体重重的的回回求求根根据据一一名名女女大大学学生生的的 : ) 11 . 1( . , , 图图 作散点体重为因变量 真实取身高为自变量 因此选据身高预报体重 由于问题中要求根解 y x 11 . 1图 x y . , , ,11 . 1 画它们之间的关系 刻性回归方程以用线 因此可线性相关关系 较好的重有比高和体 身样本点呈条状分布 中可以看出从图 .712.85 x 849.0 y .849.0b ,712.85 a ,21 于是得到回归方程 可以得到和根据探究中的公式 .kg316.60712.85172849.0y ,cm172, 预报其体重为 由回归方程可

8、以的女大学生对身高为所以 11 . 1图 x y ? . ,849.0y,1 x,849.0b 的强弱它们之间线性相关关系 如何描述性相关关系体重与身高具有正的线 这表明个单位就增加体重个单位时 每增加说明身高是斜率的估计值 为关系数的具体计算公式 样本相关系的方法两个变量之间线性相关 来衡量我们介绍了用相关系数中在必修 . r,3 . yyxx yyxx r n 1i n 1i 2 i 2 i n 1i ii . 75.0r,. , 0r ; , 1r . ,0r;,0r 强的线性相关关系 时认为两个变量有很大于当通常关系 不存在线性相关表明两个变量之间几乎时 越接近于性越强明两个变量的线性

9、相关 表的绝对值越接近表明两个变量负相关 时当表明两个变量正相关时当 . , ,798.0r, 有意义的我们建立的回归模型是 从而也表明关关系与身高有很强的线性相 这表明体重可以计算出在本例中 ?, ?kg316.60 cm172 其其原原因因是是什什么么不不是是 如如果果吗吗是是 女女大大学学生生的的体体重重一一定定 的的身身高高探探究究 . 21 . 1.316.60 316.60 172, 位置说明了这一点本点和回归直线的相互 中的样图以认为她的体重接近于 但一般可是 大学生的体重不一定 的女身高显然 kg kg cm 21 . 1图 3, eabxy: , , 回归模型来表示 可用下面

10、的线性所以身高和体重的关系线的附近 而只是散布在某一条直线由于所有的样本点不共 .y,x ,yx,e xy, 称称为为预预报报变变量量把把称称为为解解释释变变量量 因因此此我我们们把把的的变变化化只只能能解解释释部部分分即即共共同同确确定定素素 和和随随机机因因的的值值由由在在回回归归模模型型中中与与函函数数关关系系不不同同 : .0eD, 0eE ,e. abxyye,ba 2 整表达式为整表达式为 这样线性回归模型的完这样线性回归模型的完方差方差 它的均值它的均值称为称为为随机变量为随机变量通常通常的误差的误差 之间之间与与是是为模型的未知参数为模型的未知参数和和这里这里 随机误差随机误差

11、 .eD, 0eE ,eabxy 2 4 随随机机误误差差是是引引起起预预报报的的精精度度越越高高预预报报真真实实值值 通通过过回回归归直直线线 越越小小的的方方差差随随机机误误差差中中在在线线性性回回归归模模型型 .y 5,abxy ,e,4 2 . ,y y 取取决决于于随随机机误误差差的的方方差差 其其大大小小之之间间的的误误差差的的原原因因之之一一与与真真实实值值值值 . y y ,ba, b a 21, 另另一一个个原原因因 之之间间误误差差的的与与真真实实值值这这种种误误差差是是引引起起预预报报值值 之之间间也也存存在在误误差差和和它它们们与与真真实实值值的的估估计计值值 为为截截

12、距距和和斜斜率率和和中中和和由由于于公公式式另另一一方方面面 ?e的的原原因因是是什什么么产产生生随随机机误误差差项项思思考考 . . ,. . , 的产生差项 误机随所有这些因素都会导致是一种近似的模型 型往往只我们选用的线性模另外动、度量误差等 食习惯、是否喜欢运例如饮许多其他因素的影响 还受身高的影响外一个人的体重值除了受实际上 e ? , , 如何衡量预报的精度随机误差 那么应该怎样研究它是一个不可观测的量误差 的预报真实值是用在线性回归模型中探究yye . , 0 , , . , 2 随随机机误误差差的的大大小小 来来衡衡量量因因此此可可以以用用方方差差而而随随机机误误差差的的均均值

13、值为为 于于均均值值程程度度的的数数字字特特征征差差是是反反映映随随机机变变量量集集中中 方方平平均均水水平平的的数数字字特特征征值值是是反反映映随随机机变变量量取取值值 均均画画它它的的一一些些总总体体特特征征机机变变量量的的数数字字特特征征来来刻刻 因因此此可可以以通通过过这这个个随随量量因因为为随随机机误误差差是是随随机机变变 .e, y,y e43?e . ., 2 的的样样本本变变量量因因此此也也就就无无法法得得到到随随机机分分离离出出来来 中中我我们们无无法法精精确确地地把把它它从从中中隐隐含含在在预预报报变变量量 中中的的或或由由于于模模型型的的样样本本呢呢到到随随机机变变量量

14、如如何何得得来来估估计计总总体体方方差差的的想想法法是是通通过过样样本本方方差差 一一个个自自然然的的值值需需要要估估计计为为了了衡衡量量预预报报的的精精度度 , a xb y ,21 . 2 归方程 可以建立回和公式根据截距和斜率的估计 样本的估计值来估计解决问题的途径是通过 .e y y e , y ye.y 5 y 的估计量是所以 由于随机误差的估计值中是因此 . n, 2 , 1i , abxyy ye , y,x,y,x,y,x iiiii nn2211 相应它们的随机误差为相应它们的随机误差为而言而言 对于样本点对于样本点 , n, 2 , 1 i , a xb y y y e i

15、iiii 其估计值为其估计值为 2nb , a Q 2n 1 e 2n 1 , ).residual(y,x e n 1i 22 iii 可可以以用用差差估估计计总总体体方方差差的的思思想想 类类比比样样本本方方的的称称为为相相应应于于点点残残差差 ., . ).squaresofsumresidual( b , a Q,21b a , 22 2 预预报报精精度度越越高高越越小小度度衡衡量量回回归归方方程程的的预预报报精精 可可以以用用称称为为 给给出出由由公公式式和和其其中中的的估估计计值值作作为为 残差平方和残差平方和 .2n效效果果是是为为了了达达到到更更好好的的估估计计公公式式中中的的

16、分分母母取取 . xx yyxx b 2. xb y a :1 n 1i 2 1 n 1i ii 公公式式公公式式 ?0 ?21 吗吗为为 报报误误差差性性回回归归方方程程的的预预用用这这样样的的样样本本建建立立的的线线 时时残残差差平平方方和和为为多多少少或或当当样样本本容容量量为为思思考考 . , e , e , e ,. , , n21 这这方方面面的的分分析析工工作作称称为为在在可可疑疑数数据据 判判断断原原始始数数据据中中是是否否存存来来判判断断模模型型拟拟合合的的效效果果 可可以以通通过过残残差差然然后后性性回回归归模模型型来来拟拟合合数数据据 是是否否可可以以用用线线线线性性相相

17、关关来来粗粗略略判判断断它它们们是是否否相相 首首先先要要根根据据散散点点图图系系时时在在研研究究两两个个变变量量间间的的关关 残差分析残差分析 . 21 相应的残差数据 重的原始数据以及列出女大学生身高和体表 382.0883.2627.6137.1618.4419.2627.2373.6 e 5943616454505748kg/ 170155165175170157165165cm/ 87654321 残残差差 体体重重 身身高高 编编号号 编号编号 残残差差 31 . 1图 . 31 . 1. , , , , . 残差图 坐标的样本编号为横 是以图 这样作出的图形为等 或体重估计值高数

18、据 或身可选为样本编号 横坐标纵坐标为残差 作图时分析残差特性 我们可以利用图形来 残残差差图图 编号编号 残残差差 31 . 1图 ., , ,., ; , , . , 61, 31 .1 越高回归方程的预报精确度拟合精度越高 说明模型区域的宽度越窄均匀地落在水平的带状 残差点比较另外则需要寻找其他的原因没有错误 如果数据采集合数据 归模型拟性回利用线 然后再重新予以纠正 就果数据采集有错误 如是否有人为的错误 点的过程中两个样本 需要确认在采集这大 个样本点的残差比较 个样本点和第第出 中可以看从图 . yy y y 1R: ,R, n 1i 2 i n 1i 2 ii 2 2 其计算公式

19、是其计算公式是 来刻画回归的效果来刻画回归的效果我们还可以用相关指数我们还可以用相关指数另外另外 .r R, 2 的的平平方方系系数数 恰恰好好等等于于相相关关线线性性模模型型中中在在含含有有一一个个解解释释变变量量的的 如果对某组数据如果对某组数据关性越强关性越强量和预报变量的线性相量和预报变量的线性相 表示解释变表示解释变越接近于越接近于因为因为表示回归的效果越好表示回归的效果越好 接近于接近于越越化的贡献率化的贡献率释变量对于预报变量变释变量对于预报变量变 表示解表示解在线性回归模型中在线性回归模型中模型的拟合效果越好模型的拟合效果越好 也就是说也就是说意味着残差平方和越小意味着残差平方

20、和越小取值越大取值越大显然显然 . ) , 1R( , 1R. R,. ,R, 2 2 2 2 . R,R , 22 据的模型据的模型 大的模型作为这组数大的模型作为这组数选择选择可以通过比较几个可以通过比较几个 也也回归分析回归分析种不同的回归方程进行种不同的回归方程进行取几取几可能性采可能性采 . %64, %64,64.0R,1 2 高引起的高引起的 是由身是由身女大学生体重差异有女大学生体重差异有或者说或者说体重变化体重变化 的的女大学生身高解释了女大学生身高解释了表明表明中中在例在例 :,需要注意下列问题用身高预报体重时 . , ,. , ,.1 系木的高与直径之间的关描述北方干旱地

21、区的树 方程的高与直径之间的回归在南方多雨地区的树木 不能用生长同样之间的关系女运动员的身高和体重 描述和体重之间的回归方程不能用女大学生的身高 例如所研究的样本的总体回归方程只适用于我们 ., 8020 ,.2 之间的关系描述现在的身高和体重方程 建立的回归年代的身高体重数据所世纪能用 不例如一般都有时间性我们所建立的回归方程 .),ycm70 x ,cm170,cm155x ,( , ,.3 显然不合适值时的程计算 而用这个方的样本的取值范围为 解释变量即在回归方程中重之间的关系就不恰当 幼儿时期的身高和体那么用它来描述一个人立的 建大学生身高和体重数据我们的回归方程是由女 例如归方程的适

22、用范围样本取值范围会影响回 .,. .4 值的平均值它是预报变量的可能取事实上精确值 的的预报值就是预报变量不能期望回归方程得到 :,骤为骤为建立回归模型的基本步建立回归模型的基本步一般地一般地 ; ,1 量是预报变量量是预报变量 哪个变哪个变量量明确哪个变量是解释变明确哪个变量是解释变确定研究对象确定研究对象 ; ,2 如是否存在线性关系等如是否存在线性关系等观察它们之间的关系观察它们之间的关系 散点图散点图释主变量和预报变量的释主变量和预报变量的画出确定好的解画出确定好的解 );abxy, (3 则选用线性回归方程则选用线性回归方程线性关系线性关系 如我们观察到数据呈如我们观察到数据呈型型

23、由经验确定回归方程类由经验确定回归方程类 ); (4 乘法乘法 如最小二如最小二程中的参数程中的参数按一定规则估计回归方按一定规则估计回归方 ., ), (5 或或模模型型是是否否合合适适等等则则检检查查数数据据是是否否有有误误在在异异常常 若若存存律律性性等等等等或或残残差差呈呈现现不不随随机机的的规规应应残残差差过过大大 个个别别数数据据对对是是否否有有异异常常得得出出结结果果后后分分析析残残差差图图 .,31 7.2 之间的回归方程与试建立中观察数据列于表 组现收集了有关和温度一只红铃虫的产卵数 xy xy 31表 325115662421117/y 35322927252321C/ 0

24、 个个产产卵卵数数 温温度度 41 . 1图 温温度度 产卵数产卵数 .41 . 1据作散点图 根据收集的数解 所以不能相关关系 线性个变量不呈线 因此两带状区域内 某个布在有分并没 样本点在散点图中 , , , .cc,ecy , . 21 xc 1 2 是待定参数和其中的周围指数函数曲线 某一条可以发现样本点分布在根据已有的函数知识 系立两个变量之间的关建来直接利用线性回归方程 . xy,. )cb,clna(abxz , ylnz. .cc, 21 21 了间的非线性回归方程 之和型来建立就可以利用线性回归模这样的周围 直线换后样本点应该分布在 则变令系变为线性关过对数变换把指数关系 我

25、们可以通和参数问题变为如何估计待定现在 . ,abxy 线线性性回回归归方方程程 我我们们称称之之为为非非时时当当回回归归方方程程不不是是形形如如 图的样本数据表的数据可以得到变换后由表, 4131 . , 51 . 1.4151 . 1 用线性回归方程来拟合 因此可以一条直线的附近变换后的样本点分布在看出 中可以从图中数据的散点图给出了表 784.5745.4190.4178.3045.3398.2946.1z 35322927252321x 41表 产卵数的对数 温度 51 . 1图 .843. 3272. 0 41 xz 到线性回归方程 中的数据得由表 回归方程为 数对温度的非线性 因此

26、红铃虫的产卵 6e y 843.3x272.01 . , ,. , 41 . 1, 2 434 2 3 非线性回归方程 之间的与从而得到之间的线性回归方程与立 然后建即令变换因此可以对温度变量做数 为待定参和其中的附近次曲线 中样本点集中在某二可以认为图另一方面 xyty xt cccxcy .61 . 1 ,51 是相应的散点图 图应的温度的平方是红铃虫的产卵数和对表 325115662421117y 12251024841729625529441t 51表 . . , , , 61 . 1 4 2 3 下面介绍具体方法到还可以通过残差分析得 这个结论之间的关系与来拟合二次曲线 即不宜用合它

27、 回归方程来拟 此不宜用线性 因直线的周围 不分布在一条 的散点图并 与可以看出 中从图 xycxcy t y 温度的平方 数 卵 产 61 . 1图 中用线性回归模型拟合表的二次回归方程关于 下面建立的指数回归方程关于前面已经建立了方程 归需要建立两个相应的回残差为比较两个不同模型的 51. ,. , xy xy 7.54.202x367.0 y xy,54.202t367.0 y ty, 22 2 的二次回归方程为关于即 的线性回归方程关于得到的数据 的残差计算公式分别为 和则回归方程列的数据行第第表示表用 的拟合效果和个回归方程可以通过残差来比较两 7 6,1151 .76 ixi ; 7 , 2 ,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论