统计PP统原PP第八章相关分析ppt课件_第1页
统计PP统原PP第八章相关分析ppt课件_第2页
统计PP统原PP第八章相关分析ppt课件_第3页
统计PP统原PP第八章相关分析ppt课件_第4页
统计PP统原PP第八章相关分析ppt课件_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第三节 简单直线回归分析 英人 遗传学 高尔顿 学生 皮尔逊 简单线性回归分析:是对两个具有线性关系的变量,研究其相关性,配合线性回归方程,并根据自变量的变动来推算和预测因变量平均发展趋势的方法。一、回归分析的概念“回归一词是由英国生物学家高尔顿在研究人体身高的遗传问题时首先提出的。根据遗传学的观点:父母身材高的,其子女一般也较高,父母身材矮的,其子女身材也较矮。依此推论,祖祖辈辈遗传下来,身高必然向两极分化,而事实上并非如此。同样身高的父亲,其子女身高并不一致。身材很高的子女往往是由身材中等偏上的父母所生,父母身材矮的其子女一般也较矮,但平均起来并不是特别矮。把这种人的身高趋向人的平均高度的

2、现象称作回归。 回归分析:通过一个变量或一些变量的变化解释另一变量的变化。设法找出合适的数学方程式即回归模型描述变量间的关系 (二回归的种类 回归按照自变量的个数划分为一元回归和多元回归。只有一个自变量的回归叫一元回归,有两个或两个以上自变量的回归叫多元回归。 按照回归曲线的形态划分,有线性直线回归和非线性曲线回归。 实际分析时应根据客观现象的性质、特点、研究目的和任务选取回归分析的方法。 二、相关分析与回归分析的关系 (一相关分析与回归分析的联系 相关分析是回归分析的基础和前提,回归分析则是相关分析的深入和继续。相关分析需要依靠回归分析来表现变量之间数量相关的具体形式,而回归分析则需要依靠相

3、关分析来表现变量之间数量变化的相关程度。只有当变量之间存在高度相关时,进行回归分析寻求其相关的具体形式才有意义。如果在没有对变量之间是否相关以及相关方向和程度做出正确判断之前,就进行回归分析,很容易造成“虚假回归”。与此同时,相关分析只研究变量之间相关的方向和程度,不能推断变量之间相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况,因而,在具体应用过程中,只有把相关分析和回归分析结合起来,才能达到研究和分析的目的。 (二相关分析与回归分析的区别 1相关分析中涉及的变量不存在自变量和因变量的划分问题,变量之间的关系是对等的;而在回归分析中,则必须根据研究对象的性质和研究分析的目

4、的,对变量进行自变量和因变量的划分。因而,在回归分析中,变量之间的关系是不对等的。 2在相关分析中所有的变量都必须是随机变量;而在回归分析中,自变量是确定的,因变量才是随机的,即将自变量的给定值代入回归方程后,所得到的因变量的估计值不是唯一确定的,而会表现出一定的随机波动性。 3相关分析主要是通过一个指标即相关系数来反映变量之间相关程度的大小,由于变量之间是对等的,因此相关系数是唯一确定的。而在回归分析中,对于互为因果的两个变量 (如人的身高与体重,商品的价格与需求量),则有可能存在多个回归方程。 需要指出的是,变量之间是否存在“真实相关”,是由变量之间的内在联系所决定的。相关分析和回归分析只

5、是定量分析的手段,通过相关分析和回归分析,虽然可以从数量上反映变量之间的联系形式及其密切程度,但是无法准确判断变量之间内在联系的存在与否,也无法判断变量之间的因果关系。因而,在具体应用过程中,一定要注意把定性分析和定量分析结合起来,在定性分析的基础上展开定量分析。 变量之间关系变量之间关系函数关系函数关系相关关系相关关系因果关系因果关系互为因果关系互为因果关系共变关系共变关系确定性依存关系确定性依存关系随机性依存关系随机性依存关系|联络联络:相关分析是回归分析的前提相关分析是回归分析的前提 ;回归分析;回归分析是相关分析的继续和拓展。是相关分析的继续和拓展。|区别区别m变量之间是否存在对等关系

6、;在回归分析中,变量之间是否存在对等关系;在回归分析中,y y被称为因变量,被称为因变量,处在被解释的特殊地位,而在相关分析中,处在被解释的特殊地位,而在相关分析中,x x与与y y处于平等的地位,处于平等的地位,即研究即研究x x与与y y的密切程度和研究的密切程度和研究y y与与x x的密切程度是一致的;的密切程度是一致的; m变量之间地位的变化和计算结果;相关分析中,变量之间地位的变化和计算结果;相关分析中,x x与与y y都是随机都是随机变量,而在回归分析中,变量,而在回归分析中,y y是随机变量,是随机变量,x x可以是随机变量,也可可以是随机变量,也可以是非随机的,通常在回归模型中

7、,总是假定以是非随机的,通常在回归模型中,总是假定x x是非随机的;是非随机的;m对资料的要求。从资料所具备的条件来说,作相关分析时要求对资料的要求。从资料所具备的条件来说,作相关分析时要求两变量都是随机变量如:人的身长与体重);作回归分析时要两变量都是随机变量如:人的身长与体重);作回归分析时要求因变量是随机变量,自变量可以是随机的,也可以是一般变量求因变量是随机变量,自变量可以是随机的,也可以是一般变量( (即可以事先指定变量的取值,如:用药的剂量即可以事先指定变量的取值,如:用药的剂量) )。 相关分析旨在测度变量之间的关系密切程度,用的测度工具是相关系数.回归分析侧重于考察变量之间的数

8、量变化规律,并通过一定的数学表达式描述它们间的关系,进而确定一个或几个变量的变化对被解释变量的影响程度.两者都是研究变量之间不确定性统计关系的重要方法.相关系数是惟一确定的。而在回归分析中,对于互为因果的两个变量 (如人的身高与体重,商品的价格与需求量),则有可能存在多个回归方程。 相关分析相关分析回归分析回归分析联联系系 *研究变量间的不确定性关系,存在相关才能回归研究变量间的不确定性关系,存在相关才能回归 *相关系数与回归模型中的参数相关系数与回归模型中的参数相互换算相互换算区区别别*变量地位对等变量地位对等*都是随机变量都是随机变量*侧重相关的密切程度和变侧重相关的密切程度和变 化方向化

9、方向*分为因变量与自变量分为因变量与自变量*因变量为随机变量因变量为随机变量*侧重建立模型预测或估计侧重建立模型预测或估计因变量因变量 函数关系是相关关系的特例,即函数关系是完函数关系是相关关系的特例,即函数关系是完全的相关关系,相关关系是不完全的相关关系。全的相关关系,相关关系是不完全的相关关系。 函数关系与相关关系虽然有明显的区别,但两函数关系与相关关系虽然有明显的区别,但两者之间并不存在不可逾越的界限。由于存在测者之间并不存在不可逾越的界限。由于存在测算误差等原因,函数关系在实际中往往通过相算误差等原因,函数关系在实际中往往通过相关关系表现出来。而在研究相关关系时,为了关关系表现出来。而

10、在研究相关关系时,为了找到现象间数量关系的内在联系和表现形式,找到现象间数量关系的内在联系和表现形式,又常常需要借助于函数关系的形式加以描述。又常常需要借助于函数关系的形式加以描述。 因而,相关关系是相关分析的研究对象,函数因而,相关关系是相关分析的研究对象,函数关系是相关分析的工具。关系是相关分析的工具。一、简单线性回归分析(一元一次回归)对于具有线性因果关系的两个变量,由于有随机因素的干扰,两变量的线性关系中应包括随机误差项,即有:对于某一确定的值,其对应的值虽有波动,但在大量观察中随机误差的期望值为零,即=0,因而从平均意义上说,总体线性回归方程为: 回归方程的基本形式 y c=a+bx

11、 a、b为待定参数 1、最小平方法理论要点:观察值y与回归估计值yc离差平方和最小。系数方程组为:min2cyy22bxayyyQc令02012xbxaybQbxayaQ00 xbxaybxay2xbxaxyxbnay 222222xxyxxyxxyxxnyxxynbxbyaubxay最小平方法回归分析步骤 求解方程组得:回归方程为:预测农业总费用达10万元时的农业总收入:xy2xyxbaba68.3876647.144566137 .24577. 325. 0baxyc77. 325. 045.371077. 325. 010y2xbxaxyxbnay据资料计算 代入方程组,求解a和b 写出

12、回归方程式,进行估计举例:将右表资料代入方程组:2、部分平均法 理论要点:将资料分成两部分,每部分离差之和皆为0。 直线经过平均数和前后平均数三点。求解系数方程组为: 代入方程组得: 解方程组得: 回归方程为:预测农业总费用10万元时的农业总收入后前00ccyyyy后后前前xbanyxbany22序号农业总费用 x(万元)农业总收入y(万元)12.022.533.043.453.864.674.785.896.2106.4117.3128.1138.2合计66.0baba4265 .1553 .1962 .698 . 369. 0baxyc8 . 369. 031.37108 . 369. 0

13、10y简单线性回归练习 某地居民收入和消费资料如右表所示。 确定回归方程 估计收入达2000元时的人均饮食消费水平。 计算相关系数 解:饮食消费 r=0.955收入水平(元)人口数饮食消费(元)400以下50220400-800200450800-12004006001200-16002007001600以上150750合 计1000 xyc289. 09 .2808 .8592000y提示.)50*200()200*60050*200(.)50*220*200()200*60050*200(.)20050(.)200*45050*220(2bab2xbxaxyxbnay先计算x,y加权算术平

14、均数fyyfxxfyyxxr22.50220.50200.5022020022yxyxr提示回归估计标准误差 回归方程的一个重要作用在于根据自变量的已知值估计因变量的理论值估计值)。而理论值与实际值存在着差距,这就产生了推算结果的准确性问题。如果差距小,说明估计回归方程的精确度较高;反之则低。为此,分析理论值与实际值的差距很有意义。为了度量的实际水平和估计值离差的一般水平,可计算估计标准误差。估计标准误差是衡量回归直线代表性大小的统计分析指标,它说明观察值围绕着回归直线的变化程度或分散程度。 (一估计标准误差的计算 通常用代表估计标准误差,其计算公式为:2)(2nyySe 回归估计标准差与一般

15、标准差 回归估计标准差与前面介绍的标准差的计算原理是一致的,两者都是反映平均差异程度和代表性的指标。一般标准差反映的是各变量值与其平均数的平均差异程度,表明其平均数对各变量值的代表性强弱; 回归标准误差反映的是因变量各实际值与其估计值之间的平均差异程度,表明其估计值对各实际值的代表性强弱,其值越小,估计值或回归方程的代表性越强,用回归方程估计或预测的结果越准确。二、复线性回归 一个因变量和多个自变量之间的线性回归。 回归标准形式为: 系数方程组为: 如二元线性回归 系数方程组为:ppcxaxaxaay221102221102222211202121221110122110ppppppppppp

16、pxaxxaxxaxayxxxaxaxxaxayxxxaxxaxaxayxxaxaxanay22110 xaxaayc22221120221221110122110 xaxxaxayxxxaxaxayxxaxanay二元线性回归举例 某地区10个农民家庭人均月收入(x1)、人均月食品消费(x2)和人均月储蓄额(y) 的回归计算。 代入方程组得: 解方程组得: 二元线性回归方程为 yc=2.07+0.22x10.08x2 回归系数的涵义。 序号人均月收入xl(元) 人均月食品消费x2(元) 人均月储蓄额y(元) 122142228193332203436224541255645236751296

17、85734796034910663810合计438258552121217192122972581594122972110043827482584381055bbabbabba08.022.007.221bba22221120221221110122110 xaxxaxayxxxaxaxayxxaxanay第四节 曲线回归和相关 一、二次抛物线回归 当自变量x增加时,因变量y呈先增后减的相关情形。 标准方程: 最小平方法系数方程组: 部分平均法系数方程组:2cxbxayc4322322xcxbxayxxcxbxaxyxcxbnay后后后中中中前前前222333xcxbanyxcxbanyxcx

18、bany抛物线回归练习 为以下资料配合抛物线方程施肥量x(kg) 亩产量y(kg)x2x3x4xyx2y50325603707040580430904451004501104454322322xcxbxayxxcxbxaxyxcxbnay二、指数曲线回归 标准方程: a.0 b0 两端取对数(线性化) 令 原方程线性化为 系数方程组 解方程组求A、B,查反对数得xcaby bxayclglglgyylgaAlgbBlgBxAy2xBxAxyxBnAyAa1lgBb1lg三幂函数曲线(等比曲线) 在经济学中就是著名的柯贝道格拉斯生产函数曲线。 一般形式为: yc = a xb 式中,a,b为待定

19、参数,且a0, b的取值决定曲线的形状。 将此方程线性化只要对方程两边取对数即可得: 令: y=lgy, a=lga, x=lgx 则线性化方程为: y=a+bx 四、双曲线 因变量y的初始值很大,当自变量x稍有增加时因变量y的取位骤然下降,直至逼近一个常数,就不再随自变量的变化而变化即使有变化,也是很微小的)。 双曲线方程的一般形式为: 式中, a,b为方程的参数。且a0, b0, 双曲线回归方程的线性化: 令 有直线方程:y=a+bxxbayc1xxyy1,1对数曲线回归模型 对数曲线回归模型的表达式为: 若令 ,则对数曲线回归模型可化为直线回归模型:lnyabxlnxxyabx五、曲线回

20、归方程应用举例 商品需求量与价格资料显示,随着价格的提高,需求随之逐渐减少,而这种减少并不是近似均等地减少,而是作近似等比地减少。因此可配合指数曲线,其回归方程为:yc=abx 所求曲线方程为 :yc237.5746(0.9824)x序号价格需求量y123456789101016202429344045495520018216515413913012010810089非线性回归分析非线性类型非线性类型常见的曲线有双曲线、幂函数、指数、对数曲常见的曲线有双曲线、幂函数、指数、对数曲线。线。非线性回归方程的建立非线性回归方程的建立下面主要介绍下面主要介绍指数曲线方程指数曲线方程的建立。的建立。【例

21、【例10.810.8】 某集团公司某集团公司20192019年年112112月份产量及单位成月份产量及单位成本资料如下表所示:本资料如下表所示:月份月份月产量(吨)月产量(吨)x x单位产品成本(元)单位产品成本(元)1 12 23 34 45 56 67 78 89 910101111121210101616202025253131363640404545515156566060656516016015115111411412812885859191757576766666606061616060根据上表实际观测值资料,在直角坐标系上作根据上表实际观测值资料,在直角坐标系上作10.710.7

22、的散点图,以确定曲线类型。的散点图,以确定曲线类型。从散点图可以看出,随着产量的逐渐增多,单从散点图可以看出,随着产量的逐渐增多,单位产品成本有随之而逐渐降低的趋势,这说明在位产品成本有随之而逐渐降低的趋势,这说明在月产量与单位成本之间存在着一定的依存关系,月产量与单位成本之间存在着一定的依存关系,但单位成本的降低程度并不是随产量的增加而均但单位成本的降低程度并不是随产量的增加而均匀地变化,因而,从散点图实测点的分布趋势看匀地变化,因而,从散点图实测点的分布趋势看出比较接近指数函数图形,适于配合指数函数曲出比较接近指数函数图形,适于配合指数函数曲线:线:xaby (b b0 0)将回归方程的两

23、端取对数,得:将回归方程的两端取对数,得:bxaylglglg,lg,lg, lg,bbaayy若则上述指数方程可以转化为:则上述指数方程可以转化为: xbay 根据最小平方法原理,及应满足下列标准方程式:根据最小平方法原理,及应满足下列标准方程式:xbany2xbxayx其中:其中: yylg解上式,可以得到解上式,可以得到a,b,a,b,再根据再根据a=a=a,b=a,b=b b的关系式,便可求出的关系式,便可求出a a,b b的值。的值。 例:根据选定的曲线类型,对此进行直线回归分析,例:根据选定的曲线类型,对此进行直线回归分析,如表下表所示:如表下表所示:根据表计算可得:标准方程组为:

24、根据表计算可得:标准方程组为:ba4551235271.23ba2082545577153.855解得:解得:26109.2a00831. 0 bxxbay00831.026109.2这是一个直线方程这是一个直线方程, ,将将x x代入上式即可得出代入上式即可得出 的各值。现的各值。现分别计算分别计算a,ba,b的反对数的反对数, ,由由a=a=a,b=a,b=b b查反对数表查反对数表得:得:a=182.43,b=0.981,a=182.43,b=0.981,于是,配合的指数曲线为:于是,配合的指数曲线为: y xxaby981. 043.182xbany2xbxayx第五节 Excel在相

25、关分析与回归分析中的应用 一、利用一、利用Excel计算相关系数计算相关系数 在在Excel中,有两种方式可以表达简单相关:中,有两种方式可以表达简单相关:一种是绘制数据的散点图;另一种是计算相一种是绘制数据的散点图;另一种是计算相关系数,下面分别予以介绍。关系数,下面分别予以介绍。 (一散点图(一散点图 散点图是用来显示当横轴数据变动时,纵轴散点图是用来显示当横轴数据变动时,纵轴数据的相应变化程度。横轴数据表示自变量,数据的相应变化程度。横轴数据表示自变量,纵轴数据表示因变量。通过散点图可以比较纵轴数据表示因变量。通过散点图可以比较直观的观察到两个数值变量的相关程度。直观的观察到两个数值变量

26、的相关程度。 【例【例9.4】表】表9-6给出了某地区城镇家庭人均可给出了某地区城镇家庭人均可支配收入和家庭人均消费性支出的资料,试支配收入和家庭人均消费性支出的资料,试建立和的散点图。建立和的散点图。表表9-6 x和和y的数据资料的数据资料 单位:元单位:元 第一步:执行菜单“插入”“图表命令,出现如图9-6所示的“图表向导”。 第二步:在出现的“源数据对话框中设置“数据区域”,(数据所在的区域为“Sheet1!B2:K3”,“系列产生在设置为“行”,如图9-7所示。单击“下一步继续。图9-7 “源数据对话框 第三步:在出现的“图表选项对话框中设置图表标题和数值轴,如图9-8所示。单击“下一步继续。图9-8 “图表选项对话框 第四步:在出现的“图标位置对话框中选则“作为其中的对象插入”,并在其后的下拉列表框中选择“Sheet1”,如图9-9所示。单击“完

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论