第九章相关与回归分析_第1页
第九章相关与回归分析_第2页
第九章相关与回归分析_第3页
第九章相关与回归分析_第4页
第九章相关与回归分析_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1第九章相关与回归分析经济管理类核心课程《统计学》19.1

相关分析9.3

多元线性回归分析9.2

一元线性回归分析主要内容2全球吃死的人比饿死的人多

据世界卫生组织统计,全球肥胖症患者达3亿人,其中儿童占2200万人,11亿人体重过重。肥胖症和体重超常早已不是发达国家的“专利”,已遍及五大洲。目前,全球因“吃”致病乃至死亡的人数已高于因饥饿死亡的人数。

(引自《光明日报》刘军/文)

问题:肥胖症和体重超常与死亡人数有显著的数量关系吗?

解决:用相关分析与回归分析的方法来验证。3

美国印第安纳州的地区教会想要筹款兴建新教堂,提出教堂能洁净人们的心灵,减少犯罪,降低监狱服刑人数的口号。为了增进民众参与的热诚和信心,教会的神父收集了近15年的教堂数与在监狱服刑的人数进行统计分析。

结果却令教会大吃一惊!教堂数与监狱服刑人数同步增长4相关分析结论

最近15年教堂数与监狱服刑人数呈显著的正相关。那么是否可以由此得出,教堂建得越多,就可能带来更多的犯罪呢?经过统计学家和教会神父深入讨论,并进一步收集近15年的当地人口变动资料和犯罪率等资料作进一步分析,发现监狱服刑人数的增加和教堂数的增加都与人口的增加有关。

结论:教堂数的增加并非监狱服刑人数增加的原因。至此,教会人士总算松了一口气。数据来源:《现代统计学及其应用》,吴柏林、曹立人著,浙江教育出版社2007年版。5相关分析的意义第一节相关分析社会经济现象中,一些现象与另一些现象之间往往存在着依存关系,当我们用变量来反映这些现象的的特征时,便表现为变量之间的依存关系。

在分析变量的依存关系时,我们把变量分为两种:自变量因变量引起其他变量发生变化的量受自变量的影响发生对应变化的量6现象之间的相互关系,可以概括为两种不同的类型:(一)函数关系

家庭收入决定消费支出,收入的变化必然引起消费支出的变化,这两个变量中收入是,而消费支出则是。举例

自变量

因变量(二)相关关系7函数关系指变量之间存在着确定性依存关系。即当一个或一组变量每取一个值时,相应的另一个变量必然有一个确定值与之对应。函数关系可以用一个确定的公式,即函数式

来表示。

或:Y=F(X)1.函数关系8相关关系指变量之间存在着非确定性依存关系。即当一个或一组变量每取一个值时,相应的另一个变量可能有多个不同值与之对应。

如:根据消费理论,商品需求量Q与商品价格P、居民收入I之间具有相关关系:

或:Y=F(X)+ε或用统计模型表示:2.相关关系9现实生活中存在大量相关关系人的身高与年龄;产品的成本与生产数量;商品的销售额与广告费;家庭的支出与收入。等等10单相关

是两个变量之间存在的相关关系,即一个因变量与一个自变量之间的依存关系。因此也称为一元相关。复相关

也称多元相关,是指三个或三个以上变量之间存在的相关关系,通常涉及一个因变量与两个或更多个自变量,也称多元相关。1、按相关关系涉及变量的多少可分为:相关关系的种类11直线相关当自变量X值每变动一个单位,因变量Y值则随着发生大致均等的变动,这就是直线相关。亦称为简单相关或一元线性相关。曲线相关当自变量X值每变动一个单位,因变量Y值则随之发生不均等的变化,这就曲线相关。或一元非线性相关。2、按相关关系形式可分为12正相关当自变量X值增加(或减少)时,因变量Y值也随之增加(或减少),这样的相关关系就是正相关,也叫同向相关。负相关当自变量X的值增加(或减少)时,因变量Y的值随之而减少(或增加),这样的相关关系就是负相关,也叫异向相关。3、按相关的方向可分为134、按相关关系的密切程度分为完全相关因变量完全随自变量变动而变动,存在着严格的依存关系。即变量间的关系为函数关系。不完全相关变量之间存在着不严格的依存关系,即因变量的变动除了受自变量变动的影响外,还受其他因素的影响。它是相关关系的主要表现形式。完全不相关自变量与因变量彼此独立,互不影响,其数量变化毫无联系。。14(1)确定现象之间有无相关关系,以及相关关系的表现形态。(2)确定相关关系的密切程度。(3)确定相关关系的数字模型,并进行参数估计和拟合优度检验。(4)回归预测,并分析估计标准误差。

相关关系的主要内容15相关关系的测定定性分析是依据研究者的理论知识和实践经验,对客观现象之间是否存在相关关系,以及何种关系作出判断定量分析在定性分析的基础上,通过编制相关表、绘制相关图、计算相关系数与判定系数等方法,来判断现象之间相关的方向、形态及密切程度16产量与生产费用情况表相关分析表17正相关负相关曲线相关不相关xyxyxyxy

用直角坐标系的x轴代表自变量,y轴代表因变量,将两个变量间相对应的变量值用坐标点的形式描绘出来,用以表明相关点分布状况的图形。相关图的种类18产品产量与生产费用相关图19在直线相关的条件下,用以反映两变量间线性相关密切程度的统计指标,用r表示相关系数其基本算法是英国统计学家皮尔逊所创的乘积动差法(发现:x、y是对等关系)。20相关系数的取值范围0<|r|<1表示存在不同程度线性相关:

|r|

<

0.5为低度线性相关;

0.5≤|r|<0.8为中度性线性相关;

0.8≤|r|为高度显著性线性相关。r>0为正相关,r<0为负相关;|r|=0表示不存在线性关系;|r|=1表示完全线性相关;21相关系数取值及其意义-1.0+1.00-0.5+0.5完全负相关无线性相关完全正相关负相关程度增加r正相关程度增加22回归:退回regression1877年弗朗西斯•高尔顿爵士遗传学研究回归线。平均身高第二节一元线性回归模型231889年F.Gallton和他的朋友K.Pearson收集了上千个家庭的身高、臂长和腿长的记录企图寻找出儿子们身高与父亲们身高之间关系的具体表现形式下图是根据1078个家庭的调查所作的散点图回归分析法产生的历史24160165170175180185140150160170180190200YX儿子们身高向着平均身高“回归”25回归形式回归分析通过一个变量x或一些变量(x1,x2,x3…)的变化解释另一变量y的变化.即根据相关关系的数量表达式(回归方程式)与给定的自变量x,揭示因变量y在数量上的平均变化和求得因变量的预测值的统计分析方法回归方程回归模型反映自变量和因变量之间数学联系的表达式。某一类回归方程的总称。26回归分析的内容和步骤1、根据理论和对问题的分析判断,区分自变量和因变量;2、设法找出适合的数学方程式(即:回归模型)描述变量间的关系;3、对回归模型进行统计检验;

4、统计检验通过后,利用回归模型,根据自变量去估计,预测因变量。27回归分析的分类根据变量的多少分为:简单回归多元回归只有一个自变量和一个因变量的回归自变量数目在两个或两个以上根据建立的回归模型形式分为:线性回归非线性回归从所拟合的回归模型来看,一变量表现为其它变量的线性组合。从所拟合的回归模型来看,一变量表现为其它变量的非线性组合。28回归分析与相关分析理论和方法具有一致性;无相关就无回归,相关程度越高,回归越好;

相关系数和回归系数方向一致,可以互相推算。联系:区别:相关分析中x与y对等,回归分析中x与y要确定自变量和因变量;相关分析中x、y均为随机变量,回归分析中只有y为随机变量;相关分析测定相关程度和方向,回归分析用回归模型进行预测和控制。29一元线性回归模型其中:yi表示因变量y在样本中某一个具体的观察值;xi表示在研究样本中自变量x的具体观察数值;a与b是参数,b称为回归系数;εi是一个随机变量,其平均数为0,方差为σ2。30一元线性回归模型图解31样本一元线性回归方程:以样本统计量估计总体参数斜率(回归系数)截距(估计的回归方程)总体一元线性回归模型32残差(Residual)散点图33最小平方法基本数学要求34标准方程3536回归模型的检验1、拟合优度检验确定回归直线后,需要评价这一直线方程是否有效地反映了这两变量之间的关系。评价回归方程配合好坏的一个主要指标是可决系数(或称判定系数)是相关系数的平方,用表示;用来衡量回归方程对y的解释程度。可决系数取值范围:越接近于1,表明x与y之间的相关性越强;越接近于0,表明两个变量之间几乎没有直线相关关系。可决系数37误差平方和回归平方和总离差平方和平方和关系(教材P237)38总偏差=回归偏差+剩余偏差

r2表示全部偏差中有百分之几的偏差可由x与y的回归关系来解释。r的符号同b数量关系及意义3940判定系数与相关系数的区别判定系数无方向性,相关系数则有方向,其方向与样本回归系数b相同;判定系数说明变量值的总离差平方和中可以用回归线来解释的比例,相关系数只说明两变量间关联程度及方向;相关系数有夸大变量间相关程度的倾向,因而判定系数是更好的度量值。412、显著性检验(例9-3)42被害棉花红铃虫喜高温高湿,适宜各虫态发育的温度为25℃—32℃,相对湿度为80%一100%,低于20℃和高于35℃卵不能孵化,相对湿度60%以下成虫不产卵。冬季月平均气温低于一4.8℃时,红铃虫就不能越冬而被冻死。

1953年,18省发生红铃虫大灾害,受灾面积300万公顷,损失皮棉约二十万吨。

案例分析43温度xoC21232527293235产卵数y/个711212466115325收集一只红铃虫的产卵数y和温度xoC之间的7组观测数据列于下表:(1)试建立产卵数y与温度x之间的回归方程;并预测温度为28oC时产卵数目。(2)你所建立的模型中温度在多大程度上解释了产卵数的变化?问题呈现:44画散点图假设线性回归方程为:选模型分析和预测当x=28时,y=19.87×28-463.73≈93选变量解:选取气温为解释变量x,产卵数为预报变量y。050100150200250300350036912151821242730333639当x=28时,y=19.87×28-463.73≈93估计参数由Excel得:线性回归方程为探析1—拟合直线45残差编号12345671020304050607080-10-20-30-40-50-6090100题解153.4617.72-12.02-48.76-46.5-57.1193.28

R2≈0.7464所以,一次函数模型中温度解释了74.64%的产卵数变化。46

y=bx2+a变换y=bx+a非线性关系线性关系问题2产卵数气温问题1如何求a、b?

t=x2探析2—抛物线拟合47温度xoC21232527293235产卵数y/个711212466115325作散点图,并由Excel计算得:y=0.367x2-202.54tt当x=28时,y=0.367×282-202.54≈85题解248编号12345671020304050607080-10-20-30-40-50-60抛物线模型47.69619.400-5.832-41.000-40.104-58.26577.968R2=0.802,抛物线模型中温度解释了80.2%的产卵数变化。49问题2变换y=bx+a非线性关系线性关系问题1如何选取指数函数的底?产卵数气温对数探析3—指数函数模型50xz当x=28oC时,y≈44温度xoC21232527293235产卵数y/个711212466115325题解351残差编号12345671020304050607080-10-20-30-40-50-6090指数函数模型-0.19441.7248-9.18948.8521-14.121933.2573指数回归模型中温度解释了98.5%的产卵数的变化0

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论