版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第四章相关与回归第一页,共六十页,2022年,8月28日一、函数关系与相关关系1.函数关系当一个或几个变量取一定的值时,另一个变量有确定值与之相对应,我们称这种关系为确定性的函数关系。第一节相关关系和相关分析的内容第二页,共六十页,2022年,8月28日(函数关系)(1)是一一对应的确定关系(2)设有两个变量x和y,变量y随变量x一起变化,并完全依赖于x
,当变量x取某个数值时,
y依确定的关系取相应的值,则称y是x的函数,记为y=f(x),其中x称为自变量,y称为因变量(3)各观测点落在一条线上
xy第三页,共六十页,2022年,8月28日变量间的关系
(函数关系)函数关系的例子某种商品的销售额(y)与销售量(x)之间的关系可表示为y=p
x(p为单价)圆的面积(S)与半径之间的关系可表示为S=r2
企业的原材料消耗额(y)与产量(x1)
、单位产量消耗(x2)
、原材料价格(x3)之间的关系可表示为y=x1x2x3
第四页,共六十页,2022年,8月28日2.相关关系:当一个或几个相互联系的变量取一定数值时,与之相对应的另一变量的值虽然不确定,但它仍按某种规律在一定的范围内变化。现象之间客观存在的不严格、不确定的数量依存关系。第五页,共六十页,2022年,8月28日变量间的关系
(相关关系)(1)变量间关系不能用函数关系精确表达;(2)一个变量的取值不能由另一个变量唯一确定;(3)当变量x取某个值时,变量y的取值可能有几个;(4)各观测点分布在直线周围。xy第六页,共六十页,2022年,8月28日(相关关系)相关关系的例子商品的消费量(y)与居民收入(x)之间的关系商品的消费量(y)与物价(x)之间的关系粮食亩产量(y)与施肥量(x1)、降雨量(x2)、温度(x3)之间的关系收入水平(y)与受教育程度(x)之间的关系父亲身高(y)与子女身高(x)之间的关系第七页,共六十页,2022年,8月28日相关关系也具有某种变动规律性,所以,相关关系经常可以用一定的函数形式去近似地描述。客观现象的函数关系可以用数学分析的方法去研究,而研究客观现象的相关关系则是借助于统计学中的相关与回归分析方法。第八页,共六十页,2022年,8月28日指出下列现象之间属于相关关系还是函数关系?1.商品流转规模越大,流通费用率越低。2.秤砣的误差越大,所权衡的误差也越大。3.测量次数越多,其平均长度越接近于实际长度。4.物体体积随着温度升高而膨胀,随着压力加大而收缩。5.车辆使用年限越长,修理费用增长越快。6.圆的半径越大,其面积也越大。7.广告费用支出越多,商品销售额也有增长倾向。8.机械化程度越高,劳动生产率一般也越高。第九页,共六十页,2022年,8月28日二、相关关系的种类1.按相关的程度可分为完全相关、不完全相关和不相关。——当一种现象的数量变化完全由另一个现象的数量变化所确定时,称这两种现象间的关系为完全相关。在这种场合,相关关系便成为函数关系。因此也可以说函数关系是相关关系的一个特例。——当两个现象彼此互不影响,其数量变化各自独立时,称为不相关现象。——两个现象之间的关系介于完全相关和不相关之间,称为不完全相关,一般的相关现象都是指这种不完全相关。第十页,共六十页,2022年,8月28日2.按相关形式划分可以分为线性相关和非线性相关。
图中(1)、(2)为线性相关,(3)、(4)为非线性相关第十一页,共六十页,2022年,8月28日
3.按相关的方向划分可分为正相关和负相关。(1)正相关:两个相关现象间,当一个变量的数值增加(或减少)时,另一个变量的数值也随之增加(或减少),即同方向变化。
——例如收入与消费的关系。(2)负相关:当一个变量的数值增加(或减少)时,而另一个变量的数值相反地呈减少(或增加)趋势变化,即反方向变化。
——例如物价与消费的关系。第十二页,共六十页,2022年,8月28日4.按相关关系涉及的因素多少划分分为单相关、复相关和偏相关。两个变量之间的相关,称为单相关。当所研究的是一个变量对两个或两个以上其他变量的相关关系时,称为复相关。在某一现象与多种现象相关的场合,假定其他变量不变,专门考察其中两个变量的相关关系称为偏相关。例如,在假定人们的收入水平不变的条件下,某种商品的需求与其价格水平的关系就是一种偏相关。第十三页,共六十页,2022年,8月28日三、相关分析的内容1.确定相关关系的存在,相关关系呈现的的形态和方向,相关的密切程度。绘制相关图表,计算相关系数。2.确定相关系数的数学表达式——回归分析。3.确定因变量估计值误差的程度。拟合程度的评价计算估计标准误第十四页,共六十页,2022年,8月28日第二节相关图表和简单相关系数
一、相关表1.简单相关表:将自变量x的数值按照从小到大的顺序,并配合因变量y的数值一一对应而平行排列的表。例:为了研究分析某种劳务产品完成量与其单位产品成本之间的关系,调查30个同类服务公司得到的原始数据如表。 整理后有第十五页,共六十页,2022年,8月28日2.分组相关表:按自变量x分组,并计算次数f,对应的因变量y不分组,计算其平均数。第十六页,共六十页,2022年,8月28日二、相关图:又称散点图。将x置于横轴上,y置于纵轴上,将(x,y)绘于坐标图上。第十七页,共六十页,2022年,8月28日三、简单相关系数的计算
1.简单相关系数:在线性条件下说明两个变量之间相关关系密切程度的统计分析指标,简称相关系数,通常用表示。
2.计算:第十八页,共六十页,2022年,8月28日计算相关系数的“积差法”第十九页,共六十页,2022年,8月28日3.相关系数的特点(1)r的取值介于-1与1之间,
r
的取值范围是[-1,1](2)在大多数情况下,0<|r|<1,即X与Y的样本观测值之间存在着一定的线性关系,当r>0时,X与Y为正相关,当r<0时,X与Y为负相关。
|r|的数值愈接近于1,表示x与y直线相关程度愈高;反之,|r|的数值愈接近于0,表示x与y直线相关程度愈低。通常判断的标准是:|r|<0.3称为微弱相关,0.3≤|r|<0.5称为低度相关,0.5≤|r|<0.8称为显著相关,0.8≤|r|<1称为高度相关或强相关。第二十页,共六十页,2022年,8月28日(3)如果|r|=1,则表明X与Y完全线性相关,当r=1时,称为完全正相关,而r=-1时,称为完全负相关。(4)r是对变量之间线性相关关系的度量。
r=0只是表明两个变量之间不存在线性关系,它并不意味着X与Y之间不存在其他类型的关系。第二十一页,共六十页,2022年,8月28日相关关系的测度
(相关系数取值及其意义)-1.0+1.00-0.5+0.5完全负相关无线性相关完全正相关负相关程度增加r正相关程度增加第二十二页,共六十页,2022年,8月28日相关系数只度量变量间的线性关系,因此,弱相关不一定表明变量间没有关系;极端值可能影响相关系数。警惕伪相关。相关关系可能是伪相关,即两变量的相关只是表面上的,它实际上由第三变量引起,当第三变量消失时,相关关系亦随之消失。请看下例。第二十三页,共六十页,2022年,8月28日伪相关的例子:教堂数与监狱服刑人数同步增长美国印第安纳州的地区教会想要筹款兴建新教堂,提出教堂能洁净人们的心灵,减少犯罪,降低监狱服刑人数的口号。为了增进民众参与的热诚和信心,教会的神父收集了近15年的教堂数与在监狱服刑的人数进行统计分析。结果却令教会大吃一惊。最近15年教堂数与监狱服刑人数呈显著的正相关。那么是否可以由此得出,教堂建得越多,就可能带来更多的犯罪呢?2023/3/3024第二十四页,共六十页,2022年,8月28日经过统计学家和教会神父深入讨论,并进一步收集近15年的当地人口变动资料和犯罪率等资料作进一步分析,发现:监狱服刑人数的增加和教堂数的增加都与人口的增加有关。教堂数的增加并非监狱服刑人数增加的原因。至此,教会人士总算松了一口气。2023/3/3025第二十五页,共六十页,2022年,8月28日第二十六页,共六十页,2022年,8月28日还可以有:第二十七页,共六十页,2022年,8月28日1234第三节简单线性回归分析相关分析与回归分析的关系一元线性回归模型拟合程度的评价估计标准误2023/3/3028第二十八页,共六十页,2022年,8月28日1877年弗朗西斯•高尔顿爵士在遗传学研究过程中测量了1078个父亲及成年儿子的身高,它们之间的数量关系如图1:2023/3/3029“回归”一词的由来:多数点子位于角平分斜线的两侧椭圆形面积之内,落在斜线上的点子极少,即儿子与父亲身高完全相同的极少。由点子落在斜线周围还说明,高个子的父亲有着较高身材的儿子,而矮个子父亲的儿子身材也比较矮。同时,我们也看到一些远离斜线的点子,这些点子反映的是父亲的身高与儿子的身高相差甚远的情况。比如高个子的父亲有矮儿子的情况,或者矮父亲有高个儿子的情况。45°线第二十九页,共六十页,2022年,8月28日作相关分析知道,父亲身高和儿子身高的相关系数为0.501,表明高个子的父亲会有较高的儿子,而低个子父亲的儿子也比较低,但这种相关关系并不明显。那么,父子身高之间有什么规律呢?经过对1078对父子身高数据的计算,得到:父亲的平均身高
=67.6英寸≈68英寸儿子的平均身高
=68.7英寸≈69英寸儿子的平均身高比父亲高一英寸,表明下一代的平均身高比上一代要高?这样,我们会自然地猜测72英寸的父亲平均会有73英寸的儿子;64英寸的父亲平均会有65英寸的儿子。2023/3/3030第三十页,共六十页,2022年,8月28日图2中斜虚线是从父子身高推测的关系,即58英寸父亲有59英寸的儿子,59英寸的父亲有60英寸的儿子等等。图2中的实线是回归线。2023/3/3031在父亲身高64英寸和72英寸处的两个条形虚线,表明64英寸高父亲和72英寸高父亲的儿子们身高的分布情况第三十一页,共六十页,2022年,8月28日回归regression平均身高图2表明64英寸高父亲的儿子们的身高多数高于65英寸,即较矮父亲的儿子们多少比父亲身材要高。而72英寸高父亲的儿子们身高多数低于73英寸,甚至多数低于与父亲同样高度的72英寸,即较高父亲的儿子们多数比父亲身材要矮。这种现象称为“回归效应”即回归到一般高度的效应。2023/3/3032第三十二页,共六十页,2022年,8月28日
一、回归分析与相关分析的关系1.相关分析就是用一个指标来表明现象间相互依存关系的密切程度。广义的相关分析包括相关关系的分析(狭义的相关分析)和回归分析。2.回归分析是指对具有相关关系的现象,根据其相关关系的具体形态,选择一个合适的数学模型(称为回归方程式),用来近似地表达变量间的平均变化关系的一种统计分析方法。第三十三页,共六十页,2022年,8月28日
相关分析回归分析区别不必确定自变量和因变量必须事先确定哪个为自变量,哪个为因变量不能指出变量间相互关系的具体形式能确切的指出变量之间相互关系的具体形式变量一般都是随机变量因变量是随机的,自变量则作为研究时给定的非随机变量联系
相关分析是回归分析的基础和前提;回归分析是相关分析的深入和继续。2023/3/3034第三十四页,共六十页,2022年,8月28日二、简单线性回归方程
回归方程:
经整理,得到以下标准方程组解该方程组可得
b表示自变量x每变动一个计量单位时,因变量y的平均变动值,称回归系数。当b的符号为正时,x和y按相同方向变动,是正相关关系;当b的符号为负时,自变量x和因变量y按相反方向变动,是负相关关系。第三十五页,共六十页,2022年,8月28日例:现以前例的资料配合回归直线,计算如下:第三十六页,共六十页,2022年,8月28日
b表示人口增加量每增加(或减少)1千人,该种食品的年需求量平均来说增加(或减少)0.5301十吨即5.301吨。
根据回归方程,还可以给出自变量的某一数值来估计或预测因变量平均可能值。例如,当人口增长量为400千人时,该食品的年需求量为第三十七页,共六十页,2022年,8月28日用Excel进行回归分析第1步:选择“工具”下拉菜单第2步:选择“数据分析”选项第3步:在分析工具中选择“回归”,然后选择“确定”第4步:当对话框出现时在“Y值输入区域”方框内键入Y的数据区域在“X值输入区域”方框内键入X的数据区域在“置信度”选项中给出所需的数值在“输出选项”中选择输出区域在“残差”分析选项中选择所需的选项第三十八页,共六十页,2022年,8月28日Excel的输出结果第三十九页,共六十页,2022年,8月28日直线回归方程中的回归系数与相关系数的关系:第四十页,共六十页,2022年,8月28日三、一元线性回归模型的检验2023/3/3041回归模型的检验包括理论意义检验、一级检验和二级检验。理论意义检验主要涉及参数估计值的符号和取值区间,如果它们与实质性科学的理论以及人们的实践经验不相符,就说明模型不能很好地解释现实的现象。一级检验又称统计学检验,它是利用统计学中的抽样理论来检验样本回归方程的可靠性,具体又可分为拟合程度评价和显著性检验。一级检验是对所有现象进行回归分析时都必须通过的检验。二级检验又称经济计量学检验,它是对标准线性回归模型的假定条件能否得到满足进行检验,具体包括序列相关检验、异方差性检验、多重共线性检验等。第四十一页,共六十页,2022年,8月28日所谓拟合优度,是指样本观测值聚集在样本回归线周围的紧密程度。测量紧密程度最常用的数量尺度是样本判定系数(又称决定系数)。它是建立在对总离差平方和进行分解的基础之上的。2023/3/3042拟合优度的评价第四十二页,共六十页,2022年,8月28日总离差平方和的分解因变量y的取值是不同的,y取值的这种波动称为变差。变差来源于两个方面:由于自变量x的取值不同造成的;除x以外的其他因素(如x对y的非线性影响、测量误差等)的影响。对一个具体的观测值来说,离差的大小可以通过该实际观测值与其均值之差来表示。第四十三页,共六十页,2022年,8月28日离差平方和的分解(图示)xyy{}}离差分解图第四十四页,共六十页,2022年,8月28日离差平方和的分解(三个平方和的关系)1、从图上看有2、两端平方后求和有SST=SSR+SSE残差平方和(SSE)回归平方和(SSR)总离差平方和(SST){{{第四十五页,共六十页,2022年,8月28日离差平方和的分解(三个平方和的意义)总离差平方和(SST)反映因变量的n个观察值与其均值的总离差回归平方和(SSR)反映自变量x的变化对因变量y取值变化的影响,或者说,是由于x与y之间的线性关系引起的y的取值变化,也称为可解释的离差平方和。残差平方和(SSE)反映除x以外的其他因素对y取值的影响,也称为不可解释的离差平方和或剩余离差平方和。第四十六页,共六十页,2022年,8月28日样本决定系数(判定系数)1.回归平方和占总离差平方和的比例:2.反映回归直线的拟合程度。3.取值范围在[0,1]之间。4.1,说明回归方程拟合的越好;0,说明回归方程拟合的越差。5.在一元线性回归模型中,判定系数等于相关系数的平方,即第四十七页,共六十页,2022年,8月28日四、估计标准误差
1.定义:是反映观测值与其估计值的平均差异程度的指标。由总体资料计算或在大样本情况下由样本资料计算可得简化式第四十八页,共六十页,2022年,8月28日第四十九页,共六十页,2022年,8月28日2.在已知总体资料或大样本情况下:3.作用(1)说明以回归方程的估计值的代表性大小。(2)说明x和y的相关性大小。
四、正确运用回归分析的条件
——在定性的基础上再进行定量分析。
这时有第五十页,共六十页,2022年,8月28日定性分析是依据研究者的理论知识和实践经验,对客观现象之间是否存在相关关系、何种关系以及自变量因变量的确定作出判断。定量分析在定性分析的基础上,通过编制相关表、绘制相关图、计算相关系数等方法,来判断现象之间相关的方向、形态及密切程度,以及相应的回归方程的拟合。五、正确运用回归分析的条件
——在定性的基础上再进行定量分析。第五十一页,共六十页,2022年,8月28日第四节非线性相关与回归分析一、非线性函数形式的确定在对实际的客观现象进行定量分析时,选择回归方程的具体形式应遵循以下原则:首先,方程形式应与有关实质性科学的基本理论相一致。例如,采用幂函数的形式,能够较好地表现生产函数;采用多项式方程能够较好地反映总成本与总产量之间的关系等等。其次,方程有较高的拟合程度。因为只有这样,才能说明回归方程可以较好地反映现实经济的运行情况。最后,方程的数学形式要尽可能简单。如果几种形式都能基本符合上述两项要求,则应该选择其中数学形式较简单的一种。一般来说,数学形式越简单,其可操作性就越强。第五十二页,共六十页,2022年,8月28日(一)抛物线函数(二)双曲线函数(三)幂函数(四)指数函数(五)对数函数(六)S形曲线函数(七)多项式方程第五十三页,共六十页,2022年,8月28日几种常见的非线性模型指数函数线性化方法两端取对数得:lny
=ln+x
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 班主任心理健康与压力管理的培训总结
- 公交扫恶除霸承诺书范本
- 2025-2030全球船用防火窗行业调研及趋势分析报告
- 2025年全球及中国运动刺激疗法行业头部企业市场占有率及排名调研报告
- 2025年全球及中国矩形桥式起重机行业头部企业市场占有率及排名调研报告
- 2025-2030全球便携式鼻腔冲洗器行业调研及趋势分析报告
- 2025-2030全球农用氧化亚铜行业调研及趋势分析报告
- 2025年全球及中国钢制螺旋锥齿轮行业头部企业市场占有率及排名调研报告
- 2025年全球及中国户外电气箱行业头部企业市场占有率及排名调研报告
- 2025-2030全球轴承精密滚珠行业调研及趋势分析报告
- 蛋糕店服务员劳动合同
- 土地买卖合同参考模板
- 2025高考数学二轮复习-专题一-微专题10-同构函数问题-专项训练【含答案】
- 2025年天津市政建设集团招聘笔试参考题库含答案解析
- 2024-2030年中国烘焙食品行业运营效益及营销前景预测报告
- 宁德时代笔试题库
- 五年级下册北京版英语单词
- 康复医院患者隐私保护管理制度
- 新课标I、Ⅱ卷 (2024-2020) 近五年高考英语真题满分作文
- 公司安全事故隐患内部举报、报告奖励制度
- 沈阳理工大学《数》2022-2023学年第一学期期末试卷
评论
0/150
提交评论