版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
经济应用统计学第七章相关与回归分析第1页,共127页,2023年,2月20日,星期四
学习目标能够正确判断客观现象之间存在的关系及其密切程度要正确掌握回归分析的概念及回归模型的确定方法第2页,共127页,2023年,2月20日,星期四
主要内容相关分析的一般问题定性数据的相关分析定量数据的相关分析一元线性回归分析多元线性回归分析曲线回归分析
第3页,共127页,2023年,2月20日,星期四第一节相关分析的一般问题河北大学统计学系第4页,共127页,2023年,2月20日,星期四第一节相关分析的一般问题相关分析的概念相关分析的主要内容相关分析的种类和特点相关分析的方法选择第5页,共127页,2023年,2月20日,星期四一、相关分析的概念相关分析是研究一个变量与另一个变量或另一组变量之间相互关系密切程度和相关方向的一种统计分析方法.yx第6页,共127页,2023年,2月20日,星期四现象间存在普遍的联系与相互影响受教育的水平工作后的收入预防疾病支出疾病的发病率事物间的这种依存关系可以用数量关系表现出来.有两种类型:相关关系(非确定性依存关系)函数关系(确定性依存关系)第7页,共127页,2023年,2月20日,星期四1、函数关系
变量间存在完全对应的相互依存关系.当自变量的值确定时,因变量就有一个完全确定的值和它相对应.销售额与销售量:销售额=销售量单价确定性关系函数关系第8页,共127页,2023年,2月20日,星期四2、相关关系
变量间客观存在的,在数量变化上受随机因素影响的、不严格、不确定的相互依存关系。家庭收入与恩格尔系数:家庭收入高,则恩格尔系数低。非确定性关系第9页,共127页,2023年,2月20日,星期四自变量因变量有时现象之间自变量和因变量的确定要根据研究的目的在具有相关关系的现象或变量中,
作为变化根据的变量产生相应变化的变量第10页,共127页,2023年,2月20日,星期四二、相关分析的主要内容确定现象间有无依存关系确定相关关系的表现形式是什么判定相关关系的密切程度与方向
如有
曲线还是直线所谓相关分析,是指对变量之间的相关关系的表现形式、密切程度和变化方向进行分析和研究。第11页,共127页,2023年,2月20日,星期四三、相关关系的种类确定的因果的关系分不清因果的依存关系
1、依存关系特点的不同自变量与因变量不能换位置自变量与因变量可以相互转化如:施肥量(自变量)与粮食产量(因变量)如:销售量与销售价格第12页,共127页,2023年,2月20日,星期四2.依相关关系的密切程度不完全相关完全相关不相关即函数关系我们研究的主要是这种关系第13页,共127页,2023年,2月20日,星期四负相关正相关3.依相关关系的方向自变量与因变量变化方向一致自变量与因变量变化方向相反第14页,共127页,2023年,2月20日,星期四曲线相关直线(线性)相关4.依相关关系的表现形式xyxy第15页,共127页,2023年,2月20日,星期四复相关单相关5.依涉及变量的多少一个自变量与一个因变量如:学习时间与成绩多个自变量与一个因变量如:粮食产量与施肥量、降水量第16页,共127页,2023年,2月20日,星期四四、相关分析的特点相关关系研究的两个变量是对等的两个变量之间只能计算出一个反映相互关系密切程度的相关系数,改变自变量与因变量的位置,不改变数值相关分析中两个变量均为随机变量对于简单直线相关第17页,共127页,2023年,2月20日,星期四
五、相关分析的方法选择交互列表法
检验法品质相关系数分析法
相关表相关图相关系数数据定比数据定距数据定序数据定量数据定性数据定类数据等级相关系数分析法
列联表分析法第18页,共127页,2023年,2月20日,星期四第二节定性数据的相关分析河北大学统计学系第19页,共127页,2023年,2月20日,星期四
交互列表分析法确定项目(变量名称)
如:态度确定类目(变量表现)
如:喜欢、一般、不喜欢排列形成交互列表
如:调查各地240人对某电视剧的态度,结果为3*3交互列表编制交互列表第20页,共127页,2023年,2月20日,星期四
交互列表分析法行边缘频数列边缘频数条件频数不能直接对比分析态度喜欢一般不喜欢合计城市北京上海重庆合计
4030209020303080402010701008060240第21页,共127页,2023年,2月20日,星期四
交互列表分析法行频率Hi:各行条件频数比上行边缘频数列频率Lj:各列条件频数比上列边缘频数总频率Pij:各条件频数比上总合计数计算三种频率第22页,共127页,2023年,2月20日,星期四
交互列表分析法城市北京上海重庆合计%
40/9030/9020/9010020/8030/8030/8010040/7020/7010/701001008060240态度喜欢%一般%不喜欢%样本量行频率分布表第23页,共127页,2023年,2月20日,星期四
交互列表分析法城市北京上海重庆合计%
44.433.322.210025.037.537.510057.128.614.31001008060240态度喜欢%一般%不喜欢%样本量行频率分布表样本量不同第24页,共127页,2023年,2月20日,星期四
交互列表分析法城市北京上海重庆
0.440.410.370.250.470.6250.570.360.238态度喜欢%一般%不喜欢%计算标准行频率分布表行频率除以相应的样本量第25页,共127页,2023年,2月20日,星期四
对交互列表中的变量关系进行检验,运用统计量进行检验,以证明是否该样本所体现的变量关系在总体中也存在。
检验每个结点上的观察频数每个结点上对应的期望频率行边缘频数列边缘频数样本量第26页,共127页,2023年,2月20日,星期四
检验城市北京上海重庆合计
9080701008060240态度喜欢一般不喜欢合计行边缘频数列边缘频数条件频数=90*100/240=38=80*60/240=20对上例计算期望频数383329302723222018第27页,共127页,2023年,2月20日,星期四建立假设H0:变量不相关(态度与城市独立)H1:变量相关计算统计量查分布表查表的临界值,若显著水平为0.05,查表得比较决策则拒绝原假设,否则接受原假设18.74>9.448,拒绝原假设,认为相关检验步骤
检验第28页,共127页,2023年,2月20日,星期四
检验虽然可以判断变量间是否相关,但无法判断相关程度的强弱。测定定性变量之间相关程度用相关系数,有系数、系数、系数、系数。
品质相关系数第29页,共127页,2023年,2月20日,星期四
品质相关系数系数主要用于描述2×2交互列表中各定类变量间的相关程度对于r×c交互列表(r或c大于2),则注:正负号没有含义第30页,共127页,2023年,2月20日,星期四
品质相关系数系数主要用于描述大于2×2交互列表中各定类变量间的相关程度局限性:大小受行数与列数的影响,且随行数和列数的增加而增大,因此只有当两个交互列表的行数与列数相同时,才能直接比较。第31页,共127页,2023年,2月20日,星期四
品质相关系数系数第32页,共127页,2023年,2月20日,星期四
品质相关系数系数第33页,共127页,2023年,2月20日,星期四
等级相关系数用来描述两个定序变量或等级序列之间的相关程度。最常用的为斯皮尔曼等级相关系数:注:正负号有含义第34页,共127页,2023年,2月20日,星期四计算过程:1、对所取得的相关数据资料进行排序2、计算斯皮尔曼等级相关系数3、对计算结果进行显著性检验
等级相关系数第35页,共127页,2023年,2月20日,星期四第三节定量数据的相关分析河北大学统计学系第36页,共127页,2023年,2月20日,星期四
一、相关表
表现现象之间相关关系的一种统计表。一般以x为自变量,y为因变量,在表格中一一对应地排列。可以初步反映相关关系的形式、密切程度和相关方向。可分为简单相关表和分组相关表两种。第37页,共127页,2023年,2月20日,星期四1、简单相关表生产性固定资产与工业总产值的相关表企业编号生产性固定资产总值x工业总产值y12345678910446778910101116212626313130373841第38页,共127页,2023年,2月20日,星期四2、分组相关表——单变量分组表按自变量分组,计算各组中的次数与因变量的组平均数。第39页,共127页,2023年,2月20日,星期四单变量分组表工人看管织机台数x工人数f时劳动生产率y5-77-99-1111-1313-1515-1717-19913202931324015182326333842只按自变量分组,未按因变量分组第40页,共127页,2023年,2月20日,星期四对自变量、因变量都进行分组,交叉列表,并列出两种变量的共同次数。又称棋盘式相关表。2、分组相关表——双变量分组表第41页,共127页,2023年,2月20日,星期四分组相关表——双变量分组表木材运量x1-1111-2121-3131-4141-51合计运材成本y16-2111-161-11合计2571337437112
11313824第42页,共127页,2023年,2月20日,星期四二、相关图
又称散点图,横轴为自变量,纵轴为因变量.将对应的变量值用坐标点描绘出来。可以判断两变量之间有无相关关系,方向和程度如何。第43页,共127页,2023年,2月20日,星期四1、线性强正相关xy第44页,共127页,2023年,2月20日,星期四2、线性弱正相关xy第45页,共127页,2023年,2月20日,星期四3、线性强负相关xy第46页,共127页,2023年,2月20日,星期四4、线性弱负相关xy第47页,共127页,2023年,2月20日,星期四5、非线性相关(曲线相关)xy第48页,共127页,2023年,2月20日,星期四6、不相关xy第49页,共127页,2023年,2月20日,星期四三、相关系数
反映两变量之间直线相关关系密切程度的统计分析指标。第50页,共127页,2023年,2月20日,星期四相关系数由何而来协方差(covariance):两个变量与其均值离差乘积的平均数,是相关关系的一种度量。总体协方差:第51页,共127页,2023年,2月20日,星期四对协方差的理解Ⅰ为正Ⅱ为负Ⅲ为正Ⅳ为负协方差为大的正值时,表示强的正线性相关关系。第52页,共127页,2023年,2月20日,星期四对协方差的理解协方差接近于零时,表示很小或没有线性相关关系。第53页,共127页,2023年,2月20日,星期四对协方差的理解协方差为大的负值时,表示强的负线性相关关系。第54页,共127页,2023年,2月20日,星期四协方差为大的正值时,表示强的正线性相关关系。协方差接近于零时,表示很小或没有线性相关关系。协方差为大的负值时,表示强的负线性相关关系。似乎是这样cmkgmmkg大于基本结论:协方差受计量单位影响,从而不能真实反映相关的程度。第55页,共127页,2023年,2月20日,星期四cmkgmmkgcmmmkgkg可比第56页,共127页,2023年,2月20日,星期四相关系数的计算相关系数:协方差与自变量、因变量标准差乘积的对比值。其值在-1和1之间,正值为正相关,负值为负相关。其绝对值接近0为不相关其绝对值在0.2和0.3左右为低度相关其绝对值在0.6左右为中度相关其绝对值在0.8以上为高度相关第57页,共127页,2023年,2月20日,星期四积差法但此公式需要先有各变量的平均值,当均值计算中有保留时,计算结果将会有误差。影响准确性。约掉共因子1/n后第58页,共127页,2023年,2月20日,星期四进一步推导第59页,共127页,2023年,2月20日,星期四同理第60页,共127页,2023年,2月20日,星期四积差法简捷法第61页,共127页,2023年,2月20日,星期四例题人均销售额x利润额yx2y2xy6581476337合计5012.610.418.53.08.116.312.36.26.616.8110.836256411649369949294158.76108.06342.259.0065.61265.69151.2938.4443.56282.241465.0075.052.0148.03.032.4114.173.818.619.8117.6654.9第62页,共127页,2023年,2月20日,星期四对分组资料计算加权相关系数简捷法积差法第63页,共127页,2023年,2月20日,星期四相关系数的显著性检验第64页,共127页,2023年,2月20日,星期四第四节一元线性回归分析
河北大学统计学系第65页,共127页,2023年,2月20日,星期四一、一元线性回归分析的概念和特点
概念:把两个或两个以上变量之间的相关关系加以模型化,求出回归方程,并据以进行估计推算,这种方法在统计学中成为回归分析。第66页,共127页,2023年,2月20日,星期四回归分析分类按自变量个数分类一元回归多元回归按方程式特征分类线性回归非线性回归一元线性回归
分类第67页,共127页,2023年,2月20日,星期四特点两变量之间不是对等的关系,必须根据研究目的和研究对象的性质,正确确定出自变量和因变量相关分析中的相关系数是个抽象的数,反映变量间相互依存关系的密切程度;回归分析中的回归方程,是利用自变量的给定值来推算因变量值的数学模型,它反映变量之间具体的变动关系。第68页,共127页,2023年,2月20日,星期四改变自变量与因变量的地位,会产生不同的回归方程。直线回归方程中的回归系数也有正负号,正号表示两变量之间的变动方向相同,为正相关关系;为负号表示两变量之间的变动方向相反,为负相关关系。回归分析中的自变量是给定的数值,不是随机的,而因变量是随机的。特点第69页,共127页,2023年,2月20日,星期四二、一元线性回归模型的建立
若两变量存在线性关系(散点图近似一条直线),可设估计模型为:第70页,共127页,2023年,2月20日,星期四一元线性回归线的可能形态截距斜率b为正b为负b为0a、b为待定参数,其中b称为回归系数第71页,共127页,2023年,2月20日,星期四偏差a、b值的估计直接关系到模型的回归效果第72页,共127页,2023年,2月20日,星期四
偏差第73页,共127页,2023年,2月20日,星期四最小平方法(最小二乘法)
在偏差平方和最小的约束条件下确定待定参数的方法称为最小平方法(最小二乘法)即何谓回归模型的效果好?即回归模型求出的估计值与实际值的偏差平方和最小。第74页,共127页,2023年,2月20日,星期四为使上式最小,对其先求偏导并令其为0第75页,共127页,2023年,2月20日,星期四第76页,共127页,2023年,2月20日,星期四学生身高x体重yx2y2xy估计值ŷ残差y-ŷABCDEFGHIJ1581601621641661681701721741764750485562605261706524964256002624426896275562822428900295843027630976220925002304302538443600270437214900422574268000777690201029210080884010492121801144047.29149.44851.60653.76455.92158.07960.23662.39464.55266.709-0.2910.552-3.6061.2366.0791.921-8.236-1.3945.448-1.70916705702792203303295546-0第77页,共127页,2023年,2月20日,星期四三、一元线性回归模型的检验利用统计学中的抽样理论来验证回归方程的可靠性。分为拟合程度检验和显著性检验两种。第78页,共127页,2023年,2月20日,星期四拟合程度检验拟合程度:样本观测值聚集在样本回归线周围的紧密程度。说明回归直线的代表性一元线性回归模型的检验常用指标:判定系数、估计标准误差第79页,共127页,2023年,2月20日,星期四
一元线性回归模型的检验在讲述拟合程度检验前,先来认识一下:总变差(总离差平方和)回归变差(回归平方和)剩余变差(残差平方和)拟合程度检验第80页,共127页,2023年,2月20日,星期四总离差平方和回归平方和剩余平方和第81页,共127页,2023年,2月20日,星期四第82页,共127页,2023年,2月20日,星期四
一元线性回归模型的检验判定系数拟合程度检验åå--===222)()ˆ(yyyyLUrYY总离差平方和回归平方和第83页,共127页,2023年,2月20日,星期四第84页,共127页,2023年,2月20日,星期四当回归平方和与总离差平方和相等时,为完全的拟合,残差平方和为0,判定系数为1。判定系数的意义第85页,共127页,2023年,2月20日,星期四当剩余平方和与总离差平方和相等时,为最差的拟合,残差平方和最大,判定系数为0。判定系数的意义第86页,共127页,2023年,2月20日,星期四
一元线性回归模型的检验值介于0和1之间。越接近1,表明回归模型较充分的利用了解释变量的信息,拟和程度好。接近0,说明拟和程度很差。判定系数的意义第87页,共127页,2023年,2月20日,星期四学生身高x体重yx2y2xy估计值ŷ残差y-ŷABCDEFGHIJ1581601621641661681701721741764750485562605261706524964256002624426896275562822428900295843027630976220925002304302538443600270437214900422574268000777690201029210080884010492121801144047.29149.44851.60653.76455.92158.07960.23662.39464.55266.709-0.2910.552-3.6061.2366.0791.921-8.236-1.3945.448-1.70916705702792203303295546-0第88页,共127页,2023年,2月20日,星期四学生身高x体重y估计值ŷy2残差y-ŷABCDEFGHIJ1581601621641661681701721741764750485562605261706547.29149.44851.60653.76455.92158.07960.23662.39464.55266.7091004981425925161696494.357.029.110.51.21.210.529.157.094.30.080.3131.5336.953.6967.831.9429.682.921670570-542384.2157.94第89页,共127页,2023年,2月20日,星期四
证明:第90页,共127页,2023年,2月20日,星期四
一元线性回归模型的检验估计标准误差第91页,共127页,2023年,2月20日,星期四估计标准误差越小越好第92页,共127页,2023年,2月20日,星期四显著性检验检验内容对相关系数的显著性检验,通过t检验实现。对各回归系数的显著性检验,一般使用t检验。对回归方程整体的显著性检验,一般通过F检验实现。一元线性回归模型的检验第93页,共127页,2023年,2月20日,星期四检验意义由于样本的相应统计量(相关系数、判定系数、回归系数等)具有随机性,因此,我们需要对其进行显著性检验,以验证是否可以据此推断总体的参数。一元线性回归模型的检验显著性检验第94页,共127页,2023年,2月20日,星期四
一元线性回归模型的检验
检验目的
总体是否如同r?显著性检验:相关系数的检验(t检验)第95页,共127页,2023年,2月20日,星期四提出假设;确定检验统计量;给定显著性水平,确定临界值;确定原假设的拒绝规则;计算检验统计量并做出决策。检验程序
一元线性回归模型的检验显著性检验:相关系数的检验(t检验)第96页,共127页,2023年,2月20日,星期四学生身高体重估计值ABCDEFGHIJ1581601621641661681701721741764750485562605261706524964256002624426896275562822428900295843027630976220925002304302538443600270437214900422574268000777690201029210080884010492121801144047.2949.4551.6153.7655.9258.0860.2462.3964.5566.71-9.71-7.55-5.39-3.24-1.081.083.245.397.559.71-10-7-9-253-5413816705702792203303295546-00检验统计量落入拒绝域中,故拒绝原假设,接受备择假设。即可以认为明显地不等于零,相关关系是显著的。第97页,共127页,2023年,2月20日,星期四回归分析中我们最关心的是:X与Y是否有真正的相关关系。即:
一元线性回归模型的检验显著性检验:回归系数的检验(t检验)第98页,共127页,2023年,2月20日,星期四
一元线性回归模型的检验提出假设;确定检验统计量;给定显著性水平,确定临界值;确定原假设的拒绝规则;接受域:计算检验统计量并做出决策。显著性检验:回归系数的检验(t检验)检验程序第99页,共127页,2023年,2月20日,星期四学生身高体重估计值ABCDEFGHIJ1581601621641661681701721741764750485562605261706524964256002624426896275562822428900295843027630976220925002304302538443600270437214900422574268000777690201029210080884010492121801144047.2949.4551.6153.7655.9258.0860.2462.3964.5566.71-9.71-7.55-5.39-3.24-1.081.083.245.397.559.71-10-7-9-253-5413816705702792203303295546-00检验统计量落入拒绝域中,故拒绝原假设,接受备择假设。即可以认为b明显地不等于零,X与Y是显著的。第100页,共127页,2023年,2月20日,星期四
一元线性回归模型的检验检验所建立的回归方程是否在整体上显著,也就是进一步检验x与y之间是否存在线性关系显著性检验:回归方程的检验(F检验)第101页,共127页,2023年,2月20日,星期四提出假设;确定检验统计量;给定显著性水平,确定临界值;确定原假设的拒绝规则;计算检验统计量并做出决策。
一元线性回归模型的检验检验程序显著性检验:回归方程的检验(F检验)第102页,共127页,2023年,2月20日,星期四故拒绝原假设,接受备择假设,即认为回归方程是显著的。第103页,共127页,2023年,2月20日,星期四第五节多元线性回归分析
河北大学统计学系第104页,共127页,2023年,2月20日,星期四多元线性回归分析的概念和特点研究一个因变量与两个或两个以上自变量之间相互关系的理论和方法,称为多元回归或复回归。第105页,共127页,2023年,2月20日,星期四回归分析分类按自变量个数分类一元回归简单回归多元回归复回归按方程式特征分类线性回归非线性回归多元线性回归第106页,共127页,2023年,2月20日,星期四多元线性回归模型的建立多元线性性回归模型的一般式为:第107页,共127页,2023年,2月20日,星期四多元线性回归模型的检验为了保证回归分析的可靠性,在建立了多元线性回归模型以后,也要进行拟合程度和显著性检验。第108页,共127页,2023年,2月20日,星期四多元线性回归模型的检验拟合程度检验拟合程度——样本观测值聚集在样本回归线周围的紧密程度。说明回归直线的代表性常用指标:判定系数、估计标准误差第109页,共127页,2023年,2月20日,星期四判定系数第110页,共127页,2023年,2月20日,星期四多元判定系数:R2指的是因变量中的变异性可由建立的多元回归方程解释的程度多元判定系数越大,说明模型的拟合程度越好。第111页,共127页,2023年,2月20日,星期四估计标准误差估计标准误差越小,表明回归模型的拟合程度越高。第112页,共127页,2023年,2月20日,星期四显著性检验检验内容——对相关系数的显著性检验,通过t检验实现。
——对各回归系数的显著性检验,一般使用t检验。
——对回归
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- JJF(陕) 082-2022 积分球光色综合测试系统校准规范
- 跨界合作助力品牌发展计划
- 社会治理背景下保安工作的创新实践计划
- 社交媒体的职业生涯路径计划
- 年度工作计划的可视化呈现方式
- 社区服务与社会责任教育计划
- 卫浴柜类相关行业投资方案
- TFT-LCD用偏光片相关项目投资计划书
- 雨水收集利用实施方案计划
- 货运保险合同三篇
- 贾平凹《泉》阅读练习及答案(二)
- 盆腔炎中医临床路径住院表单
- 施工现场安全自查自纠表
- 先心病相关性肺动脉高压治疗策略课件
- 2021年内一科临床路径与单病种质量管理年度总结
- 【运营】2020年万达某轻资产项目上线计划模块节点
- 乌兰察布市工业固体废物资源综合利用
- 电气工程预算
- 川教版九年级上册第23课《巴黎公社》
- “青年安全生产示范岗”创建活动方案
- 最新 场地平整施工方案
评论
0/150
提交评论