讲相关分析与回归分析_第1页
讲相关分析与回归分析_第2页
讲相关分析与回归分析_第3页
讲相关分析与回归分析_第4页
讲相关分析与回归分析_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

讲相关分析与回归分析第一页,共四十五页,编辑于2023年,星期一内容概要概述相关分析偏相关分析回归分析曲线估计第二页,共四十五页,编辑于2023年,星期一概述相关分析和回归分析都是分析客观事物之间相关性的数量分析方法。相互关系:函数关系与统计关系统计关系:不完全确定的随机关系,当一个或几个相互联系的变量取一定值时,与其相对应的另一个变量取值虽不确定,但会按照某种规律在一定范围内变化。线性相关:正/负非线性相关第三页,共四十五页,编辑于2023年,星期一相关分析-散点图将数据以点的形式画在直角平面上。基本操作:图形-旧对话框-散点/点状第四页,共四十五页,编辑于2023年,星期一相关系数两个步骤:计算样本相关系数r;对样本来自的两总体是否存在显著线性关系进行推断。提出零假设,即两总体无线性相关性;选择检验统计量;计算检验统计量的观测值和对应的概率p值;决策相关系数取值范围r=0|r|<0.3|r|=0.3~0.5|r|=0.5~0.8|r|>0.8|r|=1相关程度无相关微弱相关低度相关显著相关高度相关完全相关第五页,共四十五页,编辑于2023年,星期一相关系数的分类

Pearson简单相关系数(皮尔逊):用来度量正态分布的定距变量间的线性相关关系,Pearson简单相关系数不能用于度量变量之间的非线性关系Spearman秩相关系数(斯皮尔曼):采用非参数检验方法来度量定序变量间的线性相关关系,由于数据为非定距变量,因此不能直接采用原始数据,而是利用数据的秩Kendallτ秩相关系数(肯德尔):采用非参数检验方法来度量定序变量间的线性相关关系第六页,共四十五页,编辑于2023年,星期一连续变量的相关分析Pearson简单相关系数:其中为协方差,为标准差。x和y是对称的,说明x与y的相关系数等同于y和x和相关系数;简单相关系数是无量纲的;x和y做线性变换后可能改变相关系数的符号,但不会改变值;只能度量线性关系,不能度量非线性关系的。第七页,共四十五页,编辑于2023年,星期一对相关关系的显著性进行检验,该检验原假设是:两总体相关系数等于0。t统计量:,服从自由度为n-2的t分布。第八页,共四十五页,编辑于2023年,星期一定序变量的相关分析-Spearmanui和vi分别表示变量x和y的秩变量,用di=ui-vi表示第i个样本对应于两变量的秩之差。Spearman秩相关公式:两变量正相关,秩变化有同步性,r趋向于1;两变量完全正线性相关,ui和vi相等,r=1;完全负相关,ui+vi=n+1,r=-1;检验系数,原假设为:两变量不相关。小样本,服从Spearman分布;大样本,服从标准正态分布。第九页,共四十五页,编辑于2023年,星期一定序变量的相关分析-Kendall秩相关系数设在v1后面有R1个秩大于v1,v2后面有R2个秩大于v2,.....在vn-1后面有Rn-1个秩大于vn-1,令显然,变量x和y相关性越强,则R越大。Kendall秩相关系数:第十页,共四十五页,编辑于2023年,星期一举例—kendall秩相关系数假如我们设一组8人的身高和体重在那里A的人是最高的,第三重,等等:注意,A最高,但体重排名为3,比体重排名为4,5,6,7,8的重,贡献5个同序对,即AB,AE,AF,AG,AH。同理,我们发现B、C、D、E、F、G、H分别贡献4、5、4、3、1、0、0个同序对,因此,R=5+4+5+4+3+1+0+0=22.因而rk=(88/56)-1=0.57。第十一页,共四十五页,编辑于2023年,星期一定类变量的相关分析卡方检验离散变量的相关性,称为列联表分析。用多行多列纵横交错形成一个表体。Eij为联合观察频数;ni.为第i行观察频数之和,n.j为第j列观察频数之和。Pearson卡方统计量:该检验的原假设为:两变量相互独立。第十二页,共四十五页,编辑于2023年,星期一举例:列联表分析第十三页,共四十五页,编辑于2023年,星期一第十四页,共四十五页,编辑于2023年,星期一第十五页,共四十五页,编辑于2023年,星期一第十六页,共四十五页,编辑于2023年,星期一第十七页,共四十五页,编辑于2023年,星期一第十八页,共四十五页,编辑于2023年,星期一案例6.1双变量相关分析案例6.1.sav的资料给出了杭州市2006年市区分月统计的平均温度和日照时数。试据此分析平均温度和日照时数的相关性。第十九页,共四十五页,编辑于2023年,星期一偏相关分析很多情况下,需要进行相关分析的变量的取值会同时受到其他变量的影响,这时候就需要把其他变量控制住,然后输出控制其他变量影响后的相关系数。SPSS的偏相关分析(Partial)过程就是为解决这一问题而设计的。控制变量个数为一时,偏相关系数称为一阶偏相关,为2则是二阶偏相关。第二十页,共四十五页,编辑于2023年,星期一步骤:计算样本的偏相关系数对样本来自两总体是否存在显著净相关进行推断:提出零假设:两总体的偏相关系数与零无显著差异;选择检验统计量t;计算检验统计量的观测值和对应的概率p值;决策。第二十一页,共四十五页,编辑于2023年,星期一案例6.2案例6.2.sav的资料给出了随机抽取的山东省某学校的12名学生的IQ值、语文成绩和数学成绩。因为语文成绩和数学成绩都受IQ的影响,所以试用偏相关分析研究学生语文成绩和数学成绩的相关关系。第二十二页,共四十五页,编辑于2023年,星期一案例6.3距离分析SPSS的距离分析(Distances)也属于相关分析的范畴,其基本功能是对样本观测值之间差异性或者相似程度进行度量,从而对数据形成一个初步的了解。这种分析方法主要应用在分析之前对数据背后的专业知识不够充分了解,进行探索性研究的情形。案例6.3.sav的资料给出了沈阳、大连和鞍山2006年各月的平均气温情况。试用距离分析方法研究这三个地区月平均气温的相似程度。第二十三页,共四十五页,编辑于2023年,星期一回归分析回归分析是研究两个变量或多个变量之间因果关系的统计方法。基本思想:在进行相关分析的基础上,对确定具有相关关系的两个或多个变量之间数量变化的一般关系进行测定,确定一个合适的数学模型,以便从已知量来推断未知量。第二十四页,共四十五页,编辑于2023年,星期一相关分析与回归分析的区别相关分析研究的变量之间关系是对等的,回归分析研究的变量有解释和被解释之分;相关分析研究的是随机变量,回归分析被解释变量是随机变量,而解释变量非随机;相关分析不能指出变量间相互关系的具体形式,回归分析可以通过一个数学表达式来确定变量之间相关情况的具体形式。第二十五页,共四十五页,编辑于2023年,星期一一般步骤:确定回归方程中的解释变量和被解释变量确定回归模型建立回归方程对回归方程进行各种检验利用回归方程进行预测第二十六页,共四十五页,编辑于2023年,星期一线性回归数学模型:使用最小二乘法对模型中的回归系数进行估计,得到样本回归函数:

是的估计值,是与其拟合值之间的离差,称为残差。第二十七页,共四十五页,编辑于2023年,星期一线性回归建立在以下基本假设之上对于所有的i,存在:不同的随机扰动项之间不存在序列相关,即:解释变量是非随机的,与随机扰动项不相关K个解释变量不存在共线性第二十八页,共四十五页,编辑于2023年,星期一线性回归模型的检验一级检验统计学检验二级检验经济计量学检验拟合优度评价显著性检验异方差检验序列相关检验第二十九页,共四十五页,编辑于2023年,星期一1)模型拟合优度评价是指样本观测值聚集在样本回归线周围的紧密程度,也反应了回归方程对被解释变量的解释程度。SST=SSR+SSE(总变差,解释变差,剩余变差)可决系数:R2=SSR/SST=1-SSE/SST(一元线性回归方程)调整的可决系数:(多元线性回归方程)解释变量增多时,SSE减少,R2增加;有重要“贡献”的解释变量出现。第三十页,共四十五页,编辑于2023年,星期一2)回归方程整体显著性检验包含回归方程的显著性检验和回归系数的显著性检验两个部分。回归方程的显著性检验:检验线性关系是否显著(1)建立原假设:,即回归方程整体不显著;,即回归方程整体显著。(2)构造F统计量:(3)计算F统计量和对应的p值(4)对比p值和ɑ。第三十一页,共四十五页,编辑于2023年,星期一3)回归系数的显著性检验(1)建立原假设:,即第j个回归系数不显著;,即第j个回归系数显著。(2)构造t统计量:(3)计算t统计量和对应的p值(4)对比p值和ɑ。第三十二页,共四十五页,编辑于2023年,星期一4)残差分析残差:残差序列:多个ei出发点:如果回归方程能较好地反映被解释变量的特征和变化规律,那么残差序列中应不包含明显的规律性和趋势性。(1)残差均值为0的正态性分析;(2)残差的独立性分析:绘制残差序列的序列图;计算残差的自相关系数;DW检验。(零假设:总体的自相关系数ρ与0无显著差异。)第三十三页,共四十五页,编辑于2023年,星期一当随机扰动项存在序列相关时,进行Durbin-Watson检验:0<DW<dL:随机扰动项存在一阶正序列相关;4-dL<DW<4:随机扰动项存在一阶负序列相关;dU<DW<4-dU:随机扰动项不存在序列相关;dL<DW<dU或者4-dU<DW<4-dL:不能确定是否存在序列相关。第三十四页,共四十五页,编辑于2023年,星期一正相关不相关负相关第三十五页,共四十五页,编辑于2023年,星期一如果残差序列存在自相关,说明回归方程没能充分说明被解释变量的变化规律,还留有一些规律性没有被解释,也就是方程中遗漏了一些较为重要的的解释变量;或者,变量存在滞后性;或者,回归模型选择不合适。第三十六页,共四十五页,编辑于2023年,星期一(3)异方差(heteroscedasticity)分析:总体回归函数中的随机误差项满足同方差性,即它们都有相同的方差。如果这一假定不满足,则称线性回归模型存在异方差性。两种方式:绘制残差图(p193图)等级相关分析(得到残差序列后对其取绝对值,分别计算出残差和解释变量的秩,最后计算Spearman等级相关系数,进行等级相关分析。)第三十七页,共四十五页,编辑于2023年,星期一5)多元回归分析的其他问题(1)变量的筛选问题:向前筛选—解释变量不断进入回归方程的过程,最高线性相关系数的变量最先进入;向后筛选—变量不断剔除出回归方程的过程,先全部引入,把最不显著的一个或多个变量剔除;逐步筛选—向前和向后的综合,在引入变量的每个阶段提供剔除不显著变量的机会。第三十八页,共四十五页,编辑于2023年,星期一(2)变量的多重共线性问题:指各个解释变量之间存在线性相关关系的现象。容忍度:方差膨胀因子:,大于10时,存在多重共线性条件指数:,在10以下,多重共线性比较弱,大于100时,存在严重的多重共线性。方差比例:几个不同解释变量,某个特征根能够解释的方差比例超过50%,则认为存在较强共线性。第三十九页,共四十五页,编辑于2023年,星期一案例6.4简单线性回归分析菲利普斯曲线表明,失业率和通货膨胀率之间存在着替代关系。下面的资料给出了我国1998-2007年的通货膨胀率和城镇登记失业率。试用简单回归分析方法研究这种替代关系在我国是否存在。第四十页,共四十五页,编辑于2023年,星期一结果分析回归模型:R(失业率)=3.601+0.157*I(通货膨

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论