版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
关于相关分析与回归分析概述相关分析和回归分析都是分析客观事物之间相关性的数量分析方法。相互关系:函数关系与统计关系统计关系:不完全确定的随机关系,当一个或几个相互联系的变量取一定值时,与其相对应的另一个变量取值虽不确定,但会按照某种规律在一定范围内变化。线性相关:正/负非线性相关第2页,共47页,2024年2月25日,星期天相关分析-散点图将数据以点的形式画在直角平面上。基本操作:图形-旧对话框-散点/点状第3页,共47页,2024年2月25日,星期天相关系数两个步骤:计算样本相关系数r;对样本来自的两总体是否存在显著线性关系进行推断。提出零假设,即两总体无线性相关性;选择检验统计量;计算检验统计量的观测值和对应的概率p值;决策第4页,共47页,2024年2月25日,星期天相关系数的分类
Pearson简单相关系数(皮尔逊):用来度量正态分布的定距变量间的线性相关关系,Pearson简单相关系数不能用于度量变量之间的非线性关系Spearman秩相关系数(斯皮尔曼):采用非参数检验方法来度量定序变量间的线性相关关系,由于数据为非定距变量,因此不能直接采用原始数据,而是利用数据的秩Kendallτ秩相关系数(肯德尔):采用非参数检验方法来度量定序变量间的线性相关关系第5页,共47页,2024年2月25日,星期天连续变量的相关分析Pearson简单相关系数:其中为协方差,为标准差。x和y是对称的,说明x与y的相关系数等同于y和x和相关系数;简单相关系数是无量纲的;x和y做线性变换后可能改变相关系数的符号,但不会改变值;只能度量线性关系,不能度量非线性关系的。第6页,共47页,2024年2月25日,星期天对相关关系的显著性进行检验,该检验原假设是:两总体相关系数等于0。t统计量:,服从自由度为n-2的t分布。第7页,共47页,2024年2月25日,星期天定序变量的相关分析-Spearmanui和vi分别表示变量x和y的秩变量,用di=ui-vi表示第i个样本对应于两变量的秩之差。Spearman秩相关公式:两变量正相关,秩变化有同步性,r趋向于1;两变量完全正线性相关,ui和vi相等,r=1;完全负相关,ui+vi=n+1,r=-1;检验系数,原假设为:两变量不相关。小样本,服从Spearman分布;大样本,服从标准正态分布。第8页,共47页,2024年2月25日,星期天定序变量的相关分析-Kendall秩相关系数设在v1后面有R1个秩大于v1,v2后面有R2个秩大于v2,.....在vn-1后面有Rn-1个秩大于vn-1,令显然,变量x和y相关性越强,则R越大。Kendall秩相关系数:第9页,共47页,2024年2月25日,星期天举例—kendall秩相关系数假如我们设一组8人的身高和体重在那里A的人是最高的,第三重,等等:注意,A最高,但体重排名为3,比体重排名为4,5,6,7,8的重,贡献5个同序对,即AB,AE,AF,AG,AH。同理,我们发现B、C、D、E、F、G、H分别贡献4、5、4、3、1、0、0个同序对,因此,R=5+4+5+4+3+1+0+0=22.因而rk=(88/56)-1=0.57。第10页,共47页,2024年2月25日,星期天定类变量的相关分析卡方检验离散变量的相关性,称为列联表分析。用多行多列纵横交错形成一个表体。Eij为联合观察频数;ni.为第i行观察频数之和,n.j为第j列观察频数之和。Pearson卡方统计量:该检验的原假设为:两变量相互独立。第11页,共47页,2024年2月25日,星期天举例:列联表分析第12页,共47页,2024年2月25日,星期天第13页,共47页,2024年2月25日,星期天第14页,共47页,2024年2月25日,星期天第15页,共47页,2024年2月25日,星期天第16页,共47页,2024年2月25日,星期天第17页,共47页,2024年2月25日,星期天案例6.1双变量相关分析案例6.1.sav的资料给出了杭州市2006年市区分月统计的平均温度和日照时数。试据此分析平均温度和日照时数的相关性。第18页,共47页,2024年2月25日,星期天偏相关分析很多情况下,需要进行相关分析的变量的取值会同时受到其他变量的影响,这时候就需要把其他变量控制住,然后输出控制其他变量影响后的相关系数。SPSS的偏相关分析(Partial)过程就是为解决这一问题而设计的。控制变量个数为一时,偏相关系数称为一阶偏相关,为2则是二阶偏相关。第19页,共47页,2024年2月25日,星期天步骤:计算样本的偏相关系数对样本来自两总体是否存在显著净相关进行推断:提出零假设:两总体的偏相关系数与零无显著差异;选择检验统计量t;计算检验统计量的观测值和对应的概率p值;决策。第20页,共47页,2024年2月25日,星期天案例6.2案例6.2.sav的资料给出了随机抽取的山东省某学校的12名学生的IQ值、语文成绩和数学成绩。因为语文成绩和数学成绩都受IQ的影响,所以试用偏相关分析研究学生语文成绩和数学成绩的相关关系。第21页,共47页,2024年2月25日,星期天案例6.3距离分析SPSS的距离分析(Distances)也属于相关分析的范畴,其基本功能是对样本观测值之间差异性或者相似程度进行度量,从而对数据形成一个初步的了解。这种分析方法主要应用在分析之前对数据背后的专业知识不够充分了解,进行探索性研究的情形。案例6.3.sav的资料给出了沈阳、大连和鞍山2006年各月的平均气温情况。试用距离分析方法研究这三个地区月平均气温的相似程度。第22页,共47页,2024年2月25日,星期天回归分析回归分析是研究两个变量或多个变量之间因果关系的统计方法。基本思想:在进行相关分析的基础上,对确定具有相关关系的两个或多个变量之间数量变化的一般关系进行测定,确定一个合适的数学模型,以便从已知量来推断未知量。第23页,共47页,2024年2月25日,星期天相关分析与回归分析的区别相关分析研究的变量之间关系是对等的,回归分析研究的变量有解释和被解释之分;相关分析研究的是随机变量,回归分析被解释变量是随机变量,而解释变量非随机;相关分析不能指出变量间相互关系的具体形式,回归分析可以通过一个数学表达式来确定变量之间相关情况的具体形式。第24页,共47页,2024年2月25日,星期天一般步骤:确定回归方程中的解释变量和被解释变量确定回归模型建立回归方程对回归方程进行各种检验利用回归方程进行预测第25页,共47页,2024年2月25日,星期天线性回归数学模型:使用最小二乘法对模型中的回归系数进行估计,得到样本回归函数:
是的估计值,是与其拟合值之间的离差,称为残差。第26页,共47页,2024年2月25日,星期天线性回归建立在以下基本假设之上对于所有的i,存在:不同的随机扰动项之间不存在序列相关,即:解释变量是非随机的,与随机扰动项不相关K个解释变量不存在共线性第27页,共47页,2024年2月25日,星期天线性回归模型的检验一级检验统计学检验二级检验经济计量学检验拟合优度评价显著性检验异方差检验序列相关检验第28页,共47页,2024年2月25日,星期天1)模型拟合优度评价是指样本观测值聚集在样本回归线周围的紧密程度,也反应了回归方程对被解释变量的解释程度。SST=SSR+SSE(总变差,解释变差,剩余变差)可决系数:R2=SSR/SST=1-SSE/SST(一元线性回归方程)调整的可决系数:(多元线性回归方程)解释变量增多时,SSE减少,R2增加;有重要“贡献”的解释变量出现。第29页,共47页,2024年2月25日,星期天2)回归方程整体显著性检验包含回归方程的显著性检验和回归系数的显著性检验两个部分。回归方程的显著性检验:检验线性关系是否显著(1)建立原假设:,即回归方程整体不显著;,即回归方程整体显著。(2)构造F统计量:(3)计算F统计量和对应的p值(4)对比p值和ɑ。第30页,共47页,2024年2月25日,星期天3)回归系数的显著性检验(1)建立原假设:,即第j个回归系数不显著;,即第j个回归系数显著。(2)构造t统计量:(3)计算t统计量和对应的p值(4)对比p值和ɑ。第31页,共47页,2024年2月25日,星期天4)残差分析残差:残差序列:多个ei出发点:如果回归方程能较好地反映被解释变量的特征和变化规律,那么残差序列中应不包含明显的规律性和趋势性。(1)残差均值为0的正态性分析;(2)残差的独立性分析:绘制残差序列的序列图;计算残差的自相关系数;DW检验。(零假设:总体的自相关系数ρ与0无显著差异。)第32页,共47页,2024年2月25日,星期天当随机扰动项存在序列相关时,进行Durbin-Watson检验:0<DW<dL:随机扰动项存在一阶正序列相关;4-dL<DW<4:随机扰动项存在一阶负序列相关;dU<DW<4-dU:随机扰动项不存在序列相关;dL<DW<dU或者4-dU<DW<4-dL:不能确定是否存在序列相关。第33页,共47页,2024年2月25日,星期天正相关不相关负相关第34页,共47页,2024年2月25日,星期天如果残差序列存在自相关,说明回归方程没能充分说明被解释变量的变化规律,还留有一些规律性没有被解释,也就是方程中遗漏了一些较为重要的的解释变量;或者,变量存在滞后性;或者,回归模型选择不合适。第35页,共47页,2024年2月25日,星期天(3)异方差(heteroscedasticity)分析:总体回归函数中的随机误差项满足同方差性,即它们都有相同的方差。如果这一假定不满足,则称线性回归模型存在异方差性。两种方式:绘制残差图(p193图)等级相关分析(得到残差序列后对其取绝对值,分别计算出残差和解释变量的秩,最后计算Spearman等级相关系数,进行等级相关分析。)第36页,共47页,2024年2月25日,星期天5)多元回归分析的其他问题(1)变量的筛选问题:向前筛选—解释变量不断进入回归方程的过程,最高线性相关系数的变量最先进入;向后筛选—变量不断剔除出回归方程的过程,先全部引入,把最不显著的一个或多个变量剔除;逐步筛选—向前和向后的综合,在引入变量的每个阶段提供剔除不显著变量的机会。第37页,共47页,2024年2月25日,星期天(2)变量的多重共线性问题:指各个解释变量之间存在线性相关关系的现象。容忍度:方差膨胀因子:,大于10时,存在多重共线性条件指数:,在10以下,多重共线性比较弱,大于100时,存在严重的多重共线性。方差比例:几个不同解释变量,某个特征根能够解释的方差比例超过50%,则认为存在较强共线性。第38页,共47页,2024年2月25日,星期天案例6.4简单线性回归分析菲利普斯曲线表明,失业率和通货膨胀率之间存在着替代关系。下面的资料给出了我国1998-2007年的通货膨胀率和城镇登记失业率。试用简单回归分析方法研究这种替代关系在我国是否存在。第39页,共47页,2024年2月25日,星期天结果分析回归模型:R(失业率)=3.601+0.157*I(通货膨胀率)调整后R平方为0.326,模型的拟合优度,也就是对数据的解释能力一般;因方差分析显著性为0.049,小于0.05,故模型整体是显著的;两个参数是显著的。但通货膨胀和失业的替代关系在我国并不存在。第40页,共47页,2024年2月25日,星期天案例6.5多重线性回归分析为了检验美国电力行业是否存在规模经济,Nerlove(1963)收集了1955年145家美国电力企业的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2018高考化学三月(二轮)课外自练(七)及答案
- 浙江省杭州市学军中学紫金港高中2023-2024学年高一下学期期中考前测英语试题2
- 安徽省宣城市高三第二次调研测试理数试题
- 2024年B2B社媒营销研究报告
- 婚庆策划中介居间合同样本
- 4S店装修项目合同模板
- 2023-2024学年全国小学四年级上信息与技术仁爱版期末试卷(含答案解析)
- 2024年展馆工程施工合同范本
- 2024年宁夏客运丛业资格证考试
- 即食型金针菇产品项目可行性研究报告
- 2024年2024年离婚协议书模板电子版
- 中国慢性冠脉综合征患者诊断及管理指南2024版解读
- 中国法律史-第二次平时作业-国开-参考资料
- (高清版)JTGT D81-2017 公路交通安全设施设计细则
- (正式版)SHT 3551-2024 石油化工仪表工程施工及验收规范
- 消化道出血的PBL教学查房
- 家装业务培训(共60页).ppt
- 48个国际音标对应的字母组合及例词(WORD可打印版)
- IQ测试题和答案
- 6课题研究工作计划表
- 井底车场轨道维修安全技术措施
评论
0/150
提交评论