




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第七章,相关分析,主要内容,7.1 相关分析简介 7.2 两变量相关分析 7.3 偏相关分析 7.4 距离分析,7.1相关分析简介,(1) 函数关系与相关关系 变量之间的关系可以分为两种:一种是函数关系,另一种是相关关系。函数关系是一一对应的确定性关系,比较容易分析和测度。可是在现实世界中,变量间的关系往往并不是简单的确定性关系,也就是说,变量之间有着密切的关系,但又不能由一个或几个变量的值确定另一个变量的值,即当自变量x取某一值时,因变量y的值可能会有多个。这种变量之间的非一一对应的、不确定性的关系,称之为相关关系。 (2) 相关分析基本概念 衡量事物之间,或称变量之间线性相关程度的强弱并用
2、适当的统计指标表示出来,这个过程就是相关分析。相关系数是衡量变量之间相关程度的一个指标,总体的相关系数用表示,样本的相关系数用r表示。,主要内容,7.1 相关分析简介 7.2 两变量相关分析 7.3 偏相关分析 7.4 距离分析,7.1二元变量相关分析,(1) 基本概念 二元变量的相关分析是指通过计算变量间两两相关的相关系数,对两个或两个以上变量之间两两相关的程度进行分析。根据所研究的变量类型不同,又可以分为二元定距变量的相关分析和二元定序变量的相关分析。 (2) 统计原理 二元定距变量的相关分析 :定距变量又称为间隔(interval)变量(即连续属性变量),变量值之间可以比较大小,可以用加
3、减法计算出差异的大小。 Pearson简单相关系数及t统计量,7.1二元变量相关分析,定序变量的相关性分析 :定序变量又称为有序(ordinal)变量、顺序变量、等级变量,它取值的大小能够表示观测对象的某种顺序关系(等级、方位或大小等)。定序变量的相关系数用斯皮尔曼(Spearman)相关系数和肯德尔(Kendalls )相关系数来衡量。 Spearman相关系数及Z统计量,Kendalls等级相关系数 及Z统计量,7.2 二元变量相关分析,(3) 分析步骤 第1步 计算相关系数r:利用样本数据计算样本相关系数,样本相关系数反映了两变量间线性相关程度的强弱。相关系数的取值范围界于-1与1之间,
4、即-1r1 当0r 1,表明变量之间存在正相关关系; 当-1 r0,表明变量之间存在负相关关系; 当|r|=1时,表示其中一个变量的取值完全取决于另一个变量,二者即为函数关系; 当r=0时,说明变量之间不存在线性相关关系,但这并不排除变量之间存在其它非线性相关的可能。,根据经验可将其相关程度分为几种:当|r|0.8时视为高度相关;当0.5|r|0.8时视为中度相关;当0.3 |r|0.5时视为低度相关;当|r|0.3时说明变量之间的相关性很弱。,第2步 对样本来自的两总体是否存在显著的线性关系进行推断:由于存在抽样的随机性和样本数量较少等原因,通常样本相关系数不能直接用来说明样本来自的两总体是
5、否具有显著的线性相关性,需要通过假设检验的方式对样本的总体进行统计推断。 提出零假设H0:即两总体无显著的线性关系; 构造检验统计量:由于不同的相关系数采用不同的检验统计量,因此在相关分析时,不同的过程需要构造不同的检验统计量; 计算检验统计量的观测值及对应的概率p值; 对两总体的相关性进行推断:如果检验统计量的概率p值小于给定的显著性水平,应拒绝零假设,即认为两总体之间存在显著性线性关系;反之,应接受零假设。,7.2二元变量相关分析,(4) SPSS实现举例 【例7-1】为了分析父亲与儿子身高之间的相关性,现抽样了12对父子的身高,数据如下表。请对其进行相关性分析(显著性水平取0.05)。,
6、7.2二元变量相关分析,第1步 分析:身高是定距变量,考虑用Pearson相关系数来衡量。 第2步 数据的组织:分成两列,一列是父亲的身高,另一列是儿子的身高。,7.2二元变量相关分析,第3步 选择菜单“分析相关双变量”,打开如图7-1所示的对话框,将“father”和“son”两变量移入“变量”框中;“相关系数”选择Pearson;在“显著性检验”中选择“双侧检验”;,7.2二元变量相关分析,第4步 主要结果及分析。,其中包括了叉积离差矩阵、协方差矩阵、Pearson相关系数及相伴概率p值。从表中可看出,相关系数为0.7030,说明呈正相关,而相伴概率值Sig.=0.0050.05,因此应拒
7、绝零假设(H0:两变量之间不具相关性),即说明儿子身高是受父亲身高显著性正影响的。,主要内容,7.1 相关分析简介 7.2 两变量相关分析 7.3 偏相关分析 7.4 距离分析,(1) 基本概念 偏相关分析的任务就是在研究两个变量之间的线性相关关系时控制可能对其产生影响的变量,这种相关系数称为偏相关系数。偏相关系数的数值和简单相关系数的数值常常是不同的,在计算简单相关系数时,所有其他自变量不予考虑。 (2) 统计原理 控制一个变量和控制两个变量的偏相关系数分别为:,7.3 偏相关分析,检验的统计量为:,(3)统计分析步骤 第1步 根据公式计算偏相关系数; 第2步 对样本来自的两总体是否存在显著
8、性相关进行推断。 提出零假设H0:即两总体的偏相关系数与零无显著性差异; 选择检验统计量:偏相关分析选择的是t统计量; 计算t值及对应的概率p值; 决策:如果相伴概率p值小于给定的显著性水平,则应拒绝零假设,认为两总体的偏相关系数与零有显著性差异;否则,接受原假设。,7.3 偏相关分析,(4) SPSS实现举例 【例7-3】 下表是四川绵阳地区3年生中山柏的数据,分析月生长量与月平均气温、月降雨量、月平均日照时数、月平均湿度4个气候因素中哪些因素有关。,7.3 偏相关分析,16,7.3 偏相关分析,第1步 分析:这4个气候因素彼此均有影响,分析时应对生长量与4个气候因素分别求偏相关,如在求生长
9、量与气候因素的相关时控制其他因素的影响。所以需进行偏相关分析; 第2步 数据组织:如上表定义4个变量,输入数据即可; 第3步 进行偏相关分析:选择菜单“分析相关双变量”,指定分析变量和控制变量,分析变量“hgrow”和“temp”的偏相关系数,并将“rain”、“hsun”、“humi”设为控制变量。如下图所示设置。,第4步 主要结果及分析。,7.3 偏相关分析,从中可以看出,月降雨量、月平均日照时数和月平均湿度为控制变量,生长量与月平均气温关系密切,偏相关系数为0.977,双尾检测的相伴概率为0.000(表示趋近于0的正数),明显小于显著性水平0.05。故应拒绝原假设,说明中山柏的生长量与气
10、温间存在显著的相关性。,主要内容,7.1 相关分析简介 7.2 两变量相关分析 7.3 偏相关分析 7.4 距离分析,(1) 基本概念 距离分析是对观测量之间相似或不相似程度的一种测度,是计算一对观测量之间的广义距离。这些相似性或距离测度可以用于其他分析过程,例如因子分析、聚类分析或多维定标分析,有助于分析复杂的数据集。 (2) 统计原理 不相似性测度 对定距数据的不相似性(距离)测度可以使用的统计量有:欧几里得距离、平方欧氏距离、切比雪夫距离、Block距离、明可斯基距离等。 对定序数据,主要使用卡方不相似测度和斐方测度。 对二值(只有两种取值)数据变量之间的距离描述,使用欧氏距离、平方欧氏
11、距离、尺寸差异、模式差异、方差、形或兰斯和威廉斯等距离统计量。,7.4 距离分析,相似性测度 对于定距数据主要使用皮尔逊相关系数和夹角余弦距离; 对于二值数据的相似性测度主要包括简单匹配系数、Jaccard相似性指数、Hamann相似性测度等20余种。,7.4 距离分析,其中的距离又分为个案(观测记录)之间的距离和变量之间的距离两种。,(3) 分析步骤 距离分析中不存在假设检验问题,主要是通过SPSS自动计算变量或个案之间的相似性或不相似性距离,根据其计算距离值的大小来确定变量或个案之间的相似性或不相似性的强弱。,(4) SPSS实现举例 【例7-4】 已知我国四城市2004年各月的日照时数如
12、下表所示,请分析各城市日照数是否近似。,7.4 距离分析,第1步 分析:这是考查4个城市的日照时数是否相似的问题,可用距离分析实现。既可以计算其相似性测度,亦可计算其不相似性测度; 第2步 数据组织:分别定义的变量:month”(月份)(用字符型变量)、“Beijing”(北京)、“Tianjin”(天津)、“ShiJZ”(石家庄)、“Dalian”(大连)。,7.4 距离分析,7.4 距离分析,第3步 进行距离分析:选择菜单“分析相关距离”,弹出下图所示的“距离”对话框,将4个变量(“北京”、“天津”、“石家庄”、“大连”)移入“变量”框中进行相似性度量计算;在“计算距离”组中选中“个案间”
13、单选框,进行变量间的距离分析;在“度量标准”单选框组中选中不相似性,求解其不相似性度量。,第4步 主要结果及分析。,7.4 距离分析,表格的第一行(Euclidean 距离)说明采用的是欧氏距离。这是一个对称矩阵,当两变量的欧氏距离越大,说明其差别越大,反之越小。从表中可看出“北京”和“大连”的日照数最接近,而“北京”和“天津”的日照数相差最大。,The End,第八章,回归分析,主要内容,8.1 回归分析概述 8.2 线性回归分析 8.3 曲线估计 8.4 二元Logistic回归分析,8.1 回归分析概述,(1)确定性关系与非确定性关系 变量与变量之间的关系分为确定性关系和非确定性关系,函
14、数表达确定性关系。研究变量间的非确定性关系,构造变量间经验公式的数理统计方法称为回归分析。 (2)回归分析基本概念 回归分析是指通过提供变量之间的数学表达式来定量描述变量间相关关系的数学过程,这一数学表达式通常称为经验公式。我们不仅可以利用概率统计知识,对这个经验公式的有效性进行判定,同时还可以利用这个经验公式,根据自变量的取值预测因变量的取值。如果是多个因素作为自变量的时候,还可以通过因素分析,找出哪些自变量对因变量的影响是显著的,哪些是不显著的。,(3)回归分析的一般步骤 第1步 确定回归方程中的因变量和自变量。 第2步 确定回归模型。 第3步 建立回归方程。 第4步 对回归方程进行各种检
15、验。 拟合优度检验 回归方程的显著性检验 回归系数的显著性检验 第5步 利用回归方程进行预测。,8.1 回归分析概述,主要内容,8.1 回归分析概述 8.2 线性回归分析 8.3 曲线估计 8.4 二元Logistic回归分析,8.2线性回归分析,8.2.1 基本概念及统计原理 1.基本概念 线性回归假设因变量与自变量之间为线性关系,用一定的线性回归模型来拟合因变量和自变量的数据,并通过确定模型参数来得到回归方程。根据自变量的多少,线性回归可有不同的划分。当自变量只有一个时,称为一元线性回归,当自变量有多个时,称为多元线性回归。,8.2线性回归分析,(2) 统计原理 一元回归方程和多元回归方程
16、,一元线性和多元线性回归分析的核心任务就是估计其中的参数。,8.2线性回归分析,8.2.2 SPSS实例分析 【例8-1】现有1992年-2006年国家财政收入和国内生产总值的数据如下表所示,请研究国家财政收入和国内生产总值之间的线性关系。,8.2 线性回归分析,第1步 分析:这是一个因变量和一个自变量之间的问题,故应该考虑用一元线性回归解决。 第2步 数据组织:定义三个变量,分别为“year”(年份)、“x”(国内生产总值)、“y”(财政收入)。 第3步 作散点图,观察两个变量的相关性:依次选择菜单“图形旧对话框散点/点状简单分布”,并将“国内生产总值”作为x轴,“财政收入”作为y轴,得到如
17、下所示图形。,可以看出两变量具有较强的线性关系,可以用一元线性回归来拟合两变量。,8.2 线性回归分析,第4步 一元线性回归分析设置: 选择菜单“分析回归线性”,打开“线性回归”对话框,将变量“财政收入”作为因变量 ,“国内生产总值”作为自变量。 打开“统计量”对话框,选上“估计”和“模型拟合度”。 单击“绘制(T)”按钮,打开“线性回归:图”对话框,选用DEPENDENT作为y轴,*ZPRED为x轴作图。并且选择“直方图”和“正态概率图” 作相应的保存选项设置,如预测值、残差和距离等。,8.2 线性回归分析,第5步 主要结果及分析: 变量输入和移去表,表中显示回归模型编号、进入模型的变量、移
18、出模型的变量和变量的筛选方法。可以看出,进入模型的自变量为“国内生产总值” 。,模型综述表,R=0.989,说明自变量与因变量之间的相关性很强。R方(R2) =0.979,说明自变量“国内生产总值”可以解释因变量“财政收入”的97.9%的差异性。,8.2 线性回归分析,方差分析表,表中显示因变量的方差来源、方差平方和、自由度、均方、F检验统计量的观测值和显著性水平。方差来源有回归、残差。从表中可以看出,F统计量的观测值为592.25,显著性概率为0.000,即检验假设“H0:回归系数B = 0”成立的概率为0.000,从而应拒绝原假设,说明因变量和自变量的线性关系是非常显著的,可建立线性模型。
19、,8.2 线性回归分析,回归系数表,表中显示回归模型的常数项、非标准化的回归系数B值及其标准误差、标准化的回归系数值、统计量t值以及显著性水平(Sig.)。从表中可看出,回归模型的常数项为-4993.281,自变量“国内生产总值”的回归系数为0.197。因此,可以得出回归方程:财政收入=-4993.281 + 0.197 国内生产总值。,回归系数的显著性水平为0.000,明显小于0.05,故应拒绝T检验的原假设,这也说明了回归系数的显著性,说明建立线性模型是恰当的。,主要内容,8.1 回归分析概述 8.2 线性回归分析 8.3 曲线估计 8.4 二元Logistic回归分析,8.3 曲线估计,
20、8.3.1 基本概念及统计原理 (1) 基本概念 曲线估计(曲线拟合、曲线回归)则是研究两变量间非线性关系的一种方法,选定一种用方程表达的曲线,使得实际数据与理论数据之间的差异尽可能地小。如果曲线选择得好,那么可以揭示因变量与自变量的内在关系,并对因变量的预测有一定的意义。 在曲线估计中,需要解决两个问题:一是选用哪种理论模型,即用哪种方程来拟合观测值;二是当模型确定后,如何选择合适的参数,使得理论数据和实际数据的差异最小。,8.3 曲线估计,(2) 统计原理 在曲线估计中,有很多的数学模型,选用哪一种形式的回归方程才能最好地表示出一种曲线的关系往往不是一个简单的问题,可以用数学方程来表示的各
21、种曲线的数目几乎是没有限量的。在可能的方程之间,以吻合度而论,也许存在着许多吻合得同样好的曲线方程。因此,在对曲线的形式的选择上,对采取什么形式需要有一定的理论,这些理论是由问题本质决定的。 (3) 分析步骤 首先,在不能明确究竟哪种模型更接近样本数据时,可在上述多种可选择的模型中选择几种模型; 其次,SPSS自动完成模型参数的估计,并输出回归方程显著性检验的F值和概率p值、决定系数R2等统计量; 最后,以判定系数为主要依据选择其中的最优模型,并进行预测分析等。,8.3 曲线估计,8.3.2 SPSS实例分析 【例8-3】 表8.16是19892001年国家保费收入与国内生产总值的数据,试研究
22、保费收入与国内生产总值的关系。,8.3 曲线估计,第1步 分析:先用散点图的形式进行分析,看究竟是否具有一元线性关系,如果具有一元线性关系,则用一元线性回归分析,否则采用曲线估计求解。 第2步 数据组织:定义为三个变量,分别是“year”(年度)、“y”(保费收入)和“x”(国内生产总值),输入数据并保存。 第3步 作散点图初步判定变量的分布趋势:,保费收入y随国内生产总值x的提高而逐渐提高,而且当国内生产总值达到一定水平后,保费收入的增幅更加明显。因此用线性回归模型表示x,y的关系是不恰当的。于是应找拟合效果好的模型。,8.3 曲线估计,第4步 进行曲线估计:依次选择菜单“分析回归曲线估计”
23、,将所有模型全部选上,看哪种模型拟合效果更好(主要看决定系数R2),其所有模型的拟合优度R2如下表所示。,从决定系数(R方即R2)来看,三次曲线效果最好(因为其R2值最大),并且方差分析的显著性水平(Sig.)为0。故重新进行上面的过程,只选“三次曲线(Cubic)”一种模型。,8.3 曲线估计,第5步 结果与分析。 三次曲线模型拟合效果的检验表,复相关系数R = 0.995,R2 = 0.990,经校正后的R平方值为0.989。故可判断保费收入与国内生产总值之间有较显著的三次曲线关系,方差分析表,相伴概率Sig.=0.000说明模型具有显著的统计学意义。,8.3 曲线估计,回归系数表,从表中
24、可知因变量与自变量的三次回归模型为: y=-166.430+0.029x-5.364E-7x2+5.022E-12x3,9.2 曲线估计,拟合效果图,从图形上看出其拟合效果非常好。,8.3 曲线估计,说明: 曲线估计是一个自变量与因变量的非线性回归过程,但只能处理比较简单的模型。如果有多个自变量与因变量呈非线性关系时,就需要用其他非线性模型对因变量进行拟合,SPSS 19中提供了“非线性”过程,由于涉及的模型很多,且非线性回归分析中参数的估计通常是通过迭代方法获得的,而且对初始值的设置也有较高的要求,如果初始值选择不合适,即使指定的模型函数非常准确,也会导致迭代过程不收敛,或者只得到一个局部最
25、优值而不能得到整体最优值。,主要内容,8.1 回归分析概述 8.2 线性回归分析 8.3 曲线估计 8.4 二元Logistic回归分析,8.4.1 基本概念及统计原理 (1)基本概念 Logistic回归分析就是针对因变量是定性变量的回归分析。根据因变量取值类别数量不同,Logistic回归分析又分为二元Logistic回归分析和多元Logistic回归分析。二元Logistic回归模型中因变量只可以取两个值1和0(虚拟因变量),而多元Logistic回归模型中因变量可取多个值。,8.4 二元Logistic回归分析,(2)统计原理 logit变换,8.4 二元Logistic回归分析,Lo
26、gistic回归模型,Logistic回归模型,(3)统计检验 与线性回归一样,拟合时也要考虑模型是否合适、哪些变量该保留、拟合效果如何等问题。线性回归中常用的是决定系数R2,T检验、F检验等工具在这里均不再适用。在Logistic回归中常用的检验有-2对数似然检验(-2 log(likelihood), -2LL)、Hosmer和Lemeshow的拟合优度检验、Wald检验等。,8.4 二元Logistic回归分析,8.4.2 SPSS实例分析 【例8-4】 诊断发现运营不良的金融企业是审计核查的一项重要功能,审计核查的分类失败会导致灾难性的后果。下表列出了66家公司的部分运营财务比率,其中33家在2年后破产(Y = 0),另外33家在同期
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论