




已阅读5页,还剩29页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第七章,相关分析,主要内容,7.1 相关分析简介 7.2 两变量相关分析 7.3 偏相关分析 7.4 距离分析,7.1相关分析简介,(1) 函数关系与相关关系 变量之间的关系可以分为两种:一种是函数关系,另一种是相关关系。函数关系是一一对应的确定性关系,比较容易分析和测度。可是在现实世界中,变量间的关系往往并不是简单的确定性关系,也就是说,变量之间有着密切的关系,但又不能由一个或几个变量的值确定另一个变量的值,即当自变量x取某一值时,因变量y的值可能会有多个。这种变量之间的非一一对应的、不确定性的关系,称之为相关关系。 (2) 相关分析基本概念 衡量事物之间,或称变量之间线性相关程度的强弱并用适当的统计指标表示出来,这个过程就是相关分析。相关系数是衡量变量之间相关程度的一个指标,总体的相关系数用表示,样本的相关系数用r表示。,7.1相关分析简介,相关关系的种类,1按相关关系涉及的变量数量分类,2按变量相关关系的表现形式分类,3按变量相关关系变化的方向分类,4按变量相关的程度分类,主要内容,7.1 相关分析简介 7.2 两变量相关分析 7.3 偏相关分析 7.4 距离分析,7.2 两变量相关分析,7.2,1基本概念及统计原理 1.相关系数 (1)皮尔逊(Pearson)相关系数 这是最简单也最常用的相关系数,用于衡量间隔尺度变量间的线性关系。其计算公式如下: 上式只是代表了样本的相关系数,其中,n为样本数,xi, yi 代表两个变量的样本观测值,,7.2,1基本概念及统计原理 1.相关系数 (2)斯皮尔曼(Spearman)相关系数 在进行相关分析的过程中,我们经常会遇到一些不适宜用皮尔逊相关系数的数据,例如,变量的度量尺度不是间隔尺度而是顺序尺度的数据,变量总体的分布不详,这时用皮尔逊相关系数就不再适用。 若两列变量值为顺序尺度的数据(又称为定序数据),并且变量值所属的两个总体并不一定呈正态分布,样本容量不一定大于30,这时两个变量之间的相关性可以通过计算斯皮尔曼相关系数进行分析。斯皮尔曼相关系数的计算公式为 上式中,n为样本容量; ,这里的( ) 是两变量的秩。,7.2 两变量相关分析,7.2 两变量相关分析,7.2,1基本概念及统计原理 1.相关系数 (3)肯德尔tau-b(Kendall )等级相关系数 肯德尔tau-b等级相关系数计算仍基于数据的秩,利用变量的秩计算一致对数目U和非一致对数目V。例如,两变量(xi, yi)的秩对分别为(2,3)、(4,4)、(3,1)、(5,5)、(1,2),对变量x的秩按升序排列后的秩对为(1,2)、(2,3)、(3,1)、(4,4)、(5,5),于是,变量y的秩随变量x的秩同步增大的秩对(一致对)有(2,3)、(2,4)、(2,5)、(3,4)、(3,5)、(1,4)、(1,5)、(4,5),一致对数目U等于8;变量y的秩未随变量x的秩同步增大的秩对(非一致对)有(2,1)、(3,1),非一致对数目V等于2。于是,一致对数目定义为 ,非一致对数目定义为 。显然,当一致对数目较大、非一致对数目较小时,两变量呈较强的正相关;当一致对数目较小、非一致对数目较大时,两变量呈较强的负相关;当一致对数目和非一致对数目接近时,两变量呈较弱的相关关系。 肯德尔tau-b等级相关系数的计算公式为,7.2 两变量相关分析,7.2,1基本概念及统计原理 1.相关系数的显著性检验 (1)皮尔逊相关系数假设检验 检验的原假设是总体相关系数 = 0,即相关系数不显著,在原假设为真的条件下,与样本相关系数有关的t统计量服从自由度为(n- 2)的T分布: SPSS会自动计算T检验统计量的观测值和对应的显著性概率P值,根据P值来判断相关系数的显著性。,7.2 两变量相关分析,7.2,1基本概念及统计原理 1.相关系数的显著性检验 (2)斯皮尔曼相关系数假设检验 检验的原假设也是总体相关系数 = 0,在小样本下,斯皮尔曼相关系数r就是检验统计量,在大样本时,采用正态检验统计量Z统计量,即 式中,Z统计量服从标准正态分布。SPSS将自动计算斯皮尔曼相关系数、Z检验统计量的观测值和对应的概率P值。,7.2 两变量相关分析,7.2.1基本概念及统计原理 1.相关系数的显著性检验 (3)肯德尔tau-b等级相关系数假设检验 检验的原假设也是总体相关系数 = 0,在小样本情况下,肯德尔tau-b等级相关系数 就是检验统计量,在大样本情况下采用的检验统计量为 式中,Z统计量近似服从标准正态分布。SPSS将自动计算肯德尔tau-b等级相关系数、Z检验统计量和对应的概率P值。,7.2 两变量相关分析,7.2.2 两变量相关分析SPSS实例分析 【例7-1】 为了分析父亲与儿子身高之间的相关性,现抽样了12对父子的身高,数据如表7.1所示。请对其进行相关性分析(显著性水平取 = 0.05)。,7.2 两变量相关分析,7.2.2 两变量相关分析SPSS实例分析 第1步 分析。 由于考虑的是父亲和儿子身高的相关性问题,故应用二元变量的相关性进行分析,同时身高是定距变量,考虑用皮尔逊相关系数来衡量。 第2步 数据的组织。 数据分成两列,一列是父亲的身高,变量名为“father”;另一列是儿子的身高,变量名为“son”,输入数据并保存。 第3步 两变量的相关性分析 选择菜单“分析相关双变量”,打开如图7-1所示的对话框,将“father”和“son”两变量移入“变量”框中;“相关系数”选择“皮尔逊”;在“显著性检验”中选择“双尾”;单击“选项(O)”按钮,弹出如图7-2所示的对话框,选中“统计”选项框下的两项,计算结果中将输出均值和标准差、叉积偏差和协方差。,7.2 两变量相关分析,7.2.2 两变量相关分析SPSS实例分析 第4步 主要结果及分析。 (1)描述性统计表 (2)相关分析结果表 下表是相关分析的主要结果,其中包括平方和与叉积、协方差、皮尔逊相关系数及显著性概率P值。从表中可看出,相关系数为0.703 0,说明呈正相关,相关系数的显著性为0.011 0.05,因此应拒绝原假设(H0:两变量之间相关系数为零),即说明儿子身高受父亲身高显著性正影响。从表下的注释可看出,两变量在0.05水平上显著相关。,7.2 两变量相关分析,7.2.2 两变量相关分析SPSS实例分析,7.1 相关分析简介 7.2 两变量相关分析 7.3 偏相关分析 7.4 距离分析,主要内容,7.3 偏相关分析,7.3.1 基本概念及统计原理 1.基本概念 偏相关分析的任务就是在研究两个变量之间的线性相关关系时控制可能对其产生影响的变量,这种相关系数称为偏相关系数。偏相关系数的数值和简单相关系数的数值常常是不同的,在计算简单相关系数时,所有其他自变量不予考虑。在计算偏相关系数时,要考虑其他自变量对因变量的影响,只不过是把其他自变量当作常数处理了。 根据观测资料应用偏相关分析计算偏相关系数,可以判断哪些自变量对因变量的影响较大,而选择作为必须考虑的自变量。至于那些对因变量影响较小的自变量,则可舍去。这样在计算多元回归分析时,只需保留起主要作用的自变量,用较少的自变量描述因变量的平均变动量。偏相关分析在自然科学和社会科学的各个方面都有着非常广泛的应用。,7.3 偏相关分析,7.3.1 基本概念及统计原理 2.统计原理 控制变量为z,变量x、y之间的偏相关系数定义为 上式中, 是在控制z的条件下,x、y之间的偏相关系数; 是变量x、y之间的简单相关系数, 是变量x、z之间的简单相关系数, 是变量y、z之间的简单相关系数。,7.3 偏相关分析,7.3.1 基本概念及统计原理 2.统计原理 当控制两个变量z1、z2时,变量x、y之间的偏相关系数计算公式为 在利用样本研究总体的特性时,由于抽样误差的存在,样本中控制了其他变量的影响,有时可能在样本中两个变量间偏相关系数不为0,但不能说总体中这两个变量间的偏相关系数不为0,因此必须进行检验。检验公式为 上式中,n为观测量数;k为控制变量的数目;n k 2是自由度。,7.3.1 基本概念及统计原理 3分析步骤 偏相关分析的步骤可分为两步: 第1步 根据公式计算偏相关系数。 第2步 对样本来自的两总体是否存在显著性相关进行推断。,7.3 偏相关分析,7.3 偏相关分析,7.3.2 偏相关分析SPSS实例分析 【例7-3】 下表是四川绵阳地区3年生中山柏的生长数据,分析月生长量与月平均气温、月降雨量、月平均日照时数、月平均湿度4个气候因素中哪些因素有关。,7.3 偏相关分析,7.3.2 偏相关分析SPSS实例分析 第1步 分析 这4个气候因素彼此均有影响,分析时应对生长量与4个气候因素分别求偏相关,如在求生长量与气候因素的相关时控制其他因素的影响。然后比较相关系数,按4个气候因素对中山柏生长量影响程度的大小排序,需进行偏相关分析。 第2步 数据组织 分别定义变量“month”(月份)、“hgrow”(生长量(cm)、“temp”(月平均气温()等变量。,7.3 偏相关分析,7.3.2 偏相关分析SPSS实例分析 第3步 进行偏相关分析。 选择菜单“分析相关偏相关”,打开如图7-3所示的对话框,指定分析变量和控制变量,分析变量“hgrow”和“temp”的偏相关系数,并将“rain”、“hsun”、“humi”设为控制变量。在主对话框中使用系统默认的“双尾”检验,“显示实际显著性水平”,具体设置如下图所示,7.3 偏相关分析,7.3.2 偏相关分析SPSS实例分析 第4步 主要结果及分析。 运行结果如下表所示,从中可以看出,月降雨量、月平均日照时数和月平均湿度为控制变量,生长量与月平均气温关系密切,偏相关系数为0.977,双尾检测的显著性概率为0.000(表示趋近于0的正数),明显小于显著性水平0.05。故应拒绝原假设,说明中山柏的生长量与气温间存在显著的相关性。,主要内容,7.1 相关分析简介 7.2 两变量相关分析 7.3 偏相关分析 7.4 距离分析,7.4 距离分析,7.4.1 基本概念及统计原理 1.基本概念 距离分析是对观测量之间(变量之间)相似或不相似程度的一种测量,是计算一对观测量之间(一对变量之间)的广义距离。这些相似性或距离测量可以用于其他分析过程,例如因子分析、聚类分析或多维定标分析,有助于分析复杂的数据集。例如,是否可以根据汽车的一些特性,如发动机的大小、MPG(每加仑汽油所行驶的距离)和马力来测量两种汽车的相似性?通过计算汽车间的相似性,可以对这些汽车获得一些认识,如哪些汽车彼此类似,哪些彼此不同,还可以考虑对相似性使用分层聚类或多元定标分析去探测深层结构。,7.4.1 基本概念及统计原理 2.统计原理 (1)非相似性测量 对定距数据的非相似性(距离)测量可以使用的统计量有:欧氏距离(Euclidean distance)、平方欧氏距离(Squared Euclidean Distance)、切比雪夫距离(Chebychev)、块(Block)距离、明科夫斯基距离(Minkowski)等。 对定序数据,主要使用卡方测量(Chi-Square measure)和Phi平方测量(Phi-Square measure)。 对二值(只有两种取值)数据变量之间的距离描述,使用欧氏距离、平方欧氏距离、大小差、模式差、形状、方差、兰斯-威廉姆斯等距离统计量。,7.4 距离分析,7.4.1 基本概念及统计原理 2.统计原理 (2)相似性测量 两变量之间可以定义相似性测量统计量,用来对两变量之间的相似性进行数量化描述。又分为以下两种: 对于定距数据主要使用皮尔逊(Pearson)相关系数和夹角余弦(Cosine)距离。 对于二元数据的相似性测量主要包括拉塞尔-拉奥(Russell-Rao)、简单匹配系数(Simple matching)、杰卡德(Jaccard)相似性指数、哈曼(Hamann)相似性测量等20余种。,7.4 距离分析,7.4 距离分析,7.4.2 距离分析SPSS实例分析 【例7-4】 已知我国四城市2004年各月的日照时数如下表所示,请分析各城市日照数是否近似。,7.4 距离分析,7.4.2 距离分析SPSS实例分析 第1步 分析。 这是4个城市的日照时数是否相似的问题,可用距离分析法实现,既可以计算其相似性测量,也可以计算其不相似性测量。 第2步 数据组织。 分别定义变量“月份”(用字符型变量)、“北京”、“天津”、“石家庄”、“大连”,输入数据并保存。 第3步 设置距离分析主对话框。 选择菜单“分析相关距离”,弹出如图7-4所示的“距离”对话框,将4个变量(“北京”、“天津”、“石家庄”、“大连”)移入“变量”框中进行相似性测量计算;在“计算距离”组中选中“变量间”单选框,进行变量间的距离分析;在“测量”单选框组中选中“非相似性”,求解其非相似性测量。,7.4 距离分析,7.4.2 距离分析SPSS实例分析 第4步 设置非相似性测量方法。 由于非相似性与相似性测量的方法不同,因此单击“测量(M)”按钮设置测量方法时会弹出不同的对话框。第2步中设置的测量标准是非相似性,单击“测量(M)”按钮弹出如图7-5所示的“距离:非相似性
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 铜陵职业技术学院《文化投资学》2023-2024学年第二学期期末试卷
- 2025年钢筋买卖合同范本
- 天津市职业大学《民航专业英语》2023-2024学年第二学期期末试卷
- 2025至2031年中国微波黄粉虫干燥设备行业投资前景及策略咨询研究报告
- 2025至2031年中国单绳矿井提升机塑料衬板行业投资前景及策略咨询研究报告
- 赶集摊位投标方案范本
- 2025至2031年中国PP-R冷热给水管件行业投资前景及策略咨询研究报告
- 2025至2030年中国高强聚氨酯管托数据监测研究报告
- 2025至2030年中国石油和合成液抗乳化性能测定仪数据监测研究报告
- 2025至2030年中国着色复合母粒数据监测研究报告
- 施工现场应急救援知识
- 医疗AI数据安全-洞察分析
- 饲料行业业务员聘用合同范本
- 电力工程安全教育制度(3篇)
- 人工智能在教学动画设计中的应用与创新路径探究
- VDA-6.3-2016过程审核检查表
- 2025年高级社会工作师考试社会工作实务(高级)试卷及解答参考
- 我的教师专业成长故事
- 民办学校教师招聘与管理制度
- 家装木工安全协议书模板
- 《企业数字化转型研究的国内外文献综述》2300字
评论
0/150
提交评论