相关分析精品课件_第1页
相关分析精品课件_第2页
相关分析精品课件_第3页
相关分析精品课件_第4页
相关分析精品课件_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、关于相关分析第一张,PPT共五十三页,创作于2022年6月事物之间的联系总是错综复杂的,任何事物的变化与其它事物是相互联系和相互影响的。事物之间的关系可分为两类,一类是函数关系,一类是统计关系。所谓函数关系指的是两事物之间的一种一一对应的关系,即当一个变量 取一定值时,另一变量 可以依确定的函数取唯一确定的值。另一类普遍存在的关系是统计关系。统计关系指的是两事物之间的一种非一一对应关系,即当一个变量 取一定值时,另一变量 无法依确定的函数取唯一确定的值,例如,家庭收入和支出、子女身高和父母身高之间的关系等。第二张,PPT共五十三页,创作于2022年6月事物之间的函数关系比较容易分析和测度,而事

2、物之间的统计关系却不像函数关系那样直接,但确实普遍存在,并且有的关系强,有的关系弱,程度各有差异。如何测度事物间统计关系的强弱是人们关注的问题。相关分析和回归分析是以不同的方式测度事物间统计关系的非常有效的工具。相关分析通过图形和数值两种方式,能够有效地揭示事物之间统计关系的强弱程度。在进行相关分析的时候,散点图是非常重要的工具,分析前最好用绘制散点图,已初步判断变量之前是否存在相关趋势,该趋势是否为直线趋势,忽视散点图的作用直接进行相关分析很可能得出错误结论。虽然散点图比较形象直观,但不是很精确。相关分析更精确的方法是通过统计指标描述变量之间的关系。比较常见的是相关系数。第三张,PPT共五十

3、三页,创作于2022年6月8.2.1散点图含义绘制散点图是相关分析过程中极为常用且非常直观的分析方式。它将数据以点的形式在直角平面上。通过观察散点图能够直观地发现变量间的统计关系以及它们的强弱程度和数据对的可能走向,在实际分析中,散点图经常表现出某些特定的形式。如极大多数的是数据点组成类似于橄榄球的形状,或集中形成一根棒状,而剩余的少数数据点则零散地分布在四周,通常橄榄球和棒状代表了数据对的主要结构和特征,可以利用曲线将这种主要结构的轮廓描述出来,使数据的主要特征更突显。第四张,PPT共五十三页,创作于2022年6月绘制散点图的基本操作步骤如下:1选择菜单图形 旧对话框 散点图,出现如下图的对

4、话框。第五张,PPT共五十三页,创作于2022年6月2 选择散点图的类型。SPSS提供了5种类型的散点图。3 根据所选择的散点图类型,比如选择【简单散点图】,单击【定义】出现如图8-2的对话框第六张,PPT共五十三页,创作于2022年6月简单散点图是表示一对变量间统计关系的散点图。应定义的选项主要有:指定某个变量为散点图的纵轴变量,选【Y轴(Y)】框中。指定某个变量为散点图的横轴变量,选【Y轴(Y)】框中。可指定作为分组的变量到【设置标记】 框中,表示按该变量的不同取值将样本数据分成若干组,并在一张图上分别以不同颜色绘制个散点图。该项可以省略。可指定标记变量到【标注个案】框中,表示将标记变量的

5、各变量标记在散点图的相应点的旁边。该项可以省略。 不同类型的散点图具体的定义选项略有差别,相关分析主要用简单散点图。其他四种类型的散点图在第十章图形制作中再做具体介绍。第七张,PPT共五十三页,创作于2022年6月例8.1某科学基金会的管理人员欲分析从事数学研究工作的中等或较高水平的数学家的年工资额y与他们的研究成果的质量指标x1,从事研究工作的时间x2以及能够获得资助x3的指标之间的关系,调查了24位数学家,得到如表8-1数据.试绘制出简单散点图。第八张,PPT共五十三页,创作于2022年6月yx1x2x333.23.59440.35.320638.75.1185.946.85.8336.4

6、41.44.231537.56136.7396.8257.540.75.530630.13.153.552.97.247838.24.525531.84.9115.843.38238.344.16.535742.86.6397.433.63.7214.334.26.277487407.6384354.935.94.523540.45.9336.436.85.6276.145.24.8345.535.13.9154.4表8-1 24位数学家相关数据第九张,PPT共五十三页,创作于2022年6月具体操作步骤:1选择菜单图形 旧对话框 散点图,出现如图8-1的对话框。2选择散点图的类型【简单散点图】

7、。3单击【定义】,出现如图8-2的对话框,把左侧“数学家的年工资”指定到右侧【Y轴】中,把“研究工作时间”指定到【X轴】中。得到如图8-3的散点图,从散点图中可以看出,研究工作时间与年工资具有较强的相关关系。第十张,PPT共五十三页,创作于2022年6月第十一张,PPT共五十三页,创作于2022年6月虽然散点图能够直观展现变量之间的统计关系,但并不精确。相关系数则以数值的方式精确地反映了两个变量间线性相关的强弱程度。利用相关关系进行变量间线性关系的分析通常需要完成以下两大步骤:第一,计算样本相关系数 。利用样本数据计算样本相关系数。样本相关系数反映了两变量间线性相关程度的强弱。对不同类型的变量

8、应采用不同的相关关系指标,但它们的取值范围和含义都是相同的第十二张,PPT共五十三页,创作于2022年6月 相关系数 的取值在-1至+1之间。 表示两变量存在正的线性相关关系; 表示两变量存在负的线性相关关系。 表示两变量存在完全正相关关系; 表示两变量存在完全负相关关系; 表示两变量不存在线性相关关系。 表示两变量之间具有较强的线性关系; 表示两变量之间具有较弱的线性关系。第十三张,PPT共五十三页,创作于2022年6月第二,对样本来自的两总体是否存在显著的线性关系进行推断。由于存在抽样的随机性和样本量可能较小等原因,通常样本相关关系数不能直接用来说明样本来自的两总体是否具有显著的线性相关性

9、,而需要通过假设检验的方式对样本来自的总体是否存在显著的线性相关进行统计推断。第十四张,PPT共五十三页,创作于2022年6月基本步骤是:提出零假设,即两总体无线性相关性。选择检验统计量。对不同类型的变量应采用不同的相关系数,对应也应采用不同的检验统计量。计算检验统计量的观测值和对应的概率 值。决策。如果检验统计量的概率 值小于给定的显著性水平 ,应拒绝零假设,认为两总体间存在显著的线性相关性;反之,如果检验统计量的概率 值大于给定的显著性水平 ,则不能拒绝零假设,可以认为两总体不存在显著的线性相关性。 对不同类型的变量应采用不同的相关系数来度量,常用相关系数Pearson 简单相关系数、Sp

10、earman相关系数和Kendall 相关等。第十五张,PPT共五十三页,创作于2022年6月Pearson 简单相关系数用来度量两定距型变量间的线性相关性。如测度收入和储蓄、身高和体重、工龄和收入等变量间的线性相关关系时可用Pearson 简单相关系数,它的数学定义为 (8.1)第十六张,PPT共五十三页,创作于2022年6月 为样本数, 和 分别为两变量的变量值 进一步得知简单相关系数也即 (8.2)第十七张,PPT共五十三页,创作于2022年6月Pearson 简单相关系数的检验统计量为 统计量,其数学定义为SPSS将自动计算Pearson 简单相关系数、 检验统计量的观测值和对应的概率

11、 值。第十八张,PPT共五十三页,创作于2022年6月 Spearman等级相关系数用来度量定序变量间的线性相关关系。该系数的设计思想与Pearson 简单相关系数完全相同,仍然可依照式(8.1)计算,相应的指标特征也相似。然而在计算Spearman等级相关系数时,由于数据为非定距的,因此计算时并不直接采用原始数据 ,而是利用数据的秩,即将两变量的秩 代替 代入式(8.1)中,于是其中的 和 的取值范围被限制在1至 n 之间, 第十九张,PPT共五十三页,创作于2022年6月且式(8.1)可被简化为其中第二十张,PPT共五十三页,创作于2022年6月小样本下,在零假设成立时Spearman等级

12、相关系数服从Spearman分布;在大样本,Spearman等级相关系数的检验统计量为 统计量,其数学定义为第二十一张,PPT共五十三页,创作于2022年6月 Kendall 相关采用非参数检验方法用来度量定序变量间的线性相关关系。它利用变量秩数据计算一致对数目 (U) 和非一致对数目(V)第二十二张,PPT共五十三页,创作于2022年6月在小样本下Kendall 服从Kendall 分布在大样本下采用的检验统计量为 统计量近似服从标准正态分布SPSS将自动计算Kendall 相关、 检验统计量的观测值和对应的概率 P值。第二十三张,PPT共五十三页,创作于2022年6月在利用SPSS计算两变

13、量间的相关系数之前应按一定格式组织好数据,应定义两个SPSS变量分别存放相应两变量的变量值。 计算相关系数的基本操作步骤是:1 选择菜单中分析相关双变量。如图8-42 选择参加计算相关系数的变量到【变量】框。3 在 【相关系数】 框中选择计算哪种相关系数。第二十四张,PPT共五十三页,创作于2022年6月4 在【显著性检验】 框中选择输出相关系数检验的双侧检验的概率值还是单侧检验的概率 值。5 选中【标记显著性相关】 选项表示分析结果中除显示统计检验的概率 值以外,还输出星号标记,以标明变量间的相关性是否显著;不选中则不输出星号标记。6 在 【选项】 按钮中的【统计量】 选项中,若选中叉积偏差

14、和协方差,表示输出各变量的离差平方和、样本方差、两变量的叉积离差和协方差。如图8-5所示第二十五张,PPT共五十三页,创作于2022年6月第二十六张,PPT共五十三页,创作于2022年6月第二十七张,PPT共五十三页,创作于2022年6月例8.2 以下是29名中学生的编号、身高、体重和肺活量数据,求身高、体重和肺活量之间的Pearson相关系数以及Spearman相关系数第二十八张,PPT共五十三页,创作于2022年6月第二十九张,PPT共五十三页,创作于2022年6月具体操作步骤:1、按照顺序分析分析相关双变量。如图8-42、在【双变量相关分析】框中,选择“身高”“体重”“肺活量”到【变量框

15、】。在【相关系数】中选择Pearson以及Spearman,在【显著性检验】中选择 双侧检验 。3、选中 【标记显著性相关】4、在 【选项】 按钮中的 【统计量】 选项中将两个选项选中如图8-5分析结果如表8-3,8-4,8-5所示第三十张,PPT共五十三页,创作于2022年6月表8-3给出了身高、体重、肺活量的描述性统计分析第三十一张,PPT共五十三页,创作于2022年6月表8-4给出了Pearman相关系数,从表中可以看出,在0.01的显著性水平下,身高、体重、肺活量显著相关。第三十二张,PPT共五十三页,创作于2022年6月表8-5,给出了Spearman相关系数,从表中可以看出,在0.

16、01的显著性水平下,身高、体重、肺活量显著相关。第三十三张,PPT共五十三页,创作于2022年6月8.4.1 偏相关分析和偏相关系数 相关分析中研究两事物之间的线性相关性是通过计算相关系数等方式实现,并通过对相关系数值得大小来判定事物之间的线性相关强弱。然而,就相关系数本身来讲,它未必是两事物间线性相关强弱的真实体现,往往有夸大的趋势。第三十四张,PPT共五十三页,创作于2022年6月单纯利用相关系数来评价变量间的相关显然是不准确的,而需要在剔除其他因素影响的条件下计算变量间的相关。偏相关分析的意义就在于此。偏相关分析也净相关分析,它在控制其他变量的线性影响的条件下分析两变量间的线性相关,所采

17、用的工具是偏相关系数(净相关关系)。控制变量个数为一时,偏相关系数称为一阶偏相关;当控制变量个数为两个时,偏相关系数称为二阶偏相关;当控制变量个数为零个时,偏相关系数称为零阶偏相关,也就是相关系数。第三十五张,PPT共五十三页,创作于2022年6月利用偏相关系数进行变量间净关系分析通常需要完成以下两大步骤:第一 计算样本的偏相关系数利用样本数据计算样本的偏相关系数,它反映了两变量间净相关的程度强弱。在分析变量 和 之间的净相关时,当控制了 的线性作用后, 和 之间的一阶偏自相关系数定义为第三十六张,PPT共五十三页,创作于2022年6月第二,对样本来自的两总体是否存在显著的净相关进行推断净相关

18、分析检验的基本步骤是1 提出零假设2 选择检验统计量3 决策4 计算检验统计量的观测值和对应的概率 P值。第三十七张,PPT共五十三页,创作于2022年6月在利用SPSS进行偏相关分析前应按一定格式组织好数据,应定义若干个SPSS变量分别存放相应变量的变量值。偏相关分析的基本操作步骤是:1 选择菜单分析相关偏相关。如图8-62 选择参与分析的变量到【变量】框中。3 选择一个或多个控制变量到 【控制】 框中。第三十八张,PPT共五十三页,创作于2022年6月第三十九张,PPT共五十三页,创作于2022年6月4 在 【显著性检验】 框中选择输出相关系数检验的双侧检验概率 P值还是单侧检验概率P值。

19、5 在 【选项】 按钮中的 【统计量】 选项中,选中 【零阶相关相关系数】 表示输出零阶偏相关系数。如图8-7至此,SPSS将自动进行偏相关分析和统计检验,并将结果输出到输出窗口。第四十张,PPT共五十三页,创作于2022年6月第四十一张,PPT共五十三页,创作于2022年6月例8.4 以例8.2为例,求分别以体重和身高为控制变量的偏相关系数。具体操作如图8-6,8-7,分析结果如表8-9,8-10第四十二张,PPT共五十三页,创作于2022年6月表8-9给出了以体重为控制变量的偏相关系数,控制体重后,身高与肺活量的相关系数变为0.102,P值为0.607,没有显著的统计意义,与无控制变量的零

20、阶相关系数0.599相差很大。第四十三张,PPT共五十三页,创作于2022年6月表8-10给出了以身高为控制变量的偏相关系数,控制身高后,体重与肺活量的相关系数变为0.571,与零阶相关系数0.751有下降,但仍有统计意义。第四十四张,PPT共五十三页,创作于2022年6月8.5.1距离相关分析的思想简单相关分析以及偏相关分析研究的都是变量之间的线性相关关系,但是在现实生活中,有很多情况下,变量之间的关系可能不是线性关系。且无论在简单相关分析还是偏相关分析中,我们关心的都是某两个变量的相关性,但实际问题往往比较复杂,涉及的变量很多,且每个变量所代表的信息有可能重叠,此时,可以通过距离相关分析,考察他们之间是否具有相似性进而研究其相互关系。第四十五张,PPT共五十三页,创作于2022年6月距离相关分析是对样品或者变量之间相似或不相似程度的一种度量,计算的是一种广义距离。距离相关分析可以用于度量样品之间的相互接近的程度也可用于度量变量之间的相互接近程度。但距离相关分析一般不单独使用,而是作为聚类分析,因子分析等统计方法的预分析过程,探测复杂数据的内在结构,以得到初步的分析线索,为进一步分析做准备。距离相关分析根据统计量的不同,分为不相似性测度,是通过计算距离来表示的,其数值越大,表示相似的程度就越弱,对于相似

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论