版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、散点图与线性相关散点图与线性相关 9.1 相关分析相关分析 9.2 偏相关分析偏相关分析 9.3 任何事物的变化都与其他事物是相互任何事物的变化都与其他事物是相互 联系和相互影响的,用于描述事物数量联系和相互影响的,用于描述事物数量 特征的变量之间自然也存在一定的关系。特征的变量之间自然也存在一定的关系。 变量之间的关系归纳起来可以分为两种变量之间的关系归纳起来可以分为两种 类型,即函数关系和统计关系。类型,即函数关系和统计关系。 当一个变量当一个变量x x取一定值时,另一变量取一定值时,另一变量y y 可以按照确定的函数公式取一个确定的可以按照确定的函数公式取一个确定的 值,记为值,记为y
2、= f(xy = f(x) ),则称,则称y y是是x x的函数,的函数, 也就时说也就时说y y与与x x两变量之间存在函数关系。两变量之间存在函数关系。 又如,某种商品在其价格不变的情况下,又如,某种商品在其价格不变的情况下, 销售额和销售量之间的关系就是一种函销售额和销售量之间的关系就是一种函 数关系:销售额数关系:销售额= =价格价格销售量。销售量。 函数关系是一一对应的确定性关函数关系是一一对应的确定性关 系,比较容易分析和测度,可是在现系,比较容易分析和测度,可是在现 实中,变量之间的关系往往并不那么实中,变量之间的关系往往并不那么 简单。简单。 在医药研究中我们常常要分析变量间在
3、医药研究中我们常常要分析变量间 的关系,如新生儿年龄与体重、血药的关系,如新生儿年龄与体重、血药 浓度与时间关系等。变量之间的关系浓度与时间关系等。变量之间的关系 一般可分为确定性的和非确定性的两一般可分为确定性的和非确定性的两 大类。大类。 我们称这种既有关联又不存在确定性我们称这种既有关联又不存在确定性 的关系为的关系为相关关系相关关系(correlation)。)。 描述变量之间线性相关程度的强弱,并用描述变量之间线性相关程度的强弱,并用 适当的统计指标表示出来的过程为相关分析。适当的统计指标表示出来的过程为相关分析。 可根据研究的目的不同,或变量的类型不同,可根据研究的目的不同,或变量
4、的类型不同, 采用不同的相关分析方法。本章介绍常用的相采用不同的相关分析方法。本章介绍常用的相 关分析方法:二元定距变量的相关分析、二元关分析方法:二元定距变量的相关分析、二元 定序变量的相关分析、偏相关分析和距离相关定序变量的相关分析、偏相关分析和距离相关 分析。分析。 第一节 散点图和线性相关 一、散点图的制作 【Graphs(图形)(图形)】 【Legacy Dialogs(旧对话框)】(旧对话框)】 【Scatter/Dot(散点图点状图)(散点图点状图)】 例例9-1 某研究者测得某研究者测得84名名10岁男孩的身高、坐高、体岁男孩的身高、坐高、体 重、胸围、肩宽、肺活量等重、胸围、
5、肩宽、肺活量等6项生长发育指标进行研项生长发育指标进行研 究,观测数据如表究,观测数据如表9-3所示。对该研究问题可采用相所示。对该研究问题可采用相 关分析的方法进行研究,首先绘制下列散点图。关分析的方法进行研究,首先绘制下列散点图。 (1)绘制身高与体重的简单散点图;)绘制身高与体重的简单散点图; (2)绘制身高与坐高、身高与肩宽的重叠散点图;)绘制身高与坐高、身高与肩宽的重叠散点图; (3)绘制身高、体重与肺活量的散点图矩阵;)绘制身高、体重与肺活量的散点图矩阵; (4)绘制身高、体重与肺活量的三维)绘制身高、体重与肺活量的三维(3D)散点图;散点图; (5)绘制体重的简单点状图。)绘制体
6、重的简单点状图。 相关系数的取值范围在相关系数的取值范围在1 1和和+1+1之间,即之间,即 1r+11r+1。 其中:其中: 若若0 0r1r1,表明变量之间存在正相关,表明变量之间存在正相关 关系,即两个变量的相随变动方向相同;关系,即两个变量的相随变动方向相同; 若若1r1r0 0,表明变量之间存在负相,表明变量之间存在负相 关关系,即两个变量的相随变动方向相反;关关系,即两个变量的相随变动方向相反; 为了判断为了判断r对对的代表性大小,需要对相关的代表性大小,需要对相关 系数进行假设检验。系数进行假设检验。 (1 1)首先假设总体相关性为零,即)首先假设总体相关性为零,即 H H0 0
7、:两总体无显著的线性相关关系。:两总体无显著的线性相关关系。 (2 2)选择检验统计量。对不同类型的变量应选择检验统计量。对不同类型的变量应 采用不同的相关系数,对应也应采用不同的检采用不同的相关系数,对应也应采用不同的检 验统计量。具体内容见后面讨论。验统计量。具体内容见后面讨论。 (3 3)计算相应的)计算相应的p-p-值。值。 (4 4)统计判断。如果相伴概率值小于或等于指)统计判断。如果相伴概率值小于或等于指 定的显著性水平,则拒绝定的显著性水平,则拒绝H H0 0,认为两总体存在,认为两总体存在 显著的线性相关关系;如果相伴概率值大于指显著的线性相关关系;如果相伴概率值大于指 定的显
8、著性水平,则不能拒绝定的显著性水平,则不能拒绝H H0 0,认为两总体,认为两总体 不存在显著的线性相关关系。不存在显著的线性相关关系。 在使用相关系数时,应该注意下面几个问题:在使用相关系数时,应该注意下面几个问题: (1)相关分析之前一般要作散点图以观察可)相关分析之前一般要作散点图以观察可 能的线性趋势以及数据分布条件,从而选挥能的线性趋势以及数据分布条件,从而选挥 恰当的统计量。恰当的统计量。 (2)相关系数受变量取值区间大小及样本数)相关系数受变量取值区间大小及样本数 目多少的影响比较大。一般来说,如果变量目多少的影响比较大。一般来说,如果变量 取值区间小,样本所含数目较少,受抽样误
9、取值区间小,样本所含数目较少,受抽样误 差的影响较大,就有可能对本来无关的两种差的影响较大,就有可能对本来无关的两种 现象,计算出较大的相关系数,得出错误的现象,计算出较大的相关系数,得出错误的 结论。因此,一般计算相关的成对数据的数结论。因此,一般计算相关的成对数据的数 目不应少于目不应少于30对。对。 (3)来自于不同群体且不同质的事物的)来自于不同群体且不同质的事物的 相关系数不能进行比较。相关系数不能进行比较。 (4)对于不同类型的变量数据,计算相)对于不同类型的变量数据,计算相 关系数的方法也不相同。关系数的方法也不相同。 在二元变量的相关分析过程中比较在二元变量的相关分析过程中比较
10、 常用的几个相关系数是常用的几个相关系数是PearsonPearson简单相简单相 关系数、关系数、SpearmanSpearman和和Kendalls tua-bKendalls tua-b 等级相关系数。等级相关系数。 二、常用的不同类型相关系数指标二、常用的不同类型相关系数指标 (一)(一)Pearson相关系数相关系数 Pearson相关系数用来度量两数值型变量相关系数用来度量两数值型变量 间的线性相关性。其定义为间的线性相关性。其定义为 1 22 11 ()() ()() n ii i nn ii ii xxyy r xxyy 由此可进一步得知由此可进一步得知Pearson相关系数还
11、可以相关系数还可以 表示为表示为 1 1 ()() n ii i xy xxyy r nSS Pearson相关系数的显著性检验的统计量是相关系数的显著性检验的统计量是 服从自由度为服从自由度为n2的的t分布的分布的t统计量:统计量: SPSS将自动计算将自动计算Pearson简单相关系数、简单相关系数、t检检 验统计量的值和对应的概率验统计量的值和对应的概率P值。值。 2 2 1 rn t r - = - PearsonPearson简单相关系数用来衡简单相关系数用来衡 量量定距变量间定距变量间的线性关系。的线性关系。例如,例如, “年龄年龄”变量、变量、“收入收入”变量、变量、 “成绩成绩
12、”变量等都是典型的定距变量等都是典型的定距 变量。变量。 如衡量国民收入和居民储蓄存款、如衡量国民收入和居民储蓄存款、 身高和体重、高中成绩和高考成身高和体重、高中成绩和高考成 绩等变量间的线性相关关系可用绩等变量间的线性相关关系可用 PearsonPearson简单相关系数。简单相关系数。 (二)(二)Spearman相关系数相关系数 Spearman相关系数(又称等级相关系数)用来度相关系数(又称等级相关系数)用来度 量定序(等级)变量间的线性相关关系。它是利用量定序(等级)变量间的线性相关关系。它是利用 两变量的秩次(两变量的秩次(rank)大小作线性相关分析。)大小作线性相关分析。 1
13、 22 11 ()() ()() n ii i R nk ii ii uuvv r uuvv 该公式还可简化为该公式还可简化为 2 1 2 1 (1) n i i R D r n n Spearman相关系数适用条件为相关系数适用条件为 (1)两个变量的变量值是以等级次序(秩次)两个变量的变量值是以等级次序(秩次) 表示的数据资料;。表示的数据资料;。 (2)一个变量的变量值是等级(定序)数据,)一个变量的变量值是等级(定序)数据, 另一个变量的变量值是等距或比率数据,另一个变量的变量值是等距或比率数据, 且其两总体不要求是正态分布,样本容量且其两总体不要求是正态分布,样本容量n 不一定大于不
14、一定大于30。 在小样本时,在零假设成立时在小样本时,在零假设成立时Spearman等等 级相关系数服从级相关系数服从Spearman分布;分布; 在大样本下,在大样本下,Spearman等级相关系数的检等级相关系数的检 验统计量为近似服从标准正态分布的验统计量为近似服从标准正态分布的Z统计统计 量:量: 1Zr n 对于定序变量,例如,对于定序变量,例如,“最高学历最高学历”变量变量 的的 取值是:取值是:1小学及以下、小学及以下、2初中、初中、3高中、高中、 中专、技校、中专、技校、4大学专科、大学专科、5大学本科、大学本科、 6研究生以上。可以使用研究生以上。可以使用Spearman相关
15、系相关系 数来分析。数来分析。 显然,显然,Spearman相关系数的应用范围要比相关系数的应用范围要比 Pearson相关系数广泛,即使服从相关系数广泛,即使服从Pearson 相关系数的数据也可计算相关系数的数据也可计算Spearman相关系相关系 数,但统计效能比数,但统计效能比Pearson相关系数要低相关系数要低 些。些。Spearman相关系数的突出优点是对数相关系数的突出优点是对数 据的总体分布、样本大小都可以不作要求,据的总体分布、样本大小都可以不作要求, 缺点是计算精度不高。缺点是计算精度不高。 (三)(三)Kendall 相关系数相关系数 Kendall 相关系数用于反映分
16、类变量相关性的指相关系数用于反映分类变量相关性的指 标,适用于两个变量均为有序分类的情形,这种指标,适用于两个变量均为有序分类的情形,这种指 标采用非参数检验方法测度变量间的相关关系。标采用非参数检验方法测度变量间的相关关系。 P为一致对子数、为一致对子数、Q为不一致对子数为不一致对子数 一致即行变量等级高列变量等级也高。一致即行变量等级高列变量等级也高。 (1)/ 2 PQ n n 在小样本下,在小样本下,Kendall 统计量服从统计量服从 Kendall分布。分布。 在大样本下采用近似服从标准正态分布的在大样本下采用近似服从标准正态分布的Z 检验统计量:检验统计量: 9 (1) 2(25
17、) n n Z n 三、相关分析的SPSS操作 例例9-2 对例对例9-1中所考察的中所考察的84名名10岁男岁男 孩的身高等孩的身高等6项生长发育指标数据项生长发育指标数据,试作相关分析,试作相关分析, 考察这些变量指标间是否具有显著的考察这些变量指标间是否具有显著的 线性相关关系。线性相关关系。 研究问题研究问题1 1(Pearson相关系数相关系数) 【Analyze(分析)(分析)】 【Correlate(相关)(相关)】 【Bivariate(两变量间相关)(两变量间相关)】 系统会弹出系统会弹出【Bivariate Correlation(两(两 变量间相关)】主对话框,用于设定进
18、行变量间相关)】主对话框,用于设定进行 相关分析的变量等。相关分析的变量等。 研究问题(研究问题(Pearson相关系数相关系数) 某班级学生数学和化学的期末某班级学生数学和化学的期末 考试成绩如表考试成绩如表6-16-1所示,现要研究该所示,现要研究该 班学生的数学和化学成绩之间是否具班学生的数学和化学成绩之间是否具 有相关性。有相关性。 人人 名名数数 学学化化 学学 hxh99.0090.00 yaju88.0099.00 yu65.0070.00 shizg89.0078.00 hah94.0088.00 smith90.0088.00 watet79.0075.00 jess95.0
19、098.00 wish95.0098.00 laly80.0099.00 john70.0089.00 chen89.0098.00 david85.0088.00 caber50.0060.00 marry87.0087.00 joke87.0087.00 jake86.0088.00 herry76.0079.00 实现步骤实现步骤 结果和讨论结果和讨论 如果对变量之间的相关程如果对变量之间的相关程 度不需要掌握得那么精确,可度不需要掌握得那么精确,可 以通过绘制变量的相关散点图以通过绘制变量的相关散点图 来直接判断。仍以上例来说明。来直接判断。仍以上例来说明。 研究问题(研究问题( )
20、某语文老师先后两次对其班级学生同一篇某语文老师先后两次对其班级学生同一篇 作文加以评分,两次成绩分别记为变量作文加以评分,两次成绩分别记为变量“作文作文 1”1”和和“作文作文2”2”,数据如表,数据如表6-26-2所示。问两次所示。问两次 评分的等级相关有多大,是否达到显著水平?评分的等级相关有多大,是否达到显著水平? 人人 名名作作 文文 1作作 文文 2 hxh86.0083.00 yaju78.0082.00 yu62.0070.00 shizg75.0073.00 hah89.0092.00 smith67.0065.00 watet96.0093.00 jess80.0085.00
21、 wish77.0075.00 laly59.0065.00 john79.0075.00 chen68.0070.00 david85.0080.00 caber87.0075.00 marry75.0080.00 joke73.0078.00 jake95.0090.00 herry88.0090.00 实现步骤实现步骤 结果和讨论结果和讨论 二元变量的相关分析在一些情况下无法较二元变量的相关分析在一些情况下无法较 为真实准确地反映事物之间的相关关系。例如,为真实准确地反映事物之间的相关关系。例如, 在研究某农场春季早稻产量与平均降雨量、平在研究某农场春季早稻产量与平均降雨量、平 均温度之
22、间的关系时,产量和平均降雨量之间均温度之间的关系时,产量和平均降雨量之间 的关系中实际还包含了平均温度对产量的影响。的关系中实际还包含了平均温度对产量的影响。 同时平均降雨量对平均温度也会产生影响。在同时平均降雨量对平均温度也会产生影响。在 这种情况下,单纯计算简单相关系数,显然不这种情况下,单纯计算简单相关系数,显然不 能准确地反映事物之间地相关关系,而需要在能准确地反映事物之间地相关关系,而需要在 剔除其他相关因素影响的条件下计算相关系数。剔除其他相关因素影响的条件下计算相关系数。 偏相关分析正是用来解决这个问题的。偏相关分析正是用来解决这个问题的。 定义:偏相关分析是指当两个变量同时与定
23、义:偏相关分析是指当两个变量同时与 第三个变量相关时,将第三个变量的影响剔除,第三个变量相关时,将第三个变量的影响剔除, 只分析另外两个变量之间相关程度的过程。只分析另外两个变量之间相关程度的过程。 偏相关分析也称偏相关分析也称净相关分析净相关分析 偏相关分析的工具是计算偏相关系数偏相关分析的工具是计算偏相关系数 r r12 12,3 3。 一、一、 统计学上的定义和计算公式统计学上的定义和计算公式 利用偏相关系数进行变量间净关系分析通利用偏相关系数进行变量间净关系分析通 常需要完成以下两大步骤:常需要完成以下两大步骤: 第一,计算样本的偏相关系数。第一,计算样本的偏相关系数。 第二,对样本来
24、自的两总体是否存在显著的第二,对样本来自的两总体是否存在显著的 净相关进行检验推断。净相关进行检验推断。 净相关显著性检验的基本步骤是:净相关显著性检验的基本步骤是: (1)提出零假设)提出零假设H0:两总体的偏相关系数:两总体的偏相关系数 为为0,即相关性不显著。,即相关性不显著。 (2)选择偏相关分析的)选择偏相关分析的t检验统计量:检验统计量: (3)计算检验统计量的观测值和对应的概率)计算检验统计量的观测值和对应的概率 P值。值。 (4)统计判断。如果概率)统计判断。如果概率P值小于给定的显值小于给定的显 著性水平著性水平 ,应拒绝零假设,认为两总体的,应拒绝零假设,认为两总体的 偏相
25、关系数与偏相关系数与0有显著差异,相关性显著;有显著差异,相关性显著; 反之,如果概率反之,如果概率P值大于给定的显著性水平值大于给定的显著性水平 ,则不拒绝零假设,可以认为两总体的偏,则不拒绝零假设,可以认为两总体的偏 相关系数与相关系数与0无显著差异无显著差异, 相关性不显著。相关性不显著。 二、偏相关分析的二、偏相关分析的SPSS操作应用操作应用 研究问题研究问题1 1 例例9-2 对例对例9-1中研究的中研究的84名名10岁男孩岁男孩6 项生长发育指标数据,试进行扣除了身项生长发育指标数据,试进行扣除了身 高的影响时坐高、肩宽与肺活量之间的高的影响时坐高、肩宽与肺活量之间的 偏相关分析
26、。偏相关分析。 表表9-18 偏相关系数偏相关系数Correlations Control Variables坐高坐高肩宽肩宽肺活量肺活量 身高身高坐高坐高Correlation1.000-.022.087 Significance (2- tailed) .845.434 df08181 肩宽肩宽Correlation-.0221.000.362 Significance (2- tailed) .845.001 df81081 肺活量肺活量Correlation.087.3621.000 Significance (2- tailed) .434.001. df81810 研究问题研究问题
27、2 2 某农场通过试验取得某农作某农场通过试验取得某农作 物产量与春季降雨量和平均温度物产量与春季降雨量和平均温度 的数据,如表的数据,如表6-36-3所示。现求降雨所示。现求降雨 量对产量的偏相关。量对产量的偏相关。 产产 量量降降 雨雨 量量温温 度度 150.0025.006.00 230.0033.008.00 300.0045.0010.00 450.00105.0013.00 480.00111.0014.00 500.00115.0016.00 550.00120.0017.00 580.00120.0018.00 600.00125.0018.00 600.00130.0020
28、.00 实现步骤实现步骤 结果和讨论结果和讨论 一、一、 统计学上的定义和计算公式统计学上的定义和计算公式 距离相关分析是对观测量之间或变量之间距离相关分析是对观测量之间或变量之间 相似或不相似的程度的一种测量。距离相关分相似或不相似的程度的一种测量。距离相关分 析可用于同一变量内部各个取值间,以考察其析可用于同一变量内部各个取值间,以考察其 相互接近程度;也可用于变量间,以考察预测相互接近程度;也可用于变量间,以考察预测 值对实际值的拟合优度。值对实际值的拟合优度。 距离相关分析的结果可以用于其他分析过距离相关分析的结果可以用于其他分析过 程。例如,因子分析、聚类分析等,有助于分程。例如,因
29、子分析、聚类分析等,有助于分 析复杂的数据集合。析复杂的数据集合。 距离相关分析根据统计量不同,分为以下距离相关分析根据统计量不同,分为以下 两种。两种。 不相似性测量:通过计算样本之间或不相似性测量:通过计算样本之间或 变量之间的距离来表示。变量之间的距离来表示。 相似性测量:通过计算相似性测量:通过计算PearsonPearson相关系相关系 数或数或CosineCosine相关来表示。相关来表示。 距离相关分析根据分析对象不同,分为以距离相关分析根据分析对象不同,分为以 下两种。下两种。 样本间分析:样本和样本之间的距离样本间分析:样本和样本之间的距离 相关分析。相关分析。 变量间分析:
30、变量和变量之间的距离变量间分析:变量和变量之间的距离 相关分析。相关分析。 在不相似性测量的距离分析中,根据不同在不相似性测量的距离分析中,根据不同 类型的变量,采用不同的统计量进行计算。类型的变量,采用不同的统计量进行计算。 (1 1)对连续变量的样本)对连续变量的样本 (x,y(x,y) ) 进行距进行距 离相关分析时,常用的统计量有以下几种。离相关分析时,常用的统计量有以下几种。 二、二、 SPSS中实现过程中实现过程 距离相关分析分为相似性测量和不相似性距离相关分析分为相似性测量和不相似性 测量,也可分为样本间分析和变量间分析。下测量,也可分为样本间分析和变量间分析。下 面分别对这面分
31、别对这4 4种情况进行讲解。种情况进行讲解。 研究问题研究问题1 1变量之间的相似性测量分析变量之间的相似性测量分析 对对6 6个标准电子元件的电阻(欧姆)进行个标准电子元件的电阻(欧姆)进行 3 3次平行测试,测得结果如表次平行测试,测得结果如表6-46-4所示。问测试所示。问测试 结果是否一致。结果是否一致。 123456 第一次第一次0.1400.1380.1430.1410.1440.137 第二次第二次0.1350.1400.1420.1360.1380.140 第三次第三次0.1410.1420.1370.1400.1420.143 实现步骤实现步骤 研究问题研究问题3 3个案之间
32、的相似性测量分析个案之间的相似性测量分析 某动物一次产下某动物一次产下3 3个幼仔,分别对个幼仔,分别对3 3个幼个幼 仔的长、体重、四肢总长、头重进行测量,试仔的长、体重、四肢总长、头重进行测量,试 就这几个测量而言,分析就这几个测量而言,分析3 3个幼仔的相似性,个幼仔的相似性, 数据如表数据如表6-56-5所示。所示。 长长体体 重重四四 肢肢 总总 长长头头 重重 第一个第一个5021510011 第二个第二个5122011012 第三个第三个5222011212 实现步骤实现步骤 研究问题研究问题4 4个案之间的不相似性测个案之间的不相似性测 量分析量分析 以问题以问题3 3中的数据为例,求幼仔的不相似程中的数据为例,求幼仔的不相似程 度(距离)。度(距离)。 实现步骤实现步骤 6.5.3 结果和讨论结
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二四年度现代农业项目融资借款合同3篇
- 2024年度高端服装品牌代理与分销合同2篇
- 2024年农业节水灌溉装置安装合同3篇
- 2024年户外运动场所租赁合同范本版B版
- 暖通空调工程招标合同三篇
- 2024年度量子计算机技术转让合同3篇
- 二零二四年高档住宅区门窗安装工程合同2篇
- 2024年出租汽车服务标准合同模板
- 2024年专属:高级管理人员聘用协议3篇
- 2024年版教育软件开发与授权许可合同6篇
- 行政复议法-形考作业4-国开(ZJ)-参考资料
- 严重精神障碍患者随访服务记录表
- 强化学习 课件 第5章 强化学习的实验环境与工具
- 经济学仿真模拟实训报告
- 零星项目维修服务方案设计
- 介入手术术后护理
- (高清版)DZT 0388-2021 矿区地下水监测规范
- 直播带货主播培训课件
- 新潮传媒行业分析
- 2023-2024学年高考英语专项真题练习-名词性从句(附解析)
- 消防工程投标方案(技术标)
评论
0/150
提交评论