SPSS第十四讲偏相关性分析精讲_第1页
SPSS第十四讲偏相关性分析精讲_第2页
SPSS第十四讲偏相关性分析精讲_第3页
SPSS第十四讲偏相关性分析精讲_第4页
SPSS第十四讲偏相关性分析精讲_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计软件第十四讲偏相关分析第十四讲偏相关分析第一部分Excel与SPSS方式对比其次部分偏相关分析的概念第三部分偏相关分析的SPSS过程第四部分距离分析相关分析的Excel方式例:一家大型商业银行在多个地区设有分行,其业务主要是进行基础设施建设、国家重点项目建设、固定资产投资等项目的贷款。近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的提高,这给银行业务的发展带来较大压力。为弄清晰不良贷款形成的缘由,管理者希望利用银行业务的有关数据做些定量分析,以便找出限制不良贷款的方法。下表就是该银行所属的25家分行2002年的有关业务数据。散点图Spss结果比较偏相关分析在多变量的状况下,变量之间的相关关系是很困难的。因此,多元相关分析除了要利用上一讲的简洁相关系数外,还要计算偏相关系数。在对其他变量的影响进行限制的条件下,衡量多个变量中某两个变量之间的线性相关程度的指标称为偏相关系数。

偏相关系数与简洁相关系数区分在计算简洁相关系数时:只须要驾驭两个变量的观测数据,并不考虑其他变量对这两个变量可能产生的影响。在计算偏相关系数时:须要驾驭多个变量的数据,一方面考虑多个变量相互之间可能产生的影响,一方面又接受确定的方法限制其他变量,特地考察两个特定变量的净相关关系。变量1变量2关系变量1变量2关系变量3限制例:在现实经济生活中,由于收入和价格常常都有不断提高的趋势,假如不考虑收入对需求的影响,仅仅利用需求和价格的时间序列数据去计算简洁相关系数,就有可能得出价格越高需求越大的错误结论。价格需求量收入水平上升未知上升还是下降呢?关系?偏相关分析的公式表达在偏相关中,依据固定变量数目的多少,可分为零阶偏相关、一阶偏相关、…、(p-1)阶偏相关。零阶偏相关就是简洁相关。假如用下标0代表Y,下标1代表X1,下标2代表X2,则变量Y与变量X1之间的一阶偏相关系数为:r01.2是剔除X2的影响之后,Y与X1之间的偏相关程度的度量。r01,r02,r12分别是Y,X1,X2两两之间的相关系数。假如增加变量X3,则变量Y与X1的二阶偏相关系数为:依此类推变量Y与Xi的p-1阶偏相关系数为:第四部分偏关分析的SPSS过程SPSS中相关分析可以通过Analyze菜单进行(Correlate),Correlate菜单如图所示。选择其中其次个子菜单进入到偏相关分析界面(Partial…)第一步:录入数据,打开偏相关分析对话框。其次步:将对话框中左侧的变量列表框中选择两个变量,作为相关变量,移入Variables列表框中;选择一个限制变量移入Controllingfor列表框中第三步:选择检验类型。变量窗口显著性检验:双尾检验(默认)单尾检验(相关方向明显时)显示相关系数时,显示实际的显著性概率相关变量限制变量第四步:打开OPTION选项框。均值与标准差,即显示每个变量的均值、标准差和非缺失值的例数显示零阶相关矩阵,即Pearson相关矩阵仅剔除当前分析的两个变量值是缺失值的个案剔除带有缺失值的全部个案已知有某河流的一年月平均流量观测数据和该河流所在地区当年的月平均雨量和月平均温度观测数据,如表所示。试分析温度与河水流量之间的相关关系。

相关分析的叮嘱语句结果分析一、描述性统计量表中给出了个变量的均值、标准差和变量的非缺失值例数。相关系数在月平均雨量作为限制变量的条件下,月平均流量和月平均气温间的偏相关为0.365,概率p值为0.270,在显著性水平为0.05的条件下,月平均流量和月平均气温呈的正相关关系,说明月平均流量和月平均气温的有线性影响但影响有限。说明看上去得到了两个相反的结论,为什么呢?距离分析一、距离分析的概念距离分析是对观测量之间或变量之间相像或不相像程度的一种测度,是计算一对变量之间或一对观测量之间的广义的距离。这些相像性或距离测度可以用于其它分析过程,例如因子分析、聚类分析等。在距离分析过程中,主要利用变量间的相像性测度(Similarities)和不相像性测度(Dissimilarities)度量两者之间的关系有多像OR有多不像?不相像性测度对定距型变量间距离描述的统计量,主要有:欧式距离(Euclideandistance)欧式距离的平方(SquaredEuclideandistan-ce)契比雪夫距离(Chebychev)确定值距离(Block)闵可夫斯基距离(Minkowski)等。对定序型变量之间距离的描述,主要有:卡方不相像测度(Chi-Squaremeasure)Phi方不相像测度(Phi-Squaremeasure)对二值变量之间的距离描述,主要有:欧氏距离(Euclideandistance)平方欧氏距离(SquaredEuclideandistance)LaneandWilliams不相像性测度(LaneandWilliams)等。相像性测度两变量之间可以定义相像性测度统计量,用来对两变量之间的相像性进行数量化描述。针对定距型变量,主要有:Peason相关系数夹角余弦距离等。对于二值变量的相像性测度主要包括:简洁匹配系数(Simplematching)Jaccard相像性指数(Jaccard)Hamann相像性测度(Hamann)等20余种。相像性或不相像性测度还可用与其它模块,例如:因子分析、聚类分析以及多维尺度分析的进一步分析,以助于分析复合数据集。Kulczynski1:KulczynskiⅠ型配对系数,分母为总数与配对数之差,分子为非配对数,分子与分母的权重相同;Kulczynski2:Kulczynski平均条件概率;SokalandSneath4:SokalandSneath条件概率;Hamann:Hamann概率;Lambda:Goodman-Kruskai相像测量的λ值;Anderberg'sD:以一个变量状态预料另一个变量状态;Yule'sY:Yule综合系数,属于2×2四格表的列联比例函数;Yule‘sQ:Goodman-Kruskalγ值,属于2×2四格表的列联比例函数。Ochiai:Ochiai二分余弦测量;SokalandSneath5:SokalandSneathⅤ型相像测量;Phi4pointcorrelation:Pearson相关系数的平方值;Dispersion:Dispersion相像测量。二值变量的相像性测度选项RussellandRao:以二分点乘积为配对系数;Simplematching:以配对数与总对数的比例为配对系数;Jaccard:相像比例,分子与分母中的配对数与非配对数赐予相同的权重;Dice:Dice配对系数,分子与分母中的配对数赐予加倍的权重;RogersandTanimoto:RogersandTanimoto配对系数,分母为配对数,分子为非配对数,非配对数赐予加倍的权重;SokalandSneath1:SokalandSneathⅠ型配对系数,分母为配对数,分子为非配对数,配对数赐予加倍的权重;SokalandSneath2:SokalandSneathⅡ型配对系数,分子与分母均为非配对数,但分子赐予加倍的权重;SokalandSneath3:SokalandSneathⅢ型配对系数,分母为配对数,分子为非配对数,分子与分母的权重相同;已知有我国六城市2004年各月的日照时数数据如表所示。请分析各城市日照数是否近似。

执行【Analyze】/【Correlate】/【Distances】叮嘱,弹出【Distances】对话框变量列表选择变量个案(观测量)标识变量计算距离选项:个案距离,计算个案间的距离;变量距离,计算变量之间的距离度量方式等距间隔数据选项计数数据选项二值数值选项转换转换选项转换测度选项结果解读取值越大说明近似程度越低,反之亦然例:测得30名13岁男童的身高、体重、肺活量的数据。对身高、体重和肺活量进行变量距离分析。编号身高体重肺活量1135930.420003163.646.227504146.533.525005156.237.127506156.435.520007167.841.527508149.7311500编号身高体重肺活量914533250010148.537.2225011165.549.530001213527.6125013153.34127501415232175015160.547.222501615347.21750距离分析叮嘱语句PROXIMITIES

身高体重肺活量

/VIEW=VARIABLE/MEASURE=CORRELATION/STANDARDIZE=NONE.结果分析距离分析的相像性矩阵,也就是Pearson相关系数矩阵。从表中可以看出,3个变量之间,身高和体重的相关系数最大,为0.735,体现出两者之间具有更紧密的关系。比较而言,身高和肺活量之间的Pearson相关系数最小,两者之间的相像性测度也最小,体现出两者之间关系更远一些。

实例二对飞机叶片的个案距离分析利用三种不同的仪器对飞机的10只叶片半径分别进行了测量,下表给出了测试结果。现对10只叶片进行距离分析。10只叶片的3次测量数据第一次测量38.3238.1638.1937.9438.2237.7337.5737.6338.0738.47第二次测量38.4438.0737.9838.1637.8837.9437.8837.8238.2538.13第三次测量37.7638.2837.8537.8238.3237.5437.5137.8837.9838.63步骤将三次测量变量移入变量列表,选择“Bewteencases”其余选择默认值。叮嘱语句为:PROXIMITIES第一次其次次第三次/VIEW=CASE/MEASURE=EUCLID/STANDARDIZE=NONE.距离分析的相像性矩阵上表是个案距离分析的不相像矩阵。由于操作中利用默认选项选择距离统计量,所以这里的距离测度为Euclidean距离,是一种不相像距离测度,数值越大,表示两个个案的不相像性越大,两叶片差距也就越大。从表中可以看出,在给定的10只叶片中,第7只叶片和第10只叶片的距离最大;第6、7叶片距离最小。表示这两只叶片半径测量数据最接近。第九次试验内容两变量的相关分析(Bivariate过程)某地区10名健康儿童头发和全血中的硒含量(1000ppm)如下,试作发硒与血硒的相关分析。编号发硒血硒编号发硒血硒123456789107466886991736696587313101311169714510第十次试验内容1.偏相关分析(Partial过程)某地29名13岁男童身高(cm)、体重(kg)和肺活量(ml)的数据如下表,试对该资料作限制体重影响作用的身高与肺活量相关分析。编号身体重肺活量编号身高体重肺活量123456789101112131415135.1139.9163.6146.5156.2156.4167.8149.7145.0148.5165.5135.0153.3152.0160.532.030.446.233.537.135.541.531.033.037.249.527.641.032.047.21750200027502500275020002750150025002250300012502750175022501617181920212223242526272829153.0147.6157.5155.1160.5143.0149.4160.8159.0158.2150.0144.5154.6156.547.240.543.344.737.531.533.940.438.537.536.034.739.532.0175020002250275020001750225027502500200017502250250017502.距离分析(Distances过程)某医师对10份标准血红蛋白样品作三次平行检测,结果如下,问检测结果是否一样?

样品号1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论