版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、相关分析一、两个变量的相关分析:Bivariate1 相关系数的含义相关分析是研究变量间密切程度的一种常用统计方法。相关系数是描述相关关系强弱程度和方向的统计量,通常用r表示。 相关系数的取值范围在-1和+1之间,即:- r 1。 计算结果,若r为正,则表明两变量为正相关;若r为负,则表明两变量为负相关。 相关系数r的数值越接近于1(或+1),表示相关系数越强;越接近于 0,表示相关系数 越弱。如果r=1或则表示两个现象完全直线性相关。如果=0,则表示两个现象完全不相关(不 是直线相关)。.、.X / |r| 0.3,称为微弱相关、0.3 |r| 0.5,称为低度相关、0.5 |r| 0.8,
2、称为显着(中度) 相关、0.8 |r| 1,称为高度相关 r值很小,说明X与丫之间没有线性相关关系,但并不意味着 X与丫之间没有其它关系,如 很强的非线性关系。 直线相关系数一般只适用与测定变量间的线性相关关系,若要衡量非线性相关时,一般应采 用相关指数Ro2 常用的简单相关系数(1)皮尔逊(Pearson )相关系数 J-r 么/ 厂;(|皮尔逊相关系数亦称积矩相关系数,1890年由英国统计学家卡尔?皮尔逊提出。定距变量之 间的相关关系测量常用Pearson系数法。计算公式如下:n(Xi x)(yi y)r J1(1)nn(Xi X)2 (yi y)2i i 1i 1(1) 式是样本的相关系
3、数。计算皮尔逊相关系数的数据要求:变量都是服从正态分布,相互 独立的连续数据;两个变量在散点图上有线性相关趋势;样本容量 n 30 o(2) 斯皮尔曼(Spearman )等级相关系数Spearman相关系数又称秩相关系数,是用来测度两个定序数据之间的线性相关程度的指标。精心整理当两组变量值以等级次序表示时,可以用斯皮尔曼等级相关系数反映变量间的关系密切程度。它是根据数据的秩而不是原始数据来计算相关系数的, 其计算过程包括:对连续数据的排秩、对离 散数据的排序,利用每对数据等级的差额及差额平方,通过公式计算得到相关系数。其计算公式为:6 d2n n21(2)式中,g为等级相关系数;d为每对数据
4、等级之差;n为样本容量斯皮尔曼等级相关对数据条件的要求没有积差相关系数严格,只要两个变量的观测值是成对的等级评定资料,或者是由连续变量观测资料转化得到的等级资料,不论两个变量的总体分布形态、 样本容量的大小如何,都可以用斯皮尔曼等级相关来进行研究。(3)肯德尔(Kendall)等级相关系数肯德尔(Kendall )等级相关系数是在考虑了结点(秩次相同)的条件下,测度两组定序数据 或等级数据线性相关程度的指标。它利用排序数据的秩,通过计算不一致数据对在总数据对中的比/. 1二_. I例,来反映变量间的线性关系的。其计算公式如下:(3)(3)式中,rK是肯德尔等级相关系数;i是不一致数据对数;n为
5、样本容量计算肯德尔等级相关系数的数据要求与计算斯皮尔曼等级相关系数的数据要求相同3 .相关系数的显着性检验通常,我们用样本相关系数r作为总体相关系数p的估计值,而 r仅说明样本数据的X与丫的相关程度。有时候,由于样本数据太少或其它偶然因素,使得样本相关系数r值很大,而总体的X与丫并不存在真正的线性关系。因而有必要通过样本资料来对 X与丫之间是否存在真正的线性相 关进行检验,即检验总体相关系数p是否为零(即原假设是:总体中两个变量间的相关系数为 0)。I ISPSS勺相关分析过程给出了该假设成立的概率(输出结果中的Sig.)。样本简单相关系数的检验方法为:当原假设H0 :0,n 50时,检验统计
6、量为:(4)当原假设Ho :0,n 50时,检验统计量为:丄2 df.1 r2n 2 (5)式中,r为简单相关系数;n为观测值个数(或样本容量)4.背景材料设有10个厂家,序号为1, 2,,10,各厂的投入成本记为x ,所得产出记为y。各厂家的投入和产出如表7-18-1所示,根据这些数据,可以认为投入和产出之间存在相关性吗?表110个厂家的投入产出单位:万元厂家12345678910投入20402030101020202030产出306040603040405030705.操作步骤5-1绘制散点图的步骤(1) 选择菜单命令“ Graphs”f“LegacyDialogS f“Scatter/D
7、ot”,打开 Scatter/Dot 对话框, 如图1所示。图1选择散点图窗口(2) 选择散点图类型。SPSS提供了五种类型的散点图。(3) 根据所选择的散点图类型,单击“ Define”按钮设置散点图。不同类型的散点图的设置略 有差别。简单散点图(SimpleScatte)简单散点图的设置窗口如图2所示。图2简单散点图的设置窗口从对话框左侧的变量列表中指定某个变量为散点图的纵坐标和横坐标,分别选入丫-Axis和X-Axis框中。这两项是必选项。可以把作为分组的变量指定到 SetMarkersby框中,根据该变量取值的不同对同一个散点图中的 各点标以不同的颜色(或形状)。该项可以省略。把标记变
8、量指定到LabelCasesby框中,表示将标记变量的各变量值标记在散点图的旁边。该项 可以省略。从左侧变量列表框中选择变量到 Panelby框中作为分类变量,可以使该变量作为行(Rows)或 列(Columns)将数据分成不同的组,便于比较。该项可以省略。选择UseChartSpecificationsFrom选项,可以选择散点图的文件模板,单击“ File”可以选择指 定的文件。精心整理精心整理单击“ Title ”按钮可以对散点图的标题进行设置,单击“Optio ns”按钮可以对缺失值以及是否显示数据的标注进行设置。 重叠散点图(OverlayScatter)重叠散点图能同时生成多对相关
9、变量间统计关系的散点图,首先根据分类变量的不同取值对原始数据进行分类,然后对各分类数据做简单散点图。重叠散点图的设置窗口如图7-18-3所示。图3重叠散点图的设置窗口从左侧框中选择一对变量进入 Pairs框中,其中前一个为图的纵坐标变量(Y-Variabie,后一 个作为图的横轴变量(X-Variable),可以通过点击按钮进行横纵轴变量的调换。其他设置与同简单散点图都相同。 矩阵散点图(MatrixScatter)矩阵散点图以方形矩阵的形式在多个坐标轴上分别显示多对变量间的统计关系。矩阵散点图的关键是弄清各矩阵单元中的横纵变量。矩阵散点图的设置窗口如图4所示。J :一 丨一I图4矩阵散点图的
10、设置窗口把参与绘图的若干变量指定到 MatrixVariables框中。选择变量的先后顺序决定了矩阵对角线上 变量的排列顺序。其他设置也与简单散点图相同。 三维散点图(3-DScatter)三维散点图生成三个相关变量的三维散点图,由三个坐标轴对应变量的数据决定,它以立体图 的形式展现三对变量间的统计关系。设置窗口如图5所示。图5三维散点图设置窗口从左侧的变量列表中指定三个变量分别选入Y-Axis X-Axis Z-Axis框中。其他设置均与简单散点图相同。 单点散点图(SampleDo)单点散点图生成单个变量的散点图,显示数值型变量的每一个观测值,这些值都堆积在X轴附近,由于没有指定丫轴,所以
11、数据点的丫坐标没有特殊的含义。设置窗口如图 6所示。图6单点散点图设置窗口从左侧变量列表中选择一个变量选入 X-AxisVariable框中。其他设置与简单散点图相同。5-2计算简单相关系数的操作步骤通过散点图可以初步判断变量是否具有线性趋势。对具有线性趋势的变量计算相应的简单相关 系数的步骤如下:精心整理(1)选择菜单命令“ An alyze”f“ Correlate” Bivariate”,打开两变量相关分析的对话 框,如图7所示。图7两变量相关分析窗口(2)选入需要进行相关分析的变量进入 Variables框,至少需要选入两个,如选入“投入”、“产出”变量。(3) 在Correlatio
12、nCoefficients复选框中选择需要计算的相关系数。主要有:Pearson复选框:选择进行积距相关分析,即最常用的参数相关分析;Kendallstau-b复选框:计算Kendalls等级相关系数;Spearman复选框:计算Spearman相关系数,即最常用的非参数相关分析(秩相关)。(4) TestofSignificanee单选框用于确定是进行相关系数的单侧(One-tailed)或双侧(Two-tailed) 检验,系统默认双侧检验。(5)Flagsignificantcorrelations用于确定是否在结果中用星号标记有统计学意义的相关系数, 一般选中。此时P0.05的系数值旁
13、会标记一个星号,PvO.01的则标记两个星号。(6)单击Options按钮,弹出Options对话框,选择需要计算的描述统计量和统计分析,如图 8所示。图8两变量相关分析的Options子对话框在Statistics复选框中定义各变量输出的描述统计量。 Meansandstandarddeviations选项表示每 个变量的样本均值和标准差;Cross-productdeviatio nsan dcovaria nces选项表示各对变量的离差平方 和、样本方差、两变量的叉积离差以及协方差阵。叉积离差为Pearson相关系数公式中的分子部分; 协方差为叉积离差/ (n-1)。在Miss in g
14、Values单选框中定义分析中对缺失值的处理方法,可以是具体分析用到的两个变量 有缺失值才去除该记录(Excludecasespairwise,或只要该记录中进行相关分析的变量有缺失值(无论具体分析的两个变量是否缺失),则在所有分析中均将该记录去除( Excludescaseslistwise。(7)单击“ OK按钮完成设置,提交运行。6 结果解析根据背景资料,禾I用表1中的数据,建立SPSS数据文件,分别将变量投入、产出选入Variables 框中,并在Options子对话框选中Meansandstandarddeviations选项和Cross-productdeviationsandco
15、variances选项,其他选择默认。结果如表 2、表 3所示。6-1表2为描述统计量,表3为相关分析结果。从表3中可以看出皮尔逊相关系数为0.759, 即投入与产出的相关系数为0.759,双侧检验的P值为0.011,明显小于0.05,拒绝二者不相关的当投入增加时,产出也但系统输出的是变量间精心整理原假设。因此,我们可以得出结论:可以认为投入与产出之间存在正相关, 会相应增加。表2描述统计量DescriptiveStatisticsStd.DeviatMeanionN投入22.009.18910产岀45.0014.33710表3简单相关系数分析结果Correlations投入产岀投入Pears
16、onCorrelatio1.759nSig.(2-tailed).011SumofSquaresand760.00900.00Cross-products00Covariance84.444100.000N1010产岀PearsonCorrelatio*.7591nSig.(2-tailed).011SumofSquaresand900.001850.0Cross-products000Covariance100.00205.5506N1010*.Correlationissignificantatthe0.05level(2-t ailed).6-2调用Bivariate过程命令时允许同时输
17、入两个变量或两个以上变量, 两两相关的相关系数。二、偏相关分析:Partial1 .偏相关分析的含义在实际问题中,两变量的相关关系往往还要受到其他因素的影响,这些影响有时候会使相关分 析的结果变得不那么可靠。因此,引入了偏相关分析的方法。偏相关分析,也称净相关分析,是指 在研究两个变量之间的线性相关关系时,将与这两个变量有联系的其他变量控制不变的统计方法。 根据控制变量的个数,偏相关分析分为零阶偏相关分析、一阶偏相关分析、二阶偏相关分析等等。 其中,零阶偏相关分析是指没有控制变量的相关分析,即一般的相关分析。一阶偏相关分析是指有 一个控制变量的相关分析,二阶偏相关分析是指有两个控制变量的偏相关
18、分析, 其他高阶偏相关分 析以此类推。2 偏相关系数进行偏相关分析时要用到偏相关系数。偏相关系数是在多元相关分析中说明当某个自变量在其他自变量固定不变时,分别同因变量线性相关程度的指标。偏相关系数的取值范围亦在-1+1之间, 其计算公式分别为:当有一个控制变量为X2时,变量X!和y之间的一阶偏相关系数为:iZ r |.ryxi?X2ryxiryx2 rx,X2(1 吆)(1 r:)(6)3 对偏相关系数的检验方法在偏相关分析中,由于两个变量之间的相关系数是在固定 (控制)了一个或几个变量后进行的,考虑到这种因素及抽样误差的影响,其检验统计量为:x1(7)式中,r是特定的偏相关系数;n为观测值个
19、数;k为控制变量个数;n k 2为自由度。4.背景材料某汽车制造商从某月中随机抽出10天的电力消耗量、温度、日产量等有关资料,数据如表4所示。结合多年管理经验,对电力消耗量、温度、日产量的关系做出相关分析表4某汽车制造商的电力消耗量、温度、日产量等数据表电力消耗(千瓦)温度(华氏)日产量1283120117911013851289751011487105108110812841101177107148511211841195. 操作步骤5-1选择菜单命令“ An alyz6 f “ Correlate” f “Partial”,打开偏相关分析的对话框,如图9所示。图9偏相关分析窗口5-2选入需
20、要进行偏相关分析的变量进入Variables框中,至少需要选入两个。5-3选择需要在偏相关分析时进行控制的协变量进入Controllingfor框中,如果不选入,则进行的就是普通的相关分析。5-4在TestofSignificanee单选框中确定是进行相关系数的单侧(One-tailed)或双侧(Two-tailed)检验,一般选双侧检验。5-5Displayactualsig nifica ncelevel复选框用于表示在结果中给出确切的P值,一般选中。5-6单击Options按钮,弹出Options对话框,选择需要计算的描述统计量和统计分析。如图10所示。图10偏相关分析的Options子
21、对话框(1) Statistics复选框用于定义可选的描述统计量。其中,Meansandstandarddeviations表示每 个变量的样本均值和标准差;Zero-ordercorrelations表示输出包括控制变量在内所有变量的相关矩 阵。(2)MissingValues单选框用于定义分析中对缺失值的处理方法,可以是具体分析用到的两个变量有缺失值才去除该记录(Excludecasespairwise,或只要该记录中进行相关分析的变量有缺失 值(无论具体分析的两个变量是否缺失),则在所有分析中均将该记录去除(Excludescaseslistwise。系统默认为前者,以充分利用数据。6.
22、 结果解析这里我们选择电力消耗、温度作为待分析变量,把日产量作为控制变量,在Options子对话框中选中Meansandstandarddeviations选项,其他选择系统默认。具体分析结果见表4、表5所示。精心整理6-1表5偏相关系数表中的结果表明,在控制了日产量变量后,电力消耗与温度之间的偏相关 系数为0.815,概率P值为0.0070.05,从而表明两者之间有高度的相关关系。表4偏相关分析描述统计量 DescriptiveStatisticsStd.DeviMeanationN电力消耗11.701.63610温度82.003.88710日产112.0量08.08310表5偏相关系数表Correlatio
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025版屋面防水工程承包合同(含屋顶绿化植物养护服务)3篇
- 2025版外贸信用保险合同范本英文版3篇
- 《我的家乡》课件
- 2025年度美容院美容院员工福利保障合同4篇
- 2025年个人房产抵押合同修订版
- 二零二五年度铁路施工挖机作业安全与保障合同3篇
- 二零二五版绿色环保民房物业管理合同4篇
- 2025版宅基地买卖转让合同含农村土地整治及补偿协议3篇
- 二零二五版幕墙工程节能评估与认证合同4篇
- 孤残儿童关爱意识提升策略研究与实践考核试卷
- 消防产品目录(2025年修订本)
- 地方性分异规律下的植被演替课件高三地理二轮专题复习
- 光伏项目风险控制与安全方案
- 9.2提高防护能力教学设计 2024-2025学年统编版道德与法治七年级上册
- 催收培训制度
- 练习20连加连减
- 五四制青岛版数学五年级上册期末测试题及答案(共3套)
- 商法题库(含答案)
- 钢结构用高强度大六角头螺栓连接副 编制说明
- 沟通与谈判PPT完整全套教学课件
- 移动商务内容运营(吴洪贵)项目四 移动商务运营内容的传播
评论
0/150
提交评论