十二章相关与回归分析课件_第1页
十二章相关与回归分析课件_第2页
十二章相关与回归分析课件_第3页
十二章相关与回归分析课件_第4页
十二章相关与回归分析课件_第5页
已阅读5页,还剩87页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第十二章 相关与回归分析第一节 相关关系及种类第二节 定类变量的相关分析第三节 定序变量的相关分析第四节 定距变量的相关分析第五节 回归分析7/24/20221 社会上,许多现象之间也都有相互联系,例如:身高与体重、教育程度和收入、学业成就和家庭环境、智商与父母智力等。在这些有关系的现象中,它们之间联系的程度和性质也各不相同。 本书第十章提出了两总体的检验及估计的问题,这意味着我们开始与双变量统计方法打交道了。双变量统计与单变量统计最大的不同之处是,客观事物间的关联性开始披露出来。这一章我们将把相关关系的讨论深入下去,不仅要对相关关系的存在给出判断,更要对相关关系的强度给出测量,同时要披露两变

2、量间的因果联系,其内容分为相关分析和回归分析这两个大的方面。7/24/20222第一节 变量之间的相互关系 1. 相关程度 完全相关,指变量之间为函数关系;完全不相关指变量之间不存在任何依存关系,彼此独立。不完全相关介于两者之间。不完全相关是本章讨论的重点。 由于数学手段上的局限性,统计学探讨的最多的是定距定距变量间能近似地表现为一条直线的线性相关。在统计中,对于线性相关,采用相关系数(记作r)这一指标来量度相关关系程度或强度。就线性相关来说,当r l时,表示为完全相关;当r =0时,表现为无相关或零相关;当0 r 1时,表现为不完全相关。7/24/20223 2. 相关方向:正相关和负相关

3、所谓正相关关系是指一个变量的值增加时,另一变量的值也增加。例如,受教育水平越高找到高薪水工作的机会也越大。而负相关关系是指一个变量的值增加时,另一变量的值却减少。例如,受教育水平越高,理想子女数目越少。要强调的是,只有定序以上测量层次的变量才分析相关方向,因为只有这些变量的值有高低或多少之分。至于定类变量,由于变量的值并无大小、高低之分,故定类变量与其他变量相关时就没有正负方向了。7/24/20224 3. 因果关系与对称关系 因果关系中两个变量有自变量(independent Variable)和因变量(dependent Variable)之分: (1)两个变量有共变关系; (2)因变量的

4、变化是由自变量的变化引起的; (3)两个变量的产生和变化有明确的时间顺序,前者称为自变量,后者称为因变量。 表现为对称关系的相关关系,互为根据,不能区分自变量和因变量,或者说自变量和因变量可以根据研究目的任意选定,例如身高和体重之间的关系。 7/24/20225 4. 单相关和复相关 从变量的多少上看,单相关只涉及两个变量,亦称二元相关;三个或三个以上变量之间的关系称为复相关,亦称多元相关。五、直线相关和曲线相关 从变量变化的形式上看,如果关系近似地表现为一条直线,称为直线相关或线性相关;如果关系近似地表现为一条曲线,则称为曲线相关或称为非线性相关。 由于数学手段的局限性,我们以学习线性相关为

5、主。在统计学中,通过分段处理线性相关也可以用于处理曲线相关。7/24/20226第二节 定类变量的相关分析本节内容:1、列联表2、削减误差比例3、系数4、系数7/24/20227 1. 列联表 列联表,是按品质标志把两个变量的频数分布进行交互分类,由于表内的每一个频数都需同时满足两个变量的要求,所以列联表又称条件频数表。 例如,某区调查了357名选民,考察受教育程度与投票行为之间的关系,将所得资料作成下表,便是一种关于频数的列联表。7/24/2022822频数分布列联表的一般形式习惯上把因变量Y放在表侧,把自变量X放在表头。22列联表是最简单的交互分类表。 rc列联表 r(row)、c(col

6、umn)7/24/20229 rc频数分布列联表的一般形式7/24/202210自己志愿知心朋友志愿总数快乐家庭理想工作增广见闻快乐家庭289340理想工作241750增广见闻24410总数3254141007/24/202211两个边际分布:7/24/202212 条件频数表中各频数因基数不同不便作直接比较,因此有必要将频数化成相对频数,使基数标准化。这样,我们就从频数分布的列联表得到了相对频数分布的列联表(或称频率分布的列联表)。下表是rc相对频数分布列联表的一般形式。7/24/202213 rc相对频数分布列联表的一般形式7/24/202214 在相对频数分布列联表中,各数据为各分类出现

7、的相对频数(或者频率)。将频数 化成相对频数 有两种做法: 相对频数联合分布 两个边际分布 或相对频数条件分布 或7/24/202215 rc相对频数联合分布列联表7/24/202216控制X,Y相对频数条件分布列联表7/24/202217控制Y,X相对频数条件分布列联表7/24/202218 例A1试把下表所示的频数分布列联表,转化为自变量受到控制的相对频数条件分布列联表,并加以相关分析。 投票行为Y受教育程度X 大学以上 大学以下投票弃权160 7129 61289 68合计:1671903577/24/202219 从上表可知,受过大学以上教育的被调查者绝大多数(占95.8%)是投票的,

8、受教育程度在大学以下的被调查者虽多数也参与投票(占67.9%),但后者参与投票的百分比远小于前者;前者只有4.2%弃权,而后者则有32.1%弃权。两相比较可知,受教育程度不同,参与投票的行为不同,因此两个变量是相关的。投票行为Y受教育程度X 大学以上 大学以下投票弃权95.8%(160/167) 4.2%(7/167)67.9%(129/190) 32.1%(61/190)81.0%(289/357) 19.0%(68/357)100.0%(167)100.0%(190)100.0%(357)7/24/202220 例A2试把下表所示的频数分布列联表,转化为相对频数条件分布列联表和自变量受到控

9、制的相对频数条件分布列联表,并加以相关分析。 投票行为Y受教育程度X 大学以上 大学以下投票弃权100 67114 76214143合计:1671903577/24/202221 上表显示,大学以上文化程度和大学以下文化程度同样各有60%的人参与投票,40%的人弃权,并没有因为受教育程度不同,而使参与投票的行为有所不同。因此,此时的两个变量是不相关的,或者说是独立的。我们不难发现,此时反映全体投票情况的相对频数的边际分布( )也各有60%的人参与投票,40%的人弃权。投票行为Y受教育程度X 大学以上 大学以下投票弃权60.0%(100/167) 40.0%(67/167)60.0%(114/1

10、90) 40.0%(76/190)60.0%(214/357)40.0%(143/357)100.0%(167)100.0%(190)100.0%(357)7/24/202222 上表显示,当两个变量不相关时有 。如0.532 0.40=0.213。投票行为Y受教育程度X 大学以上 大学以下投票弃权28.0%(100/357) 18.8%(67/357)31.9%(114/357) 21.3%(76/357)60.0%(214/357)40.0%(143/357)46.8%(167/357)53.2%(190/357)100.0%(357)7/24/202223 例B某社区调查了120名市民,

11、考察性别与对吸烟态度之间的关系,试将所得资料作成相对频数的联合分布、边际分布和条件分布列联表,并进行相关分析。 性别与对吸烟的态度态度Y性别X合计男女容忍48856反对204464合计68521207/24/202224相对频数联合分布列联表态度Y性别X男( X1 )女( X2 )容忍Y140.0% 6.7 %46.7 %反对Y216.7 %36.6 %53.3 %56.7 %43.3%100 % (120)7/24/202225相对频数条件分布列联表态度Y性别X男( )女( )容忍70.6%15.4 %46.7 %(56)反对29.4 %84.6 %53.3 %(64)100 %(68)10

12、0 %(52)100 %(120)7/24/2022262675名双亲和他们10071个子女的智力的关系(%)(相对频数条件分布列联表) 父母智力 组合 子女智力 优秀 子女智力 一般 子女智力 低下 优优 71.6 25.4 3.0 优劣 33.6 42.7 23.7 一般一般 18.6 66.9 14.5 劣劣 5.4 34.4 60.27/24/202227 通过列联表研究定类变量之间的关联性,这实际上是通过相对频数条件分布的比较进行的。如果对不同的X,Y的相对频数条件分布不同,且和Y的相对频数边际分布不同,则两变量之间是相关的。而如果变量间是相互独立的话,必然存在着Y的相对频数条件分布

13、相同,且和它的相对频数边际分布相同。后者用数学式表示就是 或者 7/24/202228 2. 削减误差比例 PRE(Proportionate Reduction in Error) 通过相对频数条件分布列联表的讨论,可以就自变量X和因变量Y的关联性给出一个初步的判断。但是对关联性给出判断,肯定没有用量化指标表达来得好。所以,下面我们将关注于如何用统计方法,使相关关系的强弱可以通过某些简单的系数明确地表达出来。 在社会统计中,表达相关关系的强弱,削减误差比例的概念是非常有价值的。削减误差比例的原理是,如果两变量间存在着一定的关联性,那么知道这种关联性,必然有助于我们通过一个变量去预测另一变量。

14、其中关系密切者,在由一变量预测另一变量时,盲目性必然较关系不密切者为小。7/24/202229 PRE:用不知道Y与X有关系时预测Y的全部误差E1,减去知道Y与X有关系时预测Y的联系误差E2,再将其化为比例来度量 PRE的取值范围是 0PREl 削减误差比例PRE适用于各测量层次的变量,系数和系数便是在定类测量的层次上以削减误差比例PRE为基础所设计的两种相关系数。 7/24/202230PRE=(56-28)/56=0.5态度Y性别X合计男女容忍48856反对204464合计68521207/24/202231 3.系数 在定类尺度上测量集中趋势只能用众数。 系数就是利用此性质来构造相关系数

15、的。(1)不对称的系数7/24/202232 例 对下表所示资料,用系数反映性别与收入高低的相关关系。收入Y性别X合计男女低60150210高12070190合计1802204007/24/2022337/24/202234(2)对称的系数7/24/202235 例 研究工作类别与工作价值的关系,工作类别可分为三类:工人、技术人员、管理/行政人员;工作价值也可分为三类:以收入/福利为最重要的职业选择标准的称为经济取向型,以工作的创造性、挑战性为最重要的职业选择标准的称为成就取向型,以工作中的人际关系为最重要的职业选择标准的称为人际关系取向型。对下表所示资料,用系数反映工作类别与工作价值的相关关

16、系 。7/24/202236 职工的工作种类与工作价值 工作价值 Y工作种类 X合计 工人 技术人员 管理/行政人员经济取向型成就取向型人际关系取向型100 30 2070601050204022011070合计:FX1501401104007/24/2022377/24/202238 性质: (1)01 (2)具有PRE意义。 (3)对称与不对称情况下,有不同的公式。 (4)以众数作为预测的准则,对条件频数分布列联表中众数频数以外的条件频数不予理会。 (5)如果众数频数集中在条件频数分布列联表的同一行时,=0,从而无法显示两变量之间的相关性。 7/24/202239 4.系数 系数的统计值域

17、是0,1,其特点是在计算时考虑所有的边际频数和条件频数 。 注意:当众数很突出且众数分布不在同一行,同一列时,用系数较好;但当众数不突出时,用系数更好;若众数集中在某一行或某一列,一定用系数。7/24/202240 例 对下表所示资料,用系数反映性别与收入高低的相关关系,并对系数的PRE意义加以解释。 收入Y性别X合计男女低60150210高12070190合计1802204007/24/202241 7/24/202242练习: 调查100名青年人与其知心朋友的志愿,条件次数分布如下:计算知心朋友的志愿与自己志愿之间的相关关系,并提出研究结论。自己志愿知心朋友志愿总数快乐家庭理想工作增广见闻

18、快乐家庭289340理想工作241750增广见闻24410总数3254141007/24/202243第三节 定序变量的相关分析 定序变量只能排列高低次序,因而在分析时只能考虑两变量变化的顺序是否一致及其等级之间的差距。以此来计算两变量的相关系数。 1、同序对、异序对和同分对 2、Gamma等级相关系数 3、肯德尔等级相关系数 4、萨默斯系数(d系数) 5、 Spearman等级相关系数 6、肯德尔和谐系数7/24/202244 1. 同序对、异序对、同分对 社会学研究常用的两定序变量的相关测量法,有一类是以同序对、异序对、同分对的概念为基础的,如Gamma系数、肯德尔系数、d系数等。所以我们

19、在讨论这几种相关系数之前,先来了解这三个概念。7/24/202245 在定序相关测量中,首先要搞清楚“次序对(pair)”的概念。例如,假设研究员工的工作满足感与归属感的关系,将工作满足感从低到高,分为低(1)、中(2)和高(3)三个级别,归属感也从低到高分为低(1)、中(2)和高(3)三个级别。下表列示的是5名被访者A、B、C、D、E的情况。单元XYA12B12C13D23E317/24/202246同序对 参见上表(注意,为了容易识别各种次序对,该表已先将被访者按定序变量X由低到高作了排列),在观察X序列时如果我们看到Xi Xj ,在Y序列中看到的是Yi Yj,则称这一配对是同序对。同序对

20、只要求X变化方向和Y变化方向相同,并不要求X变化大小和Y变化大小相等。同序对的总数用符号ns表示。异序对 见上表,在观察X序列时如果我们看到Xi Xj ,在Y序列中看到的是Yi Yj,则称这一配对是异序对。同样,异序对只要求X变化方向和Y变化方向相同,并不要求X变化大小和Y变化大小相等。同序对的总数用符号nd表示。7/24/202247同分对 如果在X序列中,我们观察到Xi Xj (此时在Y序列中无Yi Yj),则这个配对仅是X方向上而非Y 方向上的同分对;X 的这种同分对用符号nx表示。如果在Y 序列中,我们观察到Yi Yj(此时在X序列中无Xi Xj ),则这个配对仅是Y 方向上而非X方向

21、上的同分对;Y 的这种同分对用符号ny表示。如果我们观察到 Xi Xj时,也观察到Yi Yj ,则称这两个配对为X与Y 同分对,以符号nxy表示。X 同分对的总数用符号Tx表示, Tx nx + nxy ;Y 同分对的总数用符号Ty表示, Ty ny + nxy 。 n个单位两两配对,总对数 ns + nd + nx + ny + nxy 7/24/202248 计算Gamma系数,肯得尔系数、 d 系数等,我们面对的经常是两定序变量已形成列联表的资料,所以对我们来说很重要的是要学会定序变量列联表中这五种“次序对”的计算和识别。 同序对:“右下余子式”法 异序对:“左下余子式”法 7/24/2

22、02249高中低高843中651低445 工作满足感与归属感 7/24/202250 2. Gamma系数 性质:(1)取值范围-1,1(2)具有PRE意义(3)属对称相关测量。(4)不考虑同分对。7/24/202251 例:在某市200户中调查,看住户人口密度与婆媳冲突是否有关,交互分类后分布如下,计算G相关系数并提出研究结论。婆媳冲突住户密度总数高中低高2320449中11552894低8272459总数42102562007/24/202252 3. 肯德尔等级相关系数(1)Tau-a 系数 适用于不存在任何同分对的情况。 7/24/202253 某市有12 所大专院校,现组织一个评审委

23、员会对各院校校园环境及学生体质进行评价,评价结果如表(表中已先将学校按X作了次序排列)所示,试计算校园环境和学生体质关系的肯德尔相关系数。 学校名 A B C D E F G H I J 环境名次(X) 体质名次(Y) 1 2 3 4 5 6 7 8 9 10 2 1 5 3 7 4 6 8 10 9 7/24/202254(2)Tau-b系数 当出现同分对时,对分母进行修正。与G系数一样, Tau-b系数也具有消减误差比例的意义。 Tau-b系数的特殊性在于,只有在列联表的行数与列数相同(r=c)的情况下,其系数值才可能是-1或+1,否则便不确定。 7/24/202255(3)Tau-c系数

24、 当同分对很多时,且rc ,可以用Tau-c系数来测量。 m取rc列联表 中r和c值较小者。 Tau-c系数没有消减误差比例的意义。 7/24/202256 4. 萨默斯 (d系数) 萨默尔斯提出的,对G系数进行修正。 d系数具有PRE意义,取值-1,1,为不对称测量。 7/24/202257 5. Spearman等级相关系数 运用上式计算等级相关系数很简便:首先将定序变量X和Y的数值形成对应的两个序数数列(其中先将X由小到大排)。如遇有相等的数值时,则应将原有的等级求其平均数,让它们以这平均等级并列。然后求出等级差,经平方后求和,运用上式即可求得斯皮尔曼等级相关系数。 例:为了解活动能力与

25、智商是否有关,作了10名同学的抽样调查,资料如表,问这10名同学的智商与活动能力是否有关。7/24/202258学生活动能力名次智商智商名次A11103B21103C31056D4959E51201F69410G71008H81056I91056J1011037/24/202259 6. 肯德尔和谐系数 前面我们谈的都是对双变量求等级相关系数。对于多变量求等级相关系数,如多个专家对同一事物评价的一致性或相关程度的衡量,肯德尔运用数理分析方法,提出了一个计算公式7/24/202260 假设四位专家对10所大专院校环境质量进行排序,有关评价结果列于下表中,试通过计算肯德尔和谐系数,检验专家意见的一

26、致性和相关程度。 专家名 大专院校名 合计A B C D E F G H I J A B C D 1 2 3 4 5 6 7 8 9 10 3 2 1 4 5 8 6 7 10 9 1 3 2 4 5 7 6 8 9 10 4 2 1 5 3 7 8 6 10 9 等级和R R29 9 7 17 18 28 27 29 38 38 81 81 49 289 324 784 729 841 1444 1444 60667/24/202261 例:通过对1500多名青年作社会调查,探讨当代青年择业倾向与对社会经济生活的基本态度,得资料如表,求等级相关系数(当代青年择业倾向与他们对职业社会地位的等级

27、认定的关系;择业倾向与他们对职业的富裕程度认定的关系)。7/24/202262职业等级认为社会地位富裕程度择业理想行政事业1 52各类专业2 41企业3 33教师4 64商业5 25工人6 87个体户7 16农民8 787/24/202263 试就以下单元数据,列举其中的同序对、异序对、同分对。单元XYA32B31C31D11E237/24/202264 根据交互分类表计算:ns、nd、 nx 、 ny 、 nxy 、 Tx 、 Ty 、 T(总对数)高中低高f11f12f13中f21f22f23低f31f32f33高中低高10125中203010低51057/24/202265 练习:1.在

28、某地抽选469名已婚男人,研究他们对父亲的感情是否会影响他们对婚姻的适应。试计算G系数并提出研究结论。 丈夫与父亲的感情对其婚姻适度之影响婚姻适应与父亲感情总数平淡不错良好很好恶劣32412628127一般28474122138数751571281094697/24/202266 2. 以下是两位评判员对10名参赛人员的打分排序:试用一系数描述两评判员打分相近程度。参赛人ABCDEFGHIJ评判112435876910评判2123456879107/24/202267第四节 定距变量的相关分析 前两节,主要借助于列联表,我们解决了一些定类、定序测量层次的相关测量问题。

29、对于定距变量,根据其变量值的数学特征,我们自然可以引进更为精确的量化指标来反映它们之间的相关程度。两个定距变量之间的相关测量,最常用的就是所谓积差系数它是由英国统计学家皮尔逊(Pearson)用积差方法推导出来,所以也称皮尔逊相关系数,用符号r表示。 7/24/202268 1. 相关表和散点图 相关表:经整理后反映两变量之间对应关系的数据表。 散点图:将相关表中各个有对应关系的数据在直角坐标系上标出来,就得到散点图。散点图可以直观地观察两变量之间对应关系。工龄(年)X111333555777技术考核分Y1232343.54.55.57897/24/202269散点图表示的相关的类型正相关 负

30、相关 完全正相关 完全负相关 称零相关 7/24/202270 2积差系数的导出和计算7/24/202271 r 是协方差与X和Y的标准差的乘积之比7/24/202272 试就下表所示资料,计算关于员工的工龄和技术考核分的皮尔逊相关系数。 工龄(年)X111333555777技术考核分Y1232343.54.55.7897/24/202273 N0工龄X技术考核分YX 2Y 2XY 1 2 3 4 5 6 7 8 9 10 11 12 1 1 1 3 3 3 5 5 5 7 7 7123234 3.5 4.5 5.5789 1 1 1 9 9 9 25 25 25 49 49 49 1 4 9

31、 4 916 12.25 20.25 30.25496481 1 2 3 6 912 17.5 22.5 27.5495663 合计4852.5252 299.75 268.57/24/202274解:计算过程见上表r=7/24/202275 3 积差系数的性质 (1) r 是线性相关系数。 (2)适用于定距/定比变量。 (3)取值-1,1,绝对值越大,相关程度越高。r 的绝对值在0.3以下表示不相关;0.30.5表示低度相关;0.50.8表示中等相关;0.8以上表示高度相关。 (4)X与Y是对称关系。 (5)相关系数的数值不受坐标点变化的影响。 (6)r2具有PRE意义。 (7)r 公式中的

32、两个变量都是随机的,因而改变两者的位置并不影响r的数值。 7/24/202276注意事项: (1)注意实际意义 进行相关回归分析要有实际意义,不可把毫无关系的两个事物或现象用来作相关回归分析。例如,有人说,孩子长,公园里的小树也在长。求孩子和小树之间的相关关系就毫无意义,用孩子的身高推测小树的高度则更加荒谬。 (2)注意虚假相关 两个事物间能计算出相关系数,并不一定能证明事物间有内在联系。例如,有人发现,对于在校儿童,鞋的大小与阅读技能有很强的相关关系。然而,学会新词并不能使脚变大,而是涉及到第三个因素 年龄。当儿童长大一些,他们的阅读能力会提高而且由于长大也穿不下原来的鞋。7/24/2022

33、77 (3)利用散点图 对于性质不明确的两组数据,可先做散点图,在图上看它们有无关系、关系的密切程度、是正相关还是负相关,是直线相关还是曲线相关,然后再进行相关分析。 (4)注意变量范围 相关分析和回归方程仅适用于产生样本的原始数据范围之内,出了这个范围,两变量的相关关系和回归关系不能就此得到说明。7/24/202278第五节 回归分析 在分析定距变量间的关联性时,最初关注的仅仅是变量相关的强度和方向,即进行积差相关分析。然而积差系数并不能表明X和Y之间的因果关系,要明确一个变量的变化能否由另一个变量的变化来解释,或要通过已知变量很好地预测未知变量,就要进行回归分析。 在回归分析中,如果自变量

34、只有一个,则称为一元回归;如果自变量有两个或两个以上则称为多元回归。而根据回归方程式的特征,又可以分为线性回归和非线性回归。一元线性回归分析是所有回归分析的基础, 另外,回归分析与相关分析具有密切的联系。一般说来,只有当两个变量之间存在着较高程度的相关关系时,回归分析才变得有意义和有价值。因此,往往先进行相关分析,然后才选用有明显相关关系的变量作回归分析。7/24/202279 1. 线性回归 线性回归分析,一般是先依据相关表做出散点图,直观地估计X和Y关联性。如果两变量的确呈现出一定的线性相关趋势,便可以设所要求的回归直线方程为 是因变量Y的预测值或称估计值。 回归方程的建立: 先做散点图;利用最小二乘法。7/24/202280 运用最小平方法可以在所有可能的直线中找到使 Q达到最小的回归直线。 分别对a、b求偏导并令其为零,求得两个标准方程: 解联立方程,得到 a 和 b 的计算公式:XY

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论