统计第十章相关与回归分析

上传人：2*** IP属地：湖北上传时间：2023-02-05 格式：PPT 页数：109 大小：2.11MB 积分：30 举报 版权申诉

已阅读5页，还剩104页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第十章相关与回归分析第一节相关关系及种类第二节定类变量的相关分析第三节定序变量的相关分析第四节定距变量的相关分析第五节回归分析社会上，许多现象之间也都有相互联系，例如：身高与体重、教育程度和收入、学业成就和家庭环境、智商与父母智力等。在这些有关系的现象中，它们之间联系的程度和性质也各不相同。这一章我们不仅要对相关关系的存在给出判断，还要对相关关系的强度给出测量，同时要揭示两变量间的因果联系，其内容分为相关分析和回归分析这两个大的方面。概念要点：相关：一个变量值与另一个变量值有连带性。正相关与负相关；对称关系与不对称关系；相关关系的“有、无”与“大、小”之间的区别；相关关系与函数关系的区别与联系；相关关系与因果关系的区别与联系；第一节变量之间的相互关系函数关系现象之间确实存在数量上的相互依存关系。表现在：一个现象发生数量上的变化，另一个与之相联系的现象也会相应地发生数量上的变化。相关关系现象之间数量上不确定、不严格的依存关系。相关关系的全称为统计相关关系，它属于变量之间的一种不完全确定的关系。

相关关系与函数关系⒈出租汽车费用与行驶里程：总费用=行驶里程每公里单价⒉家庭收入与恩格尔系数：家庭收入高，则恩格尔系数低。函数关系（确定性关系）相关关系（非确定性关系）比较下面两种现象间的依存关系相关关系与函数关系的区别函数关系是变量之间的一种严格、完全确定性的关系，即一个变量的数值完全有另一个（或一组）变量的数值所决定、控制。函数关系通常可以用数学公式确切地表示出来。相关关系难以像函数关系那样，用数学公式去准确表达。

相关关系与函数关系的联系由于客观上常会出现观察或测量上的误差等原因，函数关系在实际工作中往往通过相关关系表现出来。当人们对某些现象内部规律有较深刻认识时，相关关系可能变为函数关系。为此，在研究相关关系时，又常常使用函数关系作为工具，用一定的函数关系表现相关关系的数量联系。相关关系的种类根据相关关系的程度划分根据相关关系的方向划分根据自变量的多少划分根据变量间相互关系的表现形式划分不完全相关完全相关不相关正相关负相关复相关单相关直线相关曲线相关1、不相关。

如果变量间彼此的数量变化互相独立，则其关系为不相关。自变量x变动时，因变量y的数值不随之相应变动。例如，产品税额的多少与工人的出勤率、家庭收入多少与孩子的多少之间都不存在相关关系。2、完全相关。如果一个变量的变化是由其他变量的数量变化所唯一确定，此时变量间的关系称为完全相关。即因变量y的数值完全随自变量x的变动而变动，它在相关图上表现为所有的观察点都落在同一条直线上，这种情况下，相关关系实际上是函数关系。所以，函数关系是相关关系的一种特殊情况。3、不完全相关。如果变量间的关系介于不相关和完全相关之间，则称为不完全相关。如妇女的结婚年龄与受教育程度之间的一种关系。大多数相关关系属于不完全相关，是统计研究的主要对象根据相关关系的程度划分由于数学手段上的局限性，统计学探讨的最多的是定距—定距变量间能近似地表现为一条直线的线性相关。在统计中，对于线性相关，采用相关系数（记作r）这一指标来量度相关关系程度或强度。就线性相关来说，当|r|＝l时，表示为完全相关；当|r|

=0时，表现为无相关或零相关；当0<|r|<1时，表现为不完全相关。1、正相关。指两个因素（或变量）之间的变化方向一致，都是呈增长或下降的趋势。即自变量x的值增加（或减少），因变量y的值也相应地增加（或减少），这样的关系就是正相关。例如，工业总产值增加，企业税利总额也随之增加；家庭消费支出随收入增加而增加等。2、负相关。指两个因素或变量之间变化方向相反，即自变量的数值增大（或减小），因变量随之减小（或增大）。如劳动生产率提高，产品成本降低；产品成本降低，企业利润增加等。要强调的是，只有定序以上测量层次的变量才分析相关方向，根据相关关系的方向划分1、单相关。两个因素之间的相关关系叫单相关，即研究时只涉及一个自变量和一个因变量。2、复相关。三个或三个以上因素的相关关系叫复相关，即研究时涉及两个或两个以上的自变量和因变量。根据自变量的多少划分1、直线相关（或线性相关）。当相关关系的自变量x发生变动，因变量y值随之发生大致均等的变动，从图像上近似地表现为直线形式，这种相关通称为直线（或线性）相关。例如，销售量与销售额之间就呈直线相关关系。2、曲线（或非线性）相关。在两个相关现象中，自变量x值发生变动，因变量y也随之发生变动，这种变动不是均等的，在图像上的分布是各种不同的曲线形式，这种相关关系称为曲线（或非线性）相关。曲线相关在相关图上的分布，表现为抛物线、双曲线、指数曲线等非直线形式。例如，从人的生命全过程看，年龄与医疗费支出呈非线性相关。根据变量间相互关系的表现形式划分

因果关系与对称关系

因果关系中两个变量有自变量（independentVariable)和因变量(dependentVariable)之分：（1）两个变量有共变关系；（2）因变量的变化是由自变量的变化引起的；（3）两个变量的产生和变化有明确的时间顺序，前者称为自变量，后者称为因变量。例:社会整合程度影响越轨行为父辈职业与子辈职业

对称关系表现为对称关系的相关关系，互为根据，不能区分自变量和因变量，或者说自变量和因变量可以根据研究目的任意选定.例如:身高和体重之间的关系交往程度与关系密切程度第二节定类变量的相关分析本节内容：1、列联表2、削减误差比例3、λ系数4、τ系数1.列联表列联表，是按品质标志把两个变量的频数分布进行交互分类，由于表内的每一个频数都需同时满足两个变量的要求，所以列联表又称条件频数表。（1）边际次数/分布：表示列联表中相应纵列和横行的频数和,分别称为X、Y的边际分布；

（2）条件次数分布：表格中的其他次数；

例如，某区调查了357名选民，考察受教育程度与投票行为之间的关系，将所得资料作成下表，便是一种关于频数的列联表。2×2频数分布列联表的一般形式习惯上把因变量Y放在表侧，把自变量X放在表头。2×2列联表是最简单的交互分类表。

r×c列联表r(row)、c(column)

r×c频数分布列联表的一般形式自己志愿知心朋友志愿总数快乐家庭理想工作增广见闻快乐家庭289340理想工作241750增广见闻24410总数325414100

条件频数表中各频数因基数不同不便作直接比较，因此有必要将频数化成相对频数，使基数标准化。这样，我们就从频数分布的列联表得到了相对频数分布的列联表(或称频率分布的列联表)。下表是r×c相对频数分布列联表的一般形式。

r×c相对频数分布列联表的一般形式

在相对频数分布列联表中，各数据为各分类出现的相对频数(或者频率)。将频数化成相对频数有两种做法：

①相对频数联合分布(联合频率)

两个边际分布或②相对频数条件分布(条件频率)

或

r×c相对频数联合分布列联表控制X，Y相对频数条件分布列联表(列分布)控制Y，X相对频数条件分布列联表(行分布)[例A1]试把下表所示的频数分布列联表，转化为自变量受到控制的相对频数条件分布列联表，并加以相关分析。

投票行为Y受教育程度X

大学以上

大学以下投票弃权16071296128968合计：167190357

从上表可知，受过大学以上教育的被调查者绝大多数（占95.8%）是投票的，受教育程度在大学以下的被调查者虽多数也参与投票（占67.9%）,但后者参与投票的百分比远小于前者；前者只有4.2%弃权，而后者则有32.1%弃权。两相比较可知，受教育程度不同，参与投票的行为不同，因此两个变量是相关的。投票行为Y受教育程度X

大学以上

大学以下投票弃权95.8%(160/167)4.2%(7/167)67.9%(129/190)32.1%(61/190)81.0%(289/357)19.0%(68/357)100.0%(167)100.0%(190)100.0%(357)[例A2]试把下表所示的频数分布列联表，转化为相对频数联合分布列联表和自变量受到控制的相对频数条件分布列联表，并加以相关分析。

投票行为Y受教育程度X

大学以上

大学以下投票弃权1006711476214143合计：167190357

上表显示，大学以上文化程度和大学以下文化程度同样各有60%的人参与投票，40%的人弃权，并没有因为受教育程度不同，而使参与投票的行为有所不同。因此，此时的两个变量是不相关的，或者说是独立的。我们不难发现，此时反映全体投票情况的相对频数的边际分布()也各有60%的人参与投票，40%的人弃权。投票行为Y受教育程度X

大学以上

大学以下投票弃权60.0%(100/167)40.0%(67/167)60.0%(114/190)40.0%(76/190)60.0%(214/357)40.0%(143/357)100.0%(167))100.0%(190)100.0%(357)上表显示，当两个变量不相关时有。如0.532×0.40=0.213投票行为Y受教育程度X

大学以上

大学以下投票弃权28.0%(100/357)18.8%(67/357)31.9%(114/357)21.3%(76/357)60.0%(214/357)40.0%(143/357)46.8%(167/357)53.2%(190/357)100.0%(357)[练习]某社区调查了120名市民，考察性别与对吸烟态度之间的关系，试将所得资料作成相对频数的联合分布、边际分布和条件分布列联表，并进行相关分析。性别与对吸烟的态度态度Y性别X合计男女容忍48856反对204464合计6852120相对频数联合分布列联表态度Y性别X男(X1)女(X2)容忍Y140.0%6.7%46.7%反对Y216.7%36.6%53.3%56.7%43.3%100%(120)相对频数条件分布列联表(控制X,列分布)态度Y性别X男()女()容忍70.6%15.4%46.7%(56)反对29.4%84.6%53.3%(64)100%(68)100%(52)100%(120)2675名双亲和他们10071个子女

的智力的关系(%)(相对频数条件分布列联表)

父母智力组合

子女智力优秀

子女智力一般

子女智力低下

优＋优71.625.43.0

优＋劣33.642.723.7

一般＋一般18.666.914.5

劣＋劣5.434.460.2

相对频数分布列连表的规模不适宜太大，这样不利于数据的分析：（1）将类型进行分类，整合：五分类变为三分；（2）计算两个变量之间的相关系数；2.削减误差比例PRE（ProportionateReductioninError)

通过相对频数条件分布列联表的讨论，可以就自变量X和因变量Y的关联性给出一个初步的判断。但是对关联性给出判断，肯定没有用量化指标表达来得好。所以，下面我们将关注于如何用统计方法，使相关关系的强弱可以通过某些简单的系数明确地表达出来。在社会统计中，表达相关关系的强弱，削减误差比例的概念是非常有价值的。削减误差比例的原理是，如果两变量间存在着一定的关联性，那么知道这种关联性，必然有助于我们通过一个变量去预测另一变量。其中关系密切者，在由一变量预测另一变量时，盲目性必然较关系不密切者为小。

PRE：用不知道Y与X有关系时预测Y的全部误差E0，减去知道Y与X有关系时预测Y的联系误差E1，再将其化为比例来度量

PRE的取值范围是

0≤PRE≤lA、当两个变量完全没有关系的时候：E0＝E1，PRE＝0；B、当两个变量完全相关的时候：E1＝0，PRE＝1

削减误差比例PRE适用于各测量层次的变量，λ系数和τ系数便是在定类测量的层次上以削减误差比例PRE为基础所设计的两种相关系数。

3.λ(Lambda)系数

在定类尺度上测量集中趋势只能用什么指标?在定类尺度上测量集中趋势只能用众数。

λ系数就是利用此性质来构造相关系数的。基本逻辑：以一个定类变量值来预测另一个变量值时，若以众数作为预测的准则，则可减少的误差是多少。（1）对称的λ系数Y的每一分类中X分布的众数的频数(行)X的每一分类中Y分布的众数的频数(列)X的边际分布中众数的频数(行)Y的边际分布中众数的频数(列)[例]研究工作类别与工作价值的关系，工作类别可分为三类：工人、技术人员、管理/行政人员；工作价值也可分为三类：以收入/福利为最重要的职业选择标准的称为经济取向型，以工作的创造性、挑战性为最重要的职业选择标准的称为成就取向型，以工作中的人际关系为最重要的职业选择标准的称为人际关系取向型。对下表所示资料，用λ系数反映工作类别与工作价值的相关关系。工作价值Y工作种类X合计

工人

技术人员

管理/行政人员经济取向型成就取向型人际关系取向型100302070601050204022011070合计：FX150140110400（2）不对称的λ系数

X的每一分类中Y分布的众数的频数(列)Y的边际分布中众数的频数(列)[例]对下表所示资料，用λ系数反映性别与收入高低的相关关系。收入Y性别X合计男女低60150210高12070190合计180220400

性质：（1）0≤λ≤1

（2）具有PRE意义。（3）对称与不对称情况下，有不同的公式。（4）以众数作为预测的准则，对列联表中众数频数以外的条件频数不予理会。

（5）如果众数频数集中在条件频数分布列联表的同一行时，λ=0，从而无法显示两变量之间的相关性。

4.τ系数

τ系数的统计值域是[0，1]，其特点是在计算时考虑所有的边际频数和条件频数

。

注意：当众数很突出且众数分布不在同一行，同一列时，用λ系数较好；但当众数不突出时，用τ系数更好；若众数集中在某一行或某一列，一定用τ系数。

[例]对下表所示资料，用τ系数反映性别与收入高低的相关关系。收入Y性别X合计男女低60150210高12070190合计180220400

考虑到全部的次数，所以敏感度较高。同样是以PRE为基础的相关系数,具有PRE性质第三节定序变量的相关分析

定序变量只能排列高低次序，因而在分析时只能考虑两变量变化的顺序是否一致及其等级之间的差距。以此来计算两变量的相关系数。

1、同序对、异序对和同分对

2、Gamma等级相关系数

3、肯德尔等级相关系数

4、萨默斯系数（d系数）

5、Spearman等级相关系数

6、肯德尔和谐系数1.同序对、异序对、同分对

社会研究常用的两定序变量的相关测量法，有一类是以同序对、异序对、同分对的概念为基础的，如Gamma系数、肯德尔系数、d系数等。所以我们在讨论这几种相关系数之前，先来了解这三个概念。

在定序相关测量中，首先要搞清楚“次序对（pair）”的概念。例如，假设研究员工的工作满足感与归属感的关系，将工作满足感从低到高，分为低（1）、中（2）和高（3）三个级别，归属感也从低到高分为低（1）、中（2）和高（3）三个级别。下表列示的是5名被访者A、B、C、D、E的情况。单元XYA12B12C13D23E31“对”的概念1、总对数T=N(N-1)/2,N为个案数目。当只有两个定序变量时，可能出现的对的种类有以下五种（设：个案A在X上的等级为Xa，在Y上的等级为Ya，个案B在X上的等级为Xb，在Y上的等级为Yb）同序对

如果我们看到Xi＜Xj

，在Y序列中看到的是Yi＜Yj，则称这一配对是同序对。同序对只要求X变化方向和Y变化方向相同，并不要求X变化大小和Y变化大小相等。同序对的总数用符号ns表示。异序对如果我们看到Xi＜Xj

，在Y序列中看到的是Yi

＞Yj，则称这一配对是异序对。异序对只要求X变化方向和Y变化方向相反，并不要求X变化大小和Y变化大小相等。异序对的总数用符号nd表示。同分对

如果在X序列中，我们观察到Xi＝Xj(此时在Y序列中无Yi＝Yj)，则这个配对仅是X方向上而非Y方向上的同分对；X的这种同分对用符号nx表示。如果在Y

序列中，我们观察到Yi＝Yj(此时在X序列中无Xi＝Xj)，则这个配对仅是Y

方向上而非X方向上的同分对；Y

的这种同分对用符号ny表示。如果我们观察到Xi＝Xj时，也观察到Yi＝Yj

，则称这两个配对为X与Y同分对，以符号nxy表示。X

同分对的总数用符号Tx表示，Tx

＝nx+nxy

；Y同分对的总数用符号Ty表示,Ty

＝ny+nxy

。n个单位两两配对，总对数＝ns+nd+nx+

ny+nxy

计算Gamma系数，肯得尔系数、d系数等，我们面对的经常是两定序变量已形成列联表的资料，所以对我们来说很重要的是要学会定序变量列联表中这五种“次序对”的计算和识别。同序对：“右下余子式”法异序对：“左下余子式”法详见教材2.Gamma系数

如果在单元对中是以同序对为主，则表示变量x和变量y呈正相关；反之，如果是以异序对为主，则变量x和变量y呈负相关；Gamma系数原理：利用同序对和异序对数量之差，以此来反映等级相关的程度；公式（1）ns－－同序对的数目；右下余子式（2）nd－－异序对的数目；左下余子式性质：（1）取值范围[-1，1]（2）具有PRE意义（3）属对称相关测量。（4）不考虑同分对。右下余子式左下余子式

例：在某市200户中调查，看住户人口密度与婆媳冲突是否有关，交互分类后分布如下，计算G相关系数并提出研究结论。婆媳冲突住户密度总数高中低高2320449中11552894低8272459总数4210256200ns=23*(55+28+27+24)+20*(28+24)+11*(27+24)+55*24=6003nd=4*(11+55+8+27)+20*(11+8)+28*(8+27)+55*8=2204

=(6003-2204)/(6003+2204)=0.463.肯德尔等级相关系数(1)Tau-a系数

适用于不存在任何同分对的情况。

某市有12所大专院校，现组织一个评审委员会对各院校校园环境及学生体质进行评价，评价结果如表（表中已先将学校按X作了次序排列）所示，试计算校园环境和学生体质关系的肯德尔相关系数。

学校名ABCDEFGHIJ

环境名次（X）体质名次（Y）1234567891021537468109计算异序对的个数:AB,CD,CF,EF,EG,IJnd=6代入公式计算:（2）Tau-b系数当出现同分对时，对分母进行修正。与G系数一样，Tau-b系数也具有消减误差比例的意义。Tau-b系数的特殊性在于，只有在列联表的行数与列数相同（r=c）的情况下，其系数值才可能是-1或+1，否则便不确定。

（3）Tau-c系数当同分对很多时，且r≠c

，可以用Tau-c系数来测量。

m取r×c列联表中r和c值较小者。

Tau-c系数没有消减误差比例的意义。

4.萨默斯（d系数）萨默斯提出的，对G系数进行修正。(除考虑同序对,异序对外,还考虑同分对的个数)X为自变量Y为自变量

d系数具有PRE意义，取值[-1，1]，为不对称测量。

5.Spearman等级相关系数

d——每个样本单位在两个变量上的等级之差计算步骤:首先将定序变量X和Y的数值形成对应的两个序数数列(其中先将X由小到大排列)。如遇有相等的数值时，则应将原有的等级求其平均数，让它们以这平均等级并列。然后求出等级差，经平方后求和，运用上式即可求得斯皮尔曼等级相关系数。取值范围：[-1，1]

例：为了解活动能力与智商是否有关，进行了10名同学的抽样调查，资料如表，问这10名同学的智商与活动能力是否有关。学生活动能力名次智商智商名次A11103B21103C31056D4959E51201F69410G71008H81056I91056J1011036、肯德尔和谐系数（1）应用条件：对于多变量求等级相关；Ri:第i个评价对象所获评价值的等级和；K:评价者的个数n:评价对象的个数（2）计算过程：A、制表：将评价对象按列为第一位的评价者评价的等级，从小到大排列，然后排出其它评价者的评价序列；B、就每一个评价对象求出等级的和，记作R，然后求出R的平方；C、分别代入公式，求出肯德尔和谐系数；例:假设四位专家对10所大专院校环境质量进行排序，有关评价结果列于下表，试通过计算肯德尔和谐系数，检验专家意见的一致性和相关程度。

计算结果表明四位专家对10所大专院校环境质量排序的评价意见有显著的相关性，即意见基本一致。第四节定距变量的相关分析对于定距变量，根据其变量值的数学特征，我们自然可以引进更为精确的量化指标来反映它们之间的相关程度。两个定距变量之间的相关测量，最常用的就是所谓积差系数．它是由英国统计学家皮尔逊(Pearson)用积差方法推导出来，所以也称皮尔逊相关系数，用符号r表示。

1.相关表和散点图相关表：经整理后反映两变量之间对应关系的数据表。散点图：将相关表中各个有对应关系的数据在直角坐标系上标出来，就得到散点图。散点图可以直观地观察两变量之间对应关系。工龄(年)X111333555777技术考核分Y1232343.54.55.5789散点图表示的相关的类型★线性正相关★线性负相关★完全线性正相关★完全线性负相关★称零相关

2．积差系数的计算

试就下表所示资料，计算关于员工的工龄和技术考核分的皮尔逊相关系数。

工龄(年)X111333555777技术考核分Y1232343.54.55.5789

N0工龄X技术考核分YX2Y2XY1234567891011121113335557771232343.54.55.5789111999252525494949149491612.2520.2530.25496481123691217.522.527.5495663

合计4852.5252299.75268.5解：计算过程见上表r=3．积差系数的性质（1）r是线性相关系数。（2）适用于定距/定比变量。（3）取值[-1，1]，绝对值越大，相关程度越高。r的绝对值在0.3以下表示不相关；0.3~0.5表示低度相关；0.5~0.8表示中等相关；0.8以上表示高度相关。（4）X与Y是对称关系。（5）相关系数的数值不受坐标点变化的影响。（6）具有PRE性质；（实际上是r2——判定系数才是真实的测量了相关，具有这一PRE的性质）（7）r公式中的两个变量都是随机的，因而改变两者的位置并不影响r的数值。

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

统计第十章相关与回归分析

文档简介

温馨提示

最新文档

评论

统计 第十章 相关与回归分析

文档简介

温馨提示

最新文档

评论

相关文档

统计第十章相关与回归分析