版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、阐明复杂世界中的差异本章在前两章基础上为我们提供了一个通向数据分析更高层次的阶梯多变量分析技术。目前为止我们讨论过的单变量或双变量分析的方法和技术已经能够使分析者在一组或两组差异中发现形式。然而,很明显世界并没有被分割成孤立的变量对。因此,如果只尝试用两个两个的形式解释差异,就不可避免地使回归分布受限制,在最坏情况下可能失真。多变量技术是通过搜集世界更复杂的部分进入一个分析框架中来帮助分析者减少这些限制或扭曲的工具。在3.1我们检测了双变量分析被应用于三个变量或者更多变量数据分析时的基本限制。这些限制部分来源于不断增长的变量数目,还来自于有可能变得更复杂的关系模式。这种对后者的关注将会引导我们
2、去引进不同的混淆关系,调节关系和中介关系模式。在3.2介绍了多变量数据分析的比较核心的策略,并且大概讨论了这种策略是怎么解决3.1介绍的双变量技术的限制。这种策略通过“权衡”每一个变量并且将它们纳入到 一个复合物中而形成复合变量,然后将这个复合变量又引入到另一个复合物中。这种复合和权衡的思想如此基本以至于我们要检测它们在一些细节上的意义和解释,但是这种思想总是强调概念上的而不是统计学的问题。为了保证这些中心方法是让人信服的,我们首先通过对简单回归的回顾来开始这一章的学习,并将它延伸到可以容纳更多独立变量的多元回归中,并且最后呈现多元回归方式是怎么被概括到一个广义的MDA策略中的。在3.3我们回
3、归到细节并且尽力去得到一个更加关键的关于“复合变量数据分析必须提供什么”的一个视角。它的优势是相当明显的,但是它们很容易被夸大或者被曲解,这种事件的发生部分因为语言的使用,因为统计学术语例如“解释”和“预测”似乎代表了很多,但是事实上它们要比在一般研究论述中有更多的约束性的意义。带着这些最后的想法,我们应该做好准备用一种广阔的和平衡的方式去学习第2部分的技术。3.1 双变量分析的限制在第一章我们使用了简单回归去探索积极情绪方面的差异可以在多大程度上解释幸福感方面的。因为我们也拥有生活满意度方面的数据,所以我们可以重复分析去看一下生活满意度的差异是否也可以解释幸福感方面的差异。在分离的双变量分析
4、中处理这两种关系的限制是什么呢?它们可以被分成三类:描述性的,推断性的,相关性的。从描述性的角度我们没有发现积极情绪和生活满意度是如何共同地作用于幸福感的。我们不清楚这两种属性总共可以在多大程度上解释幸福感方面的差异。在特定的情境下这个问题的答案可以来源于双变量分析,但是正如我们看到的,这种情境太稀少了。对这种类型的描述性问题的更有力的回答来源于多变量分析。转向统计推断,在第2章我们发现零假设的测验结果主要依赖于,如果零假设被拒绝,那么概率值必须在临界值之外。的价值是防止不适当地拒绝零假设(I型错误),这种错误地发生率比我们所希望的通常的5%更高。这个程序的一个特点是计算结果是依据一次性的抽样
5、逻辑预测出来的。那时我们忽略了这一点。如果我们继续转向数据,开始测验越来越多的由共同变量相连的假设,那么的真值无形的扩大。因此,我们可能以为一个0.05的是恰当的,但它的真值可能更高。从另一方面来说,我们测试的相同变量的假设越多,我们就越可能错误地相信我们已经发现了一个效应。许多技术已经开始解决这种多元测验的膨胀结果,我们将在第6章探讨它们。这些是很有价值的,但是另一个能使我们一次性测试一系列假设的方法对我们也是很有帮助的。我们将会发现多变量分析可以精确地提供这种便利,例如,我们只需一次多变量测试就可以评估积极情绪、生活满意度是否与幸福感有统计学意义的关系。尽管双变量分析在指出一系列变量的全部
6、影响以及减少假设测验的次数方面很重要,但是考虑各种变量之间的关系远比这重要。在这儿我们要回归到我们的中心思想世界不是由独立的变量对组成的。例如,积极情绪和生活满意度对幸福感的任何一个影响不可能都是相互独立的或者的确独立于目前还没提及的其他变量的。如果这是正确的,我们需要系统的考虑三个或者更多变量大体上是怎么联系的,然后这些模式是怎么系统分析的。很明显,根据定义,双变量分析不能完成任务,为我们转向多变量分析找到了另一个动力。多变量关系模式通常被认为是这三种:混淆模式,调整模式,中介模式。我们可以用两个自变量和一个因变量来说明这些,但是我们必须知道这些是最简单的三变量版本。由于分析中加入了更多的变
7、量,比之前更加复杂的关系出现的可能性以一个惊人的速度在增长。 同时,这种基本的模式列表是不详尽的,但是它包含了许多分析情境为其他可能性提供了建模。在混淆模式中两个自变量对一个因变量的独立影响是失真的,因为自变量之间是有关联的。因此,例如,如果积极情绪和生活满意度在某些程度是相关的,那么就很难理清它们各自对幸福感的影响:它们之间很可能相互混淆。这就意味着对于混淆的研究应该将注意力集中于与一个自变量或者因变量有关的变量三角关系。然而,我们必须明白,不管这个三角关系被怀疑或被证明,由于混淆而产生的失真不一定会出现。三角关系是混淆产生的必要非充分条件。由混淆产生的失真可以通过多种方式证明,注意这个也是
8、比较重要的。根据三角关系的强度和方向性,影响可能会出现或者消失,大小会上升或下降,或者符号会改变。无论是在考虑或者衡量混淆变量上,还是揭示混淆出现在哪的分析以及对其进行适当控制上,它都是很令人期待的。多变量分析利用统计学控制来实现这些。后面我们来看一下积极情绪和生活满意度是否混淆并且评估它们各自对幸福感的影响。调节模式不是可能产生失真的一种形式,但是它仅仅用3个变量就为更加精密的理论开辟了道路。在本质上,它表明了自变量和因变量之间的关系随着第三个自变量的不同而不同。因此它也表明了第三个变量调节着它们的关系。从我们的例子中可以得出,对于生活满意度比较高的个体,积极情绪对幸福感的影响比较强。这里的
9、关键词是“强”,因为它指定了调节变量在更高水平上是如何变化的。这种模式类型被称为交互作用,其中的双变量的关系会随着第三变量的不同而变化。在例子中除了积极情绪和生活满意度对幸福感的单独影响,它们对幸福感应该有一个交互作用或者共同作用。随着更多的自变量加入进来,更多的双向交互作用和高阶交互作用变成了可能性。最后注意,只要有理论或者实证的正当理由,分析者就可以自由地指定调节关系的任何一种形式。这里提到的特定的模式,即在更高生活满意度水平上积极情绪对幸福感影响的增多,不管它对常识多有吸引力,只是随便选取的一个角度而已。中介模式是一个因果链,并且它可以使理论更加精密。在这个模式中一个自变量通过另一个自变
10、量作用于因变量。换一种方式,如果我们想像一个因果链连接着三个变量,可以说中间的变量调节着第一个变量对第三个变量的作用。我们可以推断出积极情绪调节着生活满意度对幸福感的影响。在本例中,生活满意度产生积极情绪,积极情绪反过来又提高了幸福感。在原则上辨别出总中介和部分中介是可能的。将全部调节方案应用于我们的例子中可以看出,生活满意度影响幸福感的唯一途径是通过积极情绪。利用部分调节可以看到积极情绪仅仅是生活满意度影响幸福感的一个途径。在总中介和部分中介之间选择是分析者的特权,并且是一个重要的问题,因为它将会引导关于在多元分析中出现的模式的期望。在接下来的部分中我们从多元分析角度用一般性术语讨论混淆关系
11、、调节关系、中介关系是怎么被看待的。现在,最重要的是理解每种关系类型的形式以及它们的特征。理解各种关系类型之间并不是彼此独立的也是非常重要的。这三种可能会出现在相同的分析中并且要求理解统计策略。这一点上一定要清楚,双变量分析不能解决我们介绍的复杂情况。然而,它们确实提供了构建多变量策略的建模。3.2多元分析策略现在我们准备去处理多元变量的问题:当分析中包含了3个或者更多变量时我们改如何解释差异。正如我们在上个部分看到的那样。这个问题的理想答案能够使分析者在全集或者子集中处理变量,使统计测验数量最小化并且能够提供获取混淆、调节、及中介模式关系的方法。这个答案我们即将在3.2.1讨论,主要通过回顾
12、和进一步论述我们在第一章学习过的简单回归和双变量回归开始这一部分的学习。在接下来的3.2.2部分我们将看一下,当存在2个或者更多自变量时这个怎么扩展到多元回归中。在用一般性术语探讨完多元回归分析是怎么分析混淆、调节及中介关系后,我们将在3.2.3讨论回归方法是怎么被看作处于多变量中心的一般性策略的一个特例的。因此简单回归和多元回归在本部分仅仅作为介绍多变量分析的关键概念的一个工具而已。更详细的多元回归方法将在第4章出现。3.2.1 回顾回归建模假设有5个被试,分别用A,B,C,D,E表示,提供了积极情绪、生活满意度及幸福感的测量得分。这次每一个得分都在110范围的等距尺度上。假设分数如表3.1
13、所示。表3.1 5个被试(AE)的三组得分 被试 积极情绪 生活满意度 幸福感 A 3 3 3 B 5 6 5 C 6 5 4 D 7 4 5 E 9 7 8在这些数据中幸福感的差异在多大程度上是由于积极情绪造成的呢?正如在第一章讨论的那样,两个等距变量的关系可以用回归方程来归纳,它有2个未知数:斜率和Y轴截距。利用现在这些数据可以得出斜率是0.75,Y轴截距是0.5.这些数据可以用来处理个体差异和组间差异的研究问题。但是在我们看这些之前,先集中注意一个被试例如E对我们是有帮助的。回归方程可以根据E在积极情绪上的得分9预测出E在幸福感的得分。计算方法是积极情绪的得分乘以斜率再加上Y轴截距。如下
14、E的幸福感预测得分=斜率×E的积极情绪得分Y轴截距 =0.75×9+0.5=7.25对于E的这个预测有多大误差呢?这个可以用实际的幸福感得分8减去预测得分计算出来:87.25=0.75,这个误差值被称为残差。因此回归方程对于被试E或者样本中的任何个体都能产生两种新的得分:因变量的预测得分和残差。第一个得分7.25体现了因变量可以通过自变量预测出来的一部分,第二个残差的得分0.75体现了剩下的不可预测的部分,还有,非常明显的是这两个得分加起来正好是因变量得分。因为每个被试都有一个预测得分和一个残差,我们可以通过5个被试和推断统计用一般方法获得个体差异。所有有关的统计都出现在3
15、.2的方差分析表中。预测分数的平方和与我们在第一章遇到的回归平方和不同,用它除以自变量的数目得到回归方差(均方)。在现在的样本中回归平方和和方差都是11.25。如何才能把它转化成一个更具解释性的统计资料以使它能够表明个体在幸福感上的差异多大程度是由积极情绪造成的?表3.2 方差分析表积极情绪和幸福感的关系 差异来源 平方和 自由度 方差 回归 11.25 1 11.25 残差 2.75 3 0.92 总计 14.00 4回归平方和11.25表明了个体在幸福感的差异多大程度可以由积极情绪的差异来预测。幸福感个体差异的总数量14由幸福感的平方和所体现。由于Y轴截距,这两个数据是可以直接比较的,对于
16、这一点我们是没什么可怀疑的。Y轴截距可以看做是回归计算的一个校正,这就保证了预测因变量的得分均数等于实际因变量的得分均数。这两个平方和是可以直接比较的,因为它们建立在相同均数的偏差上。因此,我们可以非常简单地用回归平方和除以平方和总数得到r2:因变量差异可以由自变量解释的一部分。例如现有数据r2是11.25/14=0.804。这就是说积极情绪可以解释幸福感差异的80.4%。现在我们转向五个残差,可以看到这些残差也可以转化成平方和和方差。随着r2的逻辑,残差平方和除以平方和总数将会表明幸福感差异不可以由积极情绪解释的一部分。这个数字是2.75/14=0.196,这也就是说积极情绪不能解释19.6
17、%的幸福感差异。正如我们期望的那样,可解释差异和不可解释差异相加是1或者100%。如果我们取残差的平方和,可以根据标准差解释不可解释的差异,还可以得到估计的标准误,这在本案例中是0.96。它可以直接与因变量的标准差1.87相比较,做这种比较的一种方法是根据误差成比例的减少而言的。如果我们从因变量的标准差中减去估计的标准误,用它除以因变量的标准差,我们就能看到,与只使用因变量的平均数时相比较,考虑自变量可以在多大程度上减少误差。这个计算是这样的:(1.87-0.96)/1.87=0.487。这就意味着如果考虑积极情绪的得分,我们在预测个体幸福感得分时会减少48.7%的误差。我们已经使用回归方程去
18、得到每一个被试的幸福感得分和残差,然后推导出总的统计量,例如r2和估计的标准误,利用它们可以去量化积极情绪的组内差异可以在多大程度上解释幸福感的组内差异。现在我们转向积极情绪的组间差异可以多大程度解释幸福感的组间差异。这个问题可以通过参考回归方程中的斜率回答。0.75这个数值说明了在积极情绪上相差1的组别在幸福感测量上平均相差0.75。值得注意的是因为我们现在站在组别的视角上,所以应该关心在平均水平上发生了什么。现在完成了简单回归中关键统计量的回顾。我们已经花费时间去回顾并且详细阐述它们,因为它们会扩展到多元回归中。因此,对它们有一个深入的了解将会使我们顺利地从双变量分析过渡到多变量分析。3.
19、2.2 回归中的复合变量在3.2.1我们对幸福感和积极情绪之间的关系分割出了附加的成分。我们可以看到:幸福感得分=预测的幸福感得分+残差并且可以将方程右边分解成:预测的幸福感得分=斜率×积极情绪得分+Y轴截距是这个回归方程为我们处理一个以上自变量提供了工具。这要求我们在字面上为每一个额外的自变量增加新的术语来扩展公式。因此,对于表2.1中的数据,用公式表示将是: 预测的幸福感得分=斜率×积极情绪得分+斜率×生活满意度得分+Y轴截距为了探讨这个新的多元回归方程的细节,我们再次将注意力放在表3.1中被试E的身上。被试E的回归方程是:E的预测幸福感得分=(0.5
20、5;9)+(0.5×7)+(-0.5)积极情绪得分9和生活满意度得分7取自表3.1的最后一行。斜率值(这恰好是相同的)和Y轴截距已经使用SPSS软件包计算出来了。(当我们完全地转向多变量分析时,我们将不会再涉及计算,因为它们太复杂了,最好利用计算机处理。)被试E的预测幸福感得分是7.5。因为这个被试的实际幸福感得分是8(见表3.1),所以残差是0.5。值得注意的是预测得分现在建立在两个自变量上而不是我们之前使用过的一个,而且在这个中,残差已经从0.75降到了0.5。增加关于被试E的生活满意度方面的信息已经提高了预测力,相当于减少了预测误差。这可能对于被试E来说是正确的,但是现在我们怎
21、么很好地解释所有案例中的组内差异呢?尽管回归方程已经被扩展,但是预测的幸福感得分和残差与简单回归中在形上是相同的。因此我们可以继续从这些分数中得到概括统计量。依据可解释的差异。计算机得出的结果是0.893。与我们仅仅通过积极情绪获得的80.4%的及时相比,积极情绪和生活满意度共同解释了5个被试的幸福感得分的89.3%的组内差异。在多元回归中这个统计量变成了r2的多变量版本并且被称为多元R2,用大写字母R表示,但是它的含义没变。另一个我们之前学到的组内差异统计量就是估计的标准误:不可解释的可变性的一个指示器。当在方程中只有积极情绪时,估计的标准误是0.96。当生活满意度被加进去之后,计算机结果显
22、示估计的标准误降到了0.87误差的进一步的减少。仔细考虑R2的本质直接带领我们回到多变量分析的核心概念。它可以看做是实际的幸福感得分和预测的幸福感得分的相关的平方。因为预测分数是由多元回归中的多个自变量得出来的,所以R2也被看做是自变量和包含所有的因变量的复合变量的相关的平方。复合变量的形成是为了一次性分析许多变量,这是多变量分析的核心策略。在这里我们看到了这个策略以多元回归方程的形式起作用,但是稍后我们将要推广这个方法,更加全面地揭示它的分析力度和范围。复合变量在分析中不仅可以得出每一个被试的预测得分和残差,而且包含了显示自变量的组间差异和因变量的组间差异是以何种方式相关的信息。和简单回归一
23、样,这个信息是在斜率中发现的。在早期的积极情绪和幸福感的简单回归中我们得出了一个斜率0.75,然而在多元回归中积极情绪斜率是0.5。一些东西已经改变了,但是到底是什么呢?在多元回归中一个斜率更应该被看做一个偏斜率。它量化了方程中除了其他所有自变量的作用后一个自变量的作用。偏斜率这个概念在直观上并不明显,它是多变量分析的基础。因此探讨解释偏斜率的各种方法也是有益的。概念化偏斜率的最普遍方法是依据统计控制。偏斜率0.5显示了当对生活满意度进行了统计控制后,积极情绪对幸福感的影响。类似的,生活满意度的偏斜率(恰好也是0.5)显示了当对积极情绪进行控制后,生活满意度对幸福感的影响。但是控制什么呢?答案
24、就是积极情绪和生活满意度的关系。这两个自变量之间的相关是0.71,这也就是说,它们仅分享了它们方差的50%以上(0.712=0.504)。这意味着它们对幸福感的影响是混淆的,因此对一些混淆变量的觉察和控制是必须的。这确切地说是多元回归通过偏斜率实现的。从简单回归中的斜率0.75到多元回归中的偏斜率0.5的转换显示了混淆的觉察和控制在对积极情绪起作用。第一个数字显示了积极情绪对幸福感的作用,然而第二个数字在控制或者抵消与生活满意度的混淆关系后也显示相同的作用。另一个处理偏斜率的方法是保持潜在的混淆变量恒定。通过保持一个变量恒定来控制它的策略是一个主要的实验设计。例如,如果我们想研究一个随着时间而
25、系统变化的行为的原因,那么在同一时间进行研究是非常明智的。通过这种方式保持时间恒定可以确保不会与兴趣的其他变量产生混淆。把一个变量转化成恒定的就可以保证,它不会与其它变量共变,并且不会产生混淆。混淆的三角关系就被打破了。控制某变量恒定并不总是可行的或道德的选择。偏斜率可以被看做以非直译的统计学的形式获得相同结果的另一种方法。因此积极情绪的偏斜率显示了当生活满意度被控制为恒定时,积极情绪对幸福感的影响。换一种说法,偏斜率显示了积极情绪测量得分相差1但是生活满意度测量得分相同的组别在幸福得分上有多少不同。考虑偏斜率的第三种方法是依据调整变量。从这个角度来说,当一个自变量被调整到考虑与其它自变量的关
26、系时,偏斜率显示的是这个自变量对因变量的影响。同义地,分析者也谈到校正或者排除其它变量。因此在调整,校正或者排除积极情绪与生活满意度的关系后,积极情绪的偏斜率体现了积极情绪对幸福感的影响。尽管我们不去探讨这个是怎么实现统计力学的,但是进一步的去关注排除是怎么实现的也是有益的。这样做的一种方式就是把多元回归看成是一系列的简单回归。为了得出积极情绪的偏斜率,我们首先建立一个积极情绪为因变量并且生活满意度为自变量的一个简单回归。这样将会产生两个新的变量:预测的积极情绪得分和残差。残差变量包含积极情绪差异中不能通过生活满意度差异预测的一部分。因此残差变量可以被看做调整了的积极情绪变量,这也就是说,调整
27、它以排除由生活满意度带来的所有差异。相对于生活满意度,积极情绪已经被残差了。这个残差变量在另一个以幸福感为因变量的简单回归中变成了自变量。简单回归中积极情绪的这个斜率等于多元回归中的偏斜率,因为积极情绪的偏斜率已经被调整为积极情绪和生活满意度的关系。我们可以对满意度实施类似的程序。首先将会有一个简单回归。其中生活满意度作为因变量,积极情绪作为自变量。然后会有另一个简单回归,来自于第一个回归的残差变量作为自变量(残差生活满意度),幸福感作为因变量。这样将会产生一个斜率,这个斜率可以表明已经调整的生活满意度对积极情绪的影响。使用形成复合变量的回归方程为我们在3.1部分讨论过的一些限制提供了解决方法
28、。通过产生预测因变量,我们有一个计算统计量例如R2的策略,它要求把自变量看做一个集合。多元回归显示了积极情绪和生活满意度共同解释了幸福感差异的89.3%。这个R2数值不同于两个独立简单回归得出的两个r2的和。这些简单回归显示了积极情绪解释了幸福感差异的80.4%,生活满意度解释了幸福感差异的71.4%。然而,由于两个自变量之间的关系(r=0.71),在本案例中。每个自变量同因变量的关系都被膨胀了。积极情绪变量的预测能力与生活满意度的预测能力相混淆,反之亦然。由多元回归提供的统计控制不仅产生了偏斜率,而且产生了一个R2,这个值被调整以考虑各个自变量之间的相关。只有当自变量之间不相关时,这时没有什
29、么可调整的,多元回归的R2才等于简单回归的r2的和。因为多变量技术大多在处理相关自变量时使用,因此上面这种情况很少出现。我们在3.1部分验证的对多变量数据进行双变量分析的第二个限制是由多元假设测试产生的I型错误被扩大了。这类错误也遭到了复合变量和它的结果的拒绝。当对一个多元回归进行实施时,首先对零假设进行检验,在群体样本中通过F检验得到的R2是0。这就等同于检测是否任何自变量与因变量都存在统计学意义的关系。因为这些关系是同时被检测的,所以这被看作是一种多项检测。如果R2检测不具有统计学意义,也就是说,零假设被接受,不需要对个体自变量进行进一步的检测,在这时多项检测是一个非常有效的方法。在我们的
30、样本中F8.33有一个与其相联系的P值0.11。假设我们采纳了通常的0.05,零假设因此被接受,没有进一步假设是合乎情理的。尽管大样本的R2值是0.893,但它仍然与R2为0的假设保持一致。值得注意的是这个结果高度受到了小样本容量和随之而来的统计力度的缺乏的影响。如果R2检测具有统计学意义,我们将要继续检测每一个偏斜率的假设。这种分析要用t检验或者F检验来检测在群体中偏斜率为0的假设。例如。积极情绪的偏斜率的是0.5,它的t值是1.83,p值是0.209。正如R2检测已经证明的那样,积极情绪和幸福感之间不存在统计学意义的关系,生活满意度偏斜率的t检验也得到了相同的结论。假设检验对我们在第2部分
31、探讨的多变量技术具有重要意义。现在,最值得注意的是复合变量的使用允许分析者同时检测多元假设,进而减少了在任何一次分析中的检测次数。当对多元的、相关的假设逐一检测时,它还可以反过来帮助解决I型错误扩大的问题。还有,当自变量之间的混淆关系被调整后,反映自变量作用的偏斜率假设也可以被检测。双变量分析的第三个限制是处理多变量模式,例如混淆模式,调节模式,中介模式。现在比较清楚的是多元回归如何提供了一个探测和控制混淆关系的工具。它也可以被用来分析调节关系和中介关系,而且一般来说这个的实现可以在表面上给多变量分析带来两个更进一步的优势。它们分别是用单个术语呈现一个回归方程中的复杂关系和使用一系列的回归方程
32、分析复杂关系。在我们早期的关于中介关系的讨论中,我们假设生活满意度可以调节积极情绪对幸福感的作用。也就是说,除了它们各自对幸福感的影响,积极情绪和生活满意度可能对幸福感还有一个交互作用。这种额外的作用可以被认为是另一种自变量,它在字面上是积极情绪和生活满意度的结果。这个新变量可以被加入到多元回归方程中,因此现在的形式是:预测的幸福感得分=斜率×积极情绪斜率×生活满意度 斜率×积极情绪X生活满意度Y轴截距在这个多元回归方程中的偏斜率值可以通过一般方式得到。我们的特别兴趣应该在交互变量的偏斜率上。如果这个偏斜率具有统计学意义,我们就能证明两个自变量除了各自的作用外还存
33、在一个交互作用。我们需要进一步的分析以发现交互的特殊形式是否与预期的一致。撇开统计细节不管,重要的概念点是调节关系像其它变量一样,可以从字面上被加入一个复合变量中并且以控制形式进行检测。进一步概括这一点,我们将会看到在回归方程中可以构建一个变量来显示所有的作用,这给获得复杂关系的技术提供广阔的范围。在这个多变量回归方程式中偏斜率的值以这种常规的方式就能得出,而我们的关注点应该在交互作用的变量的偏斜率的值上。如果这个偏斜率值具有统计上的差异性,那么我们就能够证明这两个独立变量除了有各自的统计效果之外,还有一个交互作用的统计效果。而后的进一步分析要求发现在预期的线性中是否存在交互作用的特殊形式。抛
34、开统计细节,这里最重要的概念点是适度的关系能够逐次的添加到一个多种变量上并且能够以一种能控制的形式进行检验,就如同其他的独立变量一样。进一步推广这个概念,我们将会发现一个回归方程中的变量能够被构造出来去呈现各种各样的效果,这就给了我们一种在数据的庞大范围中抓住复杂关系的技术。至于中介关系,它起初表明在幸福感上的生活满意度所起的作用可能会被积极情绪所调节,它设想了在一个因果链中生活满意度能够提高积极情绪,而积极情绪又能增强幸福感。这种因果模式能够被一系列分解关系链的回归所评估,即等级或顺序回归,在接下来呈现的的例子中我们将继续解释这种方法。第一个简单回归将会提供一个生活满意度影响幸福感的斜率,而
35、生活满意度和幸福感是关系链中第一个和最后一个变量。第二个多重回归将会提供一个偏斜率,而这个偏斜率是显示生活满意度和积极情绪对幸福感的影响。如果生活满意度仅仅只能够通过积极情绪对幸福感有所影响的设想是真实的话(总中介),那么要打破这个关系链而又要保持积极情绪恒定不变的话,就需要改变生活满意度和幸福感之间的关系。从统计的角度来说的话,这意味着当积极情绪保持恒定不变时,我们期望在第一个回归中生活满意度出现一个显著性的差异,而在第二个回归中偏斜率不显著。关于中介效应的分析还存在许多其他的问题,其中一些我们将在后续的章节中探讨。而上述讨论的主要目的是介绍顺序回归的概念,并且给予大家一种潜在的意识,那就是
36、怎样运用顺序回归来分析中介关系。而在实践中,顺序回归被用来分析适度关系或交互作用的效果是没有什么价值的。在前面的例子中一个多种回归将首先被用来检查积极情绪和生活满意度在影响幸福感上的独立效应,即所谓的主效应。随后第二个回归(包括主效应变量和交互作用变量)将会被操作,最后,我们的兴趣又一次将会集中在比较两个回归的结果,这一次是关于R2 。特殊的是,我们想要知道当交互变量被加到回归方程中时在R2中是否存在一个显著的增长,这个增长本身能够用F检验来进行验证,如果它的差异显著,那么我们就有证据表明除开它们各自的效果之外还存在一个交互作用。这两个简单的例子表明,顺序回归为复杂模型的分析提供了一个有力的工
37、具。3.2.3 一般化复合变量多变量回归是把一个因变量(DV)和多个自变量(IV1,IV2)之间的关系描述转变为各种各样的加法算式,这个加法算式可以写为:DV=斜率1×自变量1得分+斜率2×自变量2得分+Y轴截距+残差上述算式中的斜率1和斜率2分别代表了自变量1和自变量2作用于因变量上的效果,而省略号则暗示我们能以分开或结合的方式叠加更多的自变量。在方括号中的由各自变量相结合而形成的复合变量则可以预测因变量的得分。在上述的复合变量中,Y轴截距可以看作是一个调节,它通过赋予预测的因变量和实际的因变量相同的均值而使得两者对齐。最后,残差代表了没能被复合变量所预测的那部分因变量。
38、到目前为止就多元回归来讲的话所有的多元思想就都已经阐释完毕了,即一个特殊的多元技术。这对于我们现今在更多的一般情况下去重新描述上述的方程式非常有帮助,因此我们能够在每次运用它的过程中检验第二部分中所提及的特殊技术。这种一般的构架能够比其他的方法更好的帮助我们理解多元技术的统一性。重新表述的方程式仅仅是替换了几个词语而已:DV=系数1×效应1+系数2×效应2+常数+残差第四个条件被更多的一般性条件“效应”所代替。一个效应有可能是单个的变量,即所谓的主效应;也有可能是两个或者多个变量相结合一个交互效应。原来的斜率现在被当作系数参照,它作为一个基本指令,使得与系数值相关的变量多元
39、化。系数也被称为权重,举个例子来说,回归斜率也可能被称为回归系数或者回归权重。方括号中的复合变量由于是一系列变量的总和,因此通常被称为线性加权和,它们中的每一个都已经被因子或者系数所加权。尽管如此,我们还是将会采纳“系数”而不是“权重”的说法,因为它更多的涉及多变量技术。“Y 轴截距”这种说法是针对回归来讲的,因此它被更一般的说法“常数”所替代。常数这个词非常有用因为它抓住了一个固定调节的内涵。“残差”和“误差”经常会混淆使用,但是由于误差有很多其他的解释,因此在这里使用“残差”会更准确一点。根据方程式中这些词语的描述,我们现在对多变量分析的基础方面有了一个大致的了解。复合变量通常被看作是为建
40、立一个统计“模型”而设的一个装置,而这个统计模型能够解释数据中的模型,比如在因变量中发现的差异。正如我们所见,这个模型可以通过个体视角所观察到关于这个个体的因变量的预估价值是什么;个体差异自变量上的差异能够多大程度的解释在因变量中的个体差异;组间差异因变量上的组间差异和自变量上的组间差异是怎样相关的?模型这个词对我们来说很有帮助,因为它提醒我们这完全是依靠分析方法本身去选择模型中应包括哪种效应。这个统计结构原则上可以容纳很多的变量,变量的形式可以是单个的,也可以是结合的,可以是原始的,也可以是经过转换的,因此选择的余地非常广泛。如果这种多变量分析方法以一种简洁而有效的方式来解释差异的话,那么就
41、不得不拒绝许多的效应,但是这又必须实在没有丢失掉重要信息的情况下进行的。而成熟的理论应该在如何作这些选择方面扮演一个重要角色。但是,就数据分析本身来说它有一个职责,即通过分析去比较相同的一组数据不同的模型。而这种模式比较的方法我们将在第二部分中不断地遇到。虽然复合变量将会提供一个通用的框架(在这个框架内,我们会发现在第二部分中探讨过的所有的多变量技术),但是,我们也会发现 。正如我们在第一章中所学到的一样,根据最小二乘法的原则,我们可以预测回归系数。这就意味着建立系数值时,预测误差即残差平方和最小。另一个相同的方法是这样描述最小二乘法原则的,那就是它会产生一个系数值,而这个系数值最大化体现了因
42、变量上预估得分和实际得分之间的相关。只要我们将某一事物最大化或是最小化,那么这个最小二乘法的准则就会一直存在于其中,但是某一事物也会由于技术的使用而发生变化。关于多变量的核心观点我们已经介绍完了。复合变量(加权变量的总和)很明显的是一种潜在有力的工具,能够对宽泛、复杂的研究问题作出解释。然而,尽管一种分析方法已经被很好地运用,它的问题仍然是结果有可能被曲解。在第二部分中,围绕着来自于具体技术的结果的正确解释而产生的特殊(具体)问题将会很庞大。除开这些问题之外,这里还存在一个所谓的“一般性”误解,在理论上来讲,对于所有的多变量技术,“一般性”误解经常出现。在接下来的部分里我们将讨论这些属性误解的
43、本质问题,从而把它作为在介绍技术本身之前的最后一个初级介绍。3.3 关于多变量技术的一般性误解关于一般性误解,可以围绕着四个问题而展开:·“阐明”差异意味着什么?·结果应用到哪里?·假设检验的结果有什么意义?·统计控制实际上取得了怎样的效果?前三个问题并不是只针对多变量分析来说的,因为它们在简单的分析方法中也会遇到。无论如何,前三个问题是如此的重要以致于在任何数据分析的介绍中它们都会被讨论。此外,多变量分析的复杂过程会误导你相信许多问题已经被一些神奇的统计方法所解决。而实际上,正如我们将会看见的一样,多变量分析仅仅只能帮助我们解决和上述提出的第四个问题有
44、关的一些问题,并且还是以一种很有限的方法解决的。回答这四个问题将导致我们很快地跌入统计式的,哲学式的深水中。这一部分的目的并不是让我们潜入这片深水之中,而是给予我们一些在多变量分析方法中容易出现误解的一般性含义,从而使它们避免出现在将来的运用中。在本章最后的参考书部分给那些想要进一步探索的人提供了一种轻松的,可理解的关于基础性问题的处理方法。3.3.1 “阐明”差异意味着什么?一个意义模糊的表达“阐明”贯穿了整本书,之所以选择它是因为它不容易让人误解。正如我们看到的那样,分析者依据诸如预测分数和解释因变量变异的形式进行讨论,当自变量被一个单元所改变时,回归斜率被定义为在因变量中改变的数量是常见
45、的。因此,看起来分析方法能够就因果关系的过程提供一种预测,解释以及验证。然而,数据分析本身其实并没有提供这些内容。“预测”其实是一种不可靠的说法,因为在研究环境中至少包含了三种不同的意思。在它最常见的意义中,它表示对未来将要发生什么做出一个说明,并且如果成功的话,就会被看作是科学进步的标志。它的第二个意思则是在没有任何参照时间的情况下,对变量之间的关系或是差异提出假设。最后一个意思是一个预言家仅仅是统计上自变量的同义词。在一个分析中自变量的出现表明该分析相信这将有助于解释在因变量中的差异,并且通常也意味着对效果作出的一个正式的假设。然而,即使显示出这个自变量和因变量有值得令人注意的相关的时候,
46、它也不能以一种很有说服力的方式证明任何预测的力量,而预测唯一的基础是,如果数据是纵向搜集的话,那么当自变量在一个时间点上被测量,因变量则会在稍后的时间被测量而已。因此,如果从预测的角度来阐明,那么要通过研究的设计和分析进行判断,而不是分析本身。“解释”这种说法比“预测”更不可靠,因为我们将会更关注一个东西它不是什么,而不是它是什么。第一件需要注意的事情是它不同于预测。在不能解释为什么这些预测会起作用的情况下,作出成功的预测是有可能的。相同的,一个现象的运作可能能够被很好地解释,但是预测其未来的状态几乎是不可能的,因为有许多的因素将会促进或阻止这些状态的发生。回过头来说数据分析,如果我们检测在因
47、变量中的“被解释”的方差,我们会发现它只是简单的意味着在一些系统的方法中自变量和因变量的协变,这个协变为什么会发生仍然有待解释,由此我们可以看出解释是处于理论的范围之中,而不是数据分析之中。好的理论会形成一些可测试的假设,并且随后数据分析的结果可能与假设相一致或者与假设相违背。我们可以发现,在理论和数据分析之间存在一个清晰且重要的关系,并且任何一方都不应该被另一方所拒绝。除此之外,这个关系还包括了一系列和测量方法,抽样等诸如此类的问题有关的设想,而它们中的任何一个都有可能是错的。因此,理论和数据分析之间不仅不是分离的,两者之间甚至还存在一丝联系。所有的这些都表明不论“说明”在数据分析中意味着什
48、么,它都不能等同与解释。一类特殊的,有价值的科学解释能够提供一个关于因果关系过程的理解。在此,我们又不得不再一次提醒大家,事实上在数据分析中出现的涉及因果关系过程的一些条件并不意味着统计结果本身就能够提供因果关系的证据。解释因果关系要求一个可靠的理论,研究设计和数据分析,并用明确的论据将其捆绑在一起。许多引人瞩目的,有代表性的因果解释都来自于一个详尽理论(从这个理论中,我们可以得出一个清晰的因果关系的假定),一个强大的实验设计(这个实验设计不仅能够效仿因果关系富有成效的方面,并且还能够有效的控制混淆变量),以及对生成的一类数据的适当分析的组合。由于它们都非常的复杂,因此它们不能够被单独的数据分
49、析所代替。其他的问题也有可能会渐渐破坏掉尝试将统计结果看作是因果关系过程的解释的做法。在没有强有力的理论解释的情况下,一个潜在的诱因很有可能会和一个明显的诱因相混淆。正如一个滑稽的例子所讲的那样,有白头发和许多疾病的发病率有很大的相关,但是没有人会建议将染发剂作为一种干预去避免那些疾病。发色只是年龄的一个简单标志,而年龄才是和疾病发生相互关联的。许多的统计分析方法对原因和标志之间的区别是视而不见的,因此,必须发现其他附加的方法,从而提高因果关系解释的精确性。在使用统计方法搜寻原因的过程中存在的另一个问题是,即使一个复杂的统计技术被设计出来了,它也仅仅只用于查明模式是否和被Lieberson(1
50、985)称作对称或双向因果关系相一致。一个自变量(原因)X和一个因变量(效果)Y将会帮助我们理解这个观点。对称或双向因果关系假定由X增长一个单元所引起的Y增长的数量等于由X减少一个单元所引起的Y减少的数量。但是这种增长或减少的对称行为有可能站不住脚。一旦接受了这种说法,不论后面在X上发生什么,X的增长引起Y的增长这种关系都可能是不可逆的。Lieberson提供了一个有说服力的行为例子和一个显示出不对称因果关系过程的社会现象,并且他还梳理了关于这一类型的现象研究所得出的杂乱的结论。就我们当前的目的来讲,值得注意的其中一个结论就是传统的数据分析并不能抓住一些因果关系的过程。许多分析方法都假定一个因
51、果关系的台球类型,但是这只是众多方法的一种。于是,我们又再一次得出了这个结论,即:在一些情况下,数据分析可以解释因果关系的产生,但这并不是和其他研究,特别是理论化的研究孤立开来而做到的。至此,关于因果关系的一个更重要的问题已经出现了。传统的数据分析认为分析因果过程就是发现变量间关系的过程。在这个观点上,因果关系的命题是通过评估存在/不存在,大小以及变量间关系的方向来验证的。正如我们已经见到的一样,多变量分析很适合这项任务,而其他的关于因果关系的观点并不是很适合。举个例子来说,现实主义的概念是将因果关系的力量放置于媒介之中,而非变量之间的关系(Sayer,1992)。因此一个现实主义者将会解释媒
52、介之间因果关系的力量如何引发改变。将来,这种解释将会提到在方法中这些因果关系的力量可能会被激活,也有可能被束缚。关于激活和束缚的一个重要的结论是,一个因果关系的过程并不一定明显的处于关系模式中任何一个一致的方法之中,有时你会看见它,有时你却看不见。深水将会退去,因此将来我们将不再探讨它。需要注意的一个一般性的点是多变量分析能够有助于因果关系的说明,而不是制定科学解释的一种方法。因此,那些为了能够有意义地解释他们的结果的分析师,在必要的情况下不得不引入某种因果关系的特别概念并为此辩护的做法本身就有问题。3.3.2 统计结果应用到哪里乍看之下,这个问题似乎涉及的是归纳的问题而不是数据的实用性。不论
53、怎么样,这并不是这一部分的重点。这里的问题是:明确在任何给定的统计量上什么样的“单位”是一个分析的目标。误解这种上升的潜在问题是将结果应用到错误的分析单元上。在第一部分的分析指导下,我们已经能够明确的区分数据分析的三个“水平”:个体,个体差异,团体差异。不同标准下的分析方法关注的是不同的水平。举个例子,一个社会学家可能会做一个分析,而这个分析包含着像城镇那样的团体。而在任何的统计分析中,不论它们本身是怎样的,不论它们的水平或单元的本质是什么,永远都会运用到多变量水平和一些上升的点。为了前后的一致性,就个体和团体而言,这种讨论将会有结构的进行下去。值得注意的一个最重要的问题是,由于统计分析通常是
54、用于团体上,因此它的结果很少会提及或运用到单独的个体身上。正如我们已经见到的那样,汇总统计可能会用来预测一个个体(比如像回归斜率),但是它们不会去量化任何一个特殊个体的属性。这个也许看起来是不言而喻的,并且许多的分析也意识到了这点。无论如何,至少从心理学上讲 ,总体和个体出现微妙的变动是正常的。Valsiner(1986b)提出了一个有趣的论证,那就是一些有经验的研究者是怎样错误解释一些简单的相互关系的。相互关系的描述通常开始于参照团体或者平均关系,但很快就会跌入到一个关于理想化个体的论述中。心理学中有规律的关注个体和依靠总体数据的一般性之间的张力能够部分的解释这个现象,从而帮助我们理解这个个
55、体。但是Valsiner认为在这个误解背后有许多其他认知过程的因素,而不仅仅只是心理学上的。一经指出,在团体和个体之间潜在的解释的困惑就明确了,尽管它们不容易避免。团体差异和聚集的个体差异之间的区别很难发现但是却很重要,因为它为误解提供了另一种一般性的解释。通过再考虑两个双变量统计能够使这种区别变得更清楚一些,而这两个双变量统计分别参考了团体差异和个体差异:斜率和r2。回归斜率表示在因变量上的团体差异和在自变量上的团体差异是怎样相关的,因此,团体是由自变量的值所定义的。相反的,统计量r2则表示在因变量上的个体差异和自变量上的个体差异是怎样相关的。因此斜率能够被解释为因变量在自变量上的平均效应,
56、而r2不能这样解释。论述上述的这个观点突出的原因是许多研究报告理论上表达的是对团体效应感兴趣,然而后面给出的令他们骄傲的的结果却是r2这一类型的统计值。这种隐性转换研究目标(从检查团体效应转换到捕获因变量上最大程度的个体差异)的做法存在不良的影响。正如我们将在第4章中所学习到的一样,由于r2高度的依赖方差以及跨样本的不稳定性,因此它的用途非常有限。但更多的关注点是:以斜率为代价的对r2的关注曲解了研究目标并且导致了误解的出现。3.3.3 假设检验的结果有什么意义在第二章中介绍的虚无假设检验是作为社会学家评估在他们的结果中偶然性所扮演的角色所用的一种有效工具。当小于0.05时,结果通常被认为有统
57、计上的意义。这种为了方便解释而设定一个临界值的方法在多变量分析的领域中扮演着重要的角色。在过去的数十年里,方法论者通常从批评的角度讨论虚无假设的意义和价值,在这本书中探讨的所有方法中,虚无假设检验是受到最多批评的一种,然而抛开这些,虚无假设检验仍然是社会科学主流中数据分析的基础。因此,对于任何一种数据分析或者使用者来说,受到一些批评后还能发现属于自己的位置是很重要的。Frank Schmidt(一个有名的心理学方法论者)提出了一个著名的有关虚无假设检验的梗概。他写道:如果我们能透视并且可以进入到一个典型的研究者的思想当中,我们可能会偷听到类似于下面这样的想法:如果我的发现是没有意义的,那么我知
58、道它们的发生仅仅是因为偶然并且真正的差异(或者是关系)有可能为0 。如果这个结果是有意义的,那么我知道我有了一个可靠的发现。显著性检验的p值能够告诉我存在于数据中的哪些关系是否已经大到很重要的地步了,并且当我要开始一项新的研究的时候,我也可以根据p值决定哪些是偶然,哪些发现成果可以直接拿来用。每一个想要从显著性检验中获益的想法都是错误的。Schmidt(1996,p.126)上述段落以它诙谐的方式提出了一系列太复杂而不能在此探讨的问题。尽管如此,一些评论还是可以解释Schmidt的结论的。假设检验的结果转换成了p值,它是这种可能性的曲解,而这种曲解又为将来的误解奠定了基础。正如我们在第二章中注意到的一样,p
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 房屋租给鞭炮合同模板
- 2025届高中地理一轮复习第三章自然环境中的物质运动和能量交换第三讲气压带和风带气候类型训练含解析湘教版
- 2024-2025学年高中历史第二单元东西方的先哲第2课西方哲学的代表柏拉图1教学教案新人教版选修4
- 托管公司售房合同范例
- 工厂安装电梯合同模板
- 委托买股票合同范例
- 房屋维修施工合同范例
- 承包厨房协议合同范例
- 2024年广西客运员试题
- 2024年山西客运资格考试卷
- 混凝土搅拌站租赁合同范本(4篇)
- 成人无脉性心跳呼吸骤停抢救流程演示文稿
- 烟花爆竹经营单位主要负责人安全培训
- 《双摇跳》教学课件
- 可疑值的取舍-Q检验法
- 010-大遗址保护规划规范-2015送审稿
- 大学舆论学教案
- 压铸模及零件结构专业术语
- DBJ51-T 188-2022 预拌流态固化土工程应用技术标准
- 电工安全培训课件
- (完整)财务部绩效考核方案
评论
0/150
提交评论