高级心里统计电子课件_第1页
高级心里统计电子课件_第2页
高级心里统计电子课件_第3页
高级心里统计电子课件_第4页
高级心里统计电子课件_第5页
已阅读5页,还剩457页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、高级心理统计数 据 清 理Cleaning up your data核心要点了解异常值的概念和产生原因,掌握检验与处理异常值的方法。了解数据的缺失类型,掌握检查数据缺失程度、诊断数据缺失机制的方法,知道如何选择合适的插补方法对缺失值进行插补。熟悉多元分析的常见假设,并掌握这些假设的检验方法,知道违背多元分析假设时,该如何对变量进行校正。提纲1 数据清理和准备的主要目的2 极端数据的处理3 缺失数据的处理4 前提假设条件的检验5 案例操作1 数据清理和准备的主要目的极端值会扭曲分析结果缺失值在采集数据时很难避免使用多元统计方法之前,需要确保数据集和前提假设匹配2.极端数据的处理异常值的定义异常值

2、的检测异常值的处理2.1异常值的定义单变量异常值即在某个变量上的值明显高或者低。多变量极端值指在两个或多个变量上值的奇怪组合,使得该观测与其他观测明显不同。存在一个有影响观测值的散点图存在一个没有影响观测值的散点图2.1异常值的定义异常值的来源:过程性错误异常事件异常的观测各变量值正常,组合起来很异常2.2异常值的检测单变量异常值的检测 1) 根据标准分数判定小样本标准分数大于等于2.5大样本最高是4 2)盒式图大于上四分位数1.5 倍四分位距或小于下四分位数1.5 倍四分位距被划分为异常值。处于1.5倍-3倍四分位矩之间的异常值为温和的异常值处于3倍四分位距之外的异常值为极端的异常值2.2异

3、常值的检测2.双变量异常值的检测 散点图2.2异常值的检测3.多变量异常值的检测 马氏距离D/df近似服从t分布,可以对其进行显著性检验,置信度为=0.005或0.001,将落在置信区间外的观测点识别为潜在异常值。小样本时临界值设为2.5,大样本时临界值设为3或42.3异常值的处理如果异常值不属于总体,就删除如果异常值可代表总体的一部分,或不确定是否异常,尽量保留,转换变量降低极端值对分析结果的影响3.缺失数据的处理缺失数据的定义和影响处理缺失数据的一般步骤3.1缺失数据的定义及影响缺失数据是在一个数据集中,由于各种各样的原因而导致的个案在一个或多个变量上信息的缺失。缺失数据使样本量减少,会导

4、致统计检验力的下降,此外,对于非随机的缺失机制,得到的统计结果可能是有偏的。3.2处理缺失数据的一般步骤(1)检查数据的缺失类型(2)检查数据的缺失程度(3)诊断数据的缺失机制(4)选择插补方法(1)检查数据的缺失类型设计上可忽略的缺失数据缺失是研究设计的一部分抽样而不是总体截断数据:用男飞行员的身高估计男性整体身高设计上不可忽略的缺失数据已知的情况:过程性因素导致的缺失。比如数据录入错误,无效编码(用户定义缺失值);数据公开受限;没有完成问卷;被试选取失误(生病等)等。未知的情况:直接由被试的原因导致的。比如被试拒绝回答某些题目(如收入、有争议的话题等敏感问题);被试没有足够的知识回答问题等

5、。(2)检查数据的缺失程度每个个案(case)在所有变量上的缺失比例;在每个变量上缺失数据的个案比例;在所有变量上都没有缺失的个案比例。个案编号V1V2V3V4个案缺失情况个数比例(%)1534100212312532425043342005135125变量缺失情况总的缺失情况个数2110个数4比例(%)4020200比例(%)20%(2)检查数据的缺失程度缺失比例低于10%,使用任何一种缺失数据的处理方法,差异都不大,但不包括非随机缺失。对有过多缺失的个案或变量进行简单的处理删除;缺失比例15%以上的变量可以考虑删除,但缺失比例更高的(20%30%),通常会进行补救(2)检查数据的缺失程度注

6、意:要确保在删除一个变量或个案后,总体上数据的缺失比例会明显减小。通常会删除因变量有缺失的个案,避免造成因变量与自变量之间的关系虚假高估。删除一个变量时,确保数据中有可替代的变量,替代变量与被删变量具有高相关。考虑对删除前后的数据同时进行分析,其分析结果是否存在明显差异。(3)诊断数据的缺失机制缺失值的模式完全随机缺失(MCAR):缺失情况相对于所有数据来说是独立的。随机缺失(MAR):一个观测出现缺失值的概率是由数据集中不含缺失值的变量决定的,而不是由含缺失值的变量决定的。非随机缺失(MNAR):是与缺失数据本身存在某种关联,比如问题设计过于敏感造成的缺失。(3)诊断数据的缺失机制对于MCA

7、R缺失机制的诊断方法有:独立样本t检验Littles MCAR检验(Little & Rubin, 2002)上述方法只能证明MCAR假设不成立,却不能证明其成立。(4)选择插补方法如果缺失机制是完全随机缺失(MCAR)只使用有效数据使用替换值进行插补如果缺失机制是MAR一般使用专门设计的基于模型的方法,如极大似然估计、多重差补、贝叶斯插补等,或者直接将缺失数据作为分析的一部分加入模型。如果缺失机制是MNAR基于模型的方法(4)选择插补方法(4)选择插补方法(4)选择插补方法(4)选择插补方法(4)选择插补方法Step2 检查数据的缺失程度缺失数据是否多到需要处理?分析个案和变量是否应该因为缺

8、失程度高而删除个案和/或变量?删除有高度缺失的个案和/或变量是Step3 诊断缺失数据机制缺失数据是MAR还是MCAR?否是否MCAR对于可忽略的缺失数据,采取专门的技术是否Step1 检查数据的缺失类型缺失数据(设计上)是否可以忽略?略?Step4 选择插补方法是否想用别的值替换缺失数据?基于模型的方法是MAR使用已知的值,还是从有效数据中计算出插补值?个案替换热卡插补和冷卡插补均值插补基于回归的方法只用有完整数据的观测,还是使用所有可用的有效数据?完整数据所有可得有效数据否成列删除成对删除已知值计算值4.前提假设条件的检验正态性方差齐性线性误差独立性数据转换4.1 正态性图形检验法正态概率

9、图将真实数据的累积分布与正态数据的累积分布(直的对角线)对比所画的图。4.1 正态性正态性的统计检验(a)峰度和偏度的检验b)Shapiro-Wilkst和Kolmogorov-Smirnov检验4.2 方差齐性图形检验盒式图统计检验Levene Test4.3 线性(1)散点图,看散点是否落在一个椭圆里面(2)回归分析中的残差分析来判断变量之间是否满足线性关系(3)还可以分别使用线性的和非线性的模型拟合数据,比较两个模型的拟合指数之间是否存在差异,从而来判断是否存在非线性的详见情况。4.4 误差独立性数据收集过程随机抽样,考虑额外变量时间序列数据对个案顺序进行残差分析X轴为个案的顺序,Y轴为

10、相应个案的残差Durbin-Watson检验1.6D2.4,不能证明存在序列相关,且D值越接近2时,残差项间相关越低;D2.4,存在负的自相关, 且D值越接近4时,残差项间负相关越强。4.5 数据转换(1)对于非正态的数据,根据分布形态的不同会使用不同的转换方法。如对于平坦分布,做倒数转换;对于正偏态分布,做平方根或对数转换;对于负偏态分布,做平方或立方转换。(2)对于方差不齐性的数据,很多情况下会与非正态的问题同时解决,比如使用倒数、平方根等转换。(3)对于非线性的数据视具体情况而定。如右图,如果数据满足左上图的关系,则使用平方转换;如果数据满足右上图的关系,则使用取对数、求导数、平方根等转

11、换。4.5 数据转换-注意事项(1)首先要判断数据转换可能产生的影响,可以通过计算变量的均值与其标准差的比值来判断如果比例小于4时,转换会产生明显的影响。当两个变量都可以进行转换时,应该选择比值更小的那个变量。(2)除了方差不齐性的情况之外,通常应该对自变量使用数据转换。(3)在一个依存关系中,方差不齐性只能通过转换因变量来补救。如果变量之间的关系是方差不齐性的,同时还是非线性的,可能因变量、还有自变量,必须同时进行转换。(4)转换可能改变对变量的解释,在实际应用中一定要仔细斟酌对转换变量的解释。(5)当描述或解释结果时,建议用变量的原始形式(未转换的形式)对变量特征进行说明。5 数据清理与整

12、理应用案例某公司产品质量的评定量表的数据清理:异常值检验缺失值检测检验多远分析假设数据转换操作步骤详见高级心理统计P17P35关键术语异常值 缺失值 完全随机缺失 随机缺失 非随机缺失 多元正态性 方差齐性 线性 误差独立性 数据转换内容要点1 在某个变量上的值明显高或者低称为单变量异常值。在两个或多个变量上值的奇怪组合称为多变量异常值。单变量异常值可以通过数据的Z分数进行检测,双变量异常值可以通过画散点图检测,多变量极端值可以通过计算观测点的马氏距离D进行检测。2 处理缺失数据的一般步骤包括:(1)检查数据的缺失类型;(2)检查数据的缺失程度;(3)诊断数据的缺失机制;(4)选择插补方法。3

13、 多元分析的基本假设包括多元正态性、方差齐性、线性和误差独立性。检验多元正态性的方法有画正态概率图、检验峰度和偏度以及S-W和K-S检验。方差齐性的检验方法包括画盒式图、Levene Test和Boxs M Test检验。可以通过散点图和残差图来检验变量间的线性关系。使用DW检验可以检测自相关(误差独立性)。4 数据转换用于数据违背多元分析假设时,对变量进行校正。一般来说,正偏时采用平方根和对数转换,负偏时采用平方和立方转换。多元方差分析Multivariate Analysis of Variance核心要点了解多元方差分析的零假设与一元方差分析的零假设的差异 知道多元方差分析与一元方差分析

14、的主要类型及其差异 了解多元方差分析的假设 知道多元方差分析的显著性检验标准 描述多元方差分析与一元方差分析的事后检验方法 多元方差分析中交互作用的解释 多元协方差分析的目的提纲1 多元方差分析的一般目的和描述2 多元方差分析主要回答的问题3 多元方差分析主要类型4 多元方差分析的过程5 多元方差分析应用案例及 SPSS 操作1.多元方差分析的一般目的和描述多元方差分析是在一元方差分析的基础上发展起来的。一元方差分析只能处理一个因变量的情况,用来检验单一的因变量在不同组之间的差异。当研究者需要同时考察多个因变量在不同组间是否有差异时,就需要运用到多元方差分析的方法与多元回归分析相比,多元回归的

15、“元”指的是自变量的数目,而多元方差分析的“元”指的是因变量的数目1.1多元方差分析的优势可控制犯一类错误的概率可对多个因变量的线性组合进行差异检验2.多元方差分析主要回答的问题多个单变量问题:是指在研究中有多个因变量,每个因变量是被独立分析的MANOVA 是用来检验多变量在不同组之间的整体差异的,而独立的单变量检验则是用来分析单个因变量的组间差异的。结构上的多变量问题:是指研究中的两个或多个因变量之间有某种特殊的关系。MANOVA 提供了一种结构化的方法,可以在保证统计效力的情况下对一系列因变量进行组间差异的检验。本质上的多变量问题:是指研究最关心的问题就是这些因变量在整体上有没有组间差异,

16、而对于单个因变量本身的差异检验就显得不那么重要。MANOVA 最重要的功能就是分析这类问题,不仅是因变量整体上的组间差异,还包括多个因变量线性组合的组间差异。3 .多元方差分析主要类型在单个因变量的差异检验中,零假设是单一因变量的均值在不同自变量组间相等,此时检验组间差异的方法是 t 检验(两个水平)和 ANOVA(两水平及以上)。而在多个因变量的差异检验中,零假设则为多因变量组合的均值向量在不同自变量组间相等,检验组间差异的方法有 Hotellings T2(两个水平)和 MANOVA(两水平及以上)。总结如下:3.1 自变量有两个水平:Hotellings T2如果研究者想比较自变量的两个

17、水平在多个因变量上的差异是否显著,则需要用到 Hotellings T2 检验。Hotellings T2 检验是 t 检验的扩展(多个因变量),是 MANOVA 的特例(自变量两个水平)。 3.2 自变量有多个水平:多元方差分析类似 t 检验到 ANOVA 的扩展,MANOVA 也是 Hotellings T2 检验的一种扩展。MANOVA 零假设的数学表达式如下:其中,p表示因变量个数,k表示水平个数,pk表示变量p在第k个水平上的均值。MANOVA 的零假设即为各水平的均值向量相等4.多元方差分析的过程研究设计多元方差分析的假设估计模型及模型的整体性检验结果解释4.1研究设计(1)因变量

18、的选择(2)样本量(3)因素设计(4)协方差分析4.11因变量的选择 MANOVA 可以处理多个因变量的问题,但在研究中所选用的因变量个数也不宜过多,一般在 5 个及以下为好。因变量的选择要有理可依,不能将一些没有意义的变量选入进去。所选用的因变量之间的相关不宜过高,否则就会出现多重共线性的问题。4.12样本量 遵循的基本原则是:(1)每个单元格内的人数最少应大于因变量的个数。(2)作为一个实践指导,每个单元格里至少有 20 个人。(3)为了维持应有的检验力,当因变量个数增多时,所需 要的样本量会随之增大。4.13因素分析自变量的类型:在方差分析中,自变量是分类变量,分成几类即有几个处理水平,

19、每个水平代表影响因变量的一种条件。在实验设计时,由研究者根据研究目的来确定自变量及其处理水平。4.13因素分析自变量的个数(1)单元格的个数:单元格的个数由每个自变量的处理水平 数决定。(2)交互作用:交互作用是两个或更多自变量的联合效应是 指一个变量在不同组间的差异取决于其他变量的取值。4.14协方差分析 协方差分析的目的 协方差分析的目的是为了消除两方面的影响: (1)协变量只对部分被试有影响; (2)协变量对不同被试的影响不同。 与区组变量类似,协变量可以实现如下两个目的: (1)消除一些研究者无法控制且又会影响结果的系统误差; (2)用来解释不同特征的被试在作答反应上的差异。4.14协

20、方差分析协方差分析的假设 (1)协变量与因变量相关 (2)在不同组上,协变量对因变量有相等的效应,即协变量 与自变量之间没有交互作用。以上两个假设只要有一个 不满足,就不适合使用协方差分析。4.14协方差分析协变量的选择一个有效的协变量应与因变量有较高相关而与自变量不相关。为什么呢?(1)如果协变量与因变量相关,那么协变量就可以用来解释一部分的因变量的变异,这样会使得残差变小,进而统计检验更加显著。而与自变量无关,则因变量中被协变量解释的那部分变异不会被自变量解释,这样对自变量的检验就更加敏感而有力了。4.14协方差分析(2)如果协变量与自变量有相关,那么协变量将会解释一部分可以被自变量解释的

21、变异,进而降低自变量的作用。因为在分析中首先是协变量抽取可解释的那部分变异,这样这部分变异就不能再被自变量抽取了4.14协方差分析协变量的个数虽然在研究中加入协变量可以控制一些变异,但如果加了过多的协变量,也会减少统计效率的。最大协变量个数可遵循下面这个法则:最大协变量的个数=(0.10*样本量)-(组数-1)4.14协方差分析特殊的方差分析重复测量设计我们有时会对同一个被试被多次测量,例如,在一段时间内让学生做几次测验,我们希望通过分析找出这几次测验学生的分数变化趋势。如果没有特殊的处理,这种设计就违背了一个重要假设独立性。这时,就需要运用重复测量方差分析4.2 多元方差分析的假设多元方差分

22、析中,因变量必须为连续型变量,自变量为分类变量。为了保证多元方差分析的有效性,必须满足三个基本假设:(1)不同观测之间必须相互独立。(2)各组的方差-协方差矩阵必须相等。(3)因变量服从多元正态分布(因变量的任意线性组合 都服从正态分布4.2.1 独立性多元方差分析中最基本最重要的假设就是独立性假设,即使是稍微违背这一假设,也会对检验的第一类错误和统计检验力带来较大的影响。而且任何无关的非测量的因素都可能通过在组间产生依赖性而影响结果,其中两种最普遍的破坏独立性的情况是:(1)当存在时间顺序效应时(2)当在相同的条件下收集信息的时候,被试的作答可能 会有一定的相关4.2.2 方差-协方差矩阵齐

23、性MANOVA 的第二个基本假设就是各组的方差-协方差矩阵相等。在 MANOVA 中可以用 Boxs M 检验来检验协方差矩阵的齐性,并能够提供检验结果的显著性水平。4.2.3 正态性MANOVA 的第三个基本假设是因变量的正态性假设。严格意义上讲,这个假设是指所有变量的组合服从多元正态,如果一组变量联合起来服从多元正态分布,那么其中每一个变量一定都服从一元正态分布,所有的变量子集也服从多元正态分布,所有可能的线性组合也服从单元正态分布。4.2.4 其他基本假设在 MANOVA 中,除了以上的基本假设,还应该关注因变量之间的关系是否为线性关系、因变量之间是否存在共线性,以及数据中是否有极端数据

24、。另外,因变量之间不能有很高的相关,因为那样会使测量变得冗余,还会减低统计效率。4.3 估计模型及模型的整体性检验当假设条件都满足时,就可以进行 MANOVA 分析了。基于广义线性模型(general linear model, GLM)的估计模型被广泛使用4.3.1 广义线性模型(GLM)的估计 GLM是一个模型家族,每个模型都包含三部分元素:(1)变量(variate):自变量的线性组合。每个自变量都有一个 估计权重用来表示对预测值的贡献程度(2)随机部分(random component):因变量的概率分布。典型 的分布有正态分布、泊松分布、二项分布和多项分布等。(3)连接函数(link

25、 function):根据不同的模型公式为变量和 随机部分提供理论连接。三种最常用的连接函数是恒等 (identity)、logit 和 log。4.3.2 显著性检验的标准在进行多元方差分析时,常采用 Roys 最大特征(gcr)、Wilks lambda(又称为 U statistic)、Pillais criterion 和 Hotellings T2 这 4 种统计检验来评价各自变量组之间在多个因变量的线性组合上是否存在显著差异4.3.3 多元分析的统计检验力统计检验力的影响显著性水平()(1)提高水平(如从 0.05变为 0.01,即变得更保守)会减小犯第一 类错误的概率,但此时需要

26、更多来自研究结果的证据来证明差异 的存在,因此会造成检验力的降低。(2)降低水平(如从 0.05 变为 0.10)意味着研究者认为更小的 组间差异是显著的,因此被认为是“更不统计的”。然而,在 效应量或样本量较小时,我们应该考虑降低水平以提高检验力。4.3.3 多元分析的统计检验力效应值 (Effect Size) 效应值是对组间差异的标准化测量,可以通过计算组间差 异比标准差得到。样本量 (Sample Size) 如果组样本量少于 30,那么很难得到理想的检验力。如 果效应值很小,可以通过增大 水平(如,从.05到.10) 以便得到理想的检验力。在设计和分析中应用检验力在设计分析和评价结果

27、时都要用到统计检验力的估计。在设计阶段,研究者要通过估计效应值来确定所需样本量。一般情况下,效应值可以根据前人研究或合理的判断来估计,又或者直接设定为实际显著性最小的水平。无论如何样本量都要达到在给定水平的检验力和 水平下的要求4.3.3 多元分析的统计检验力因变量的多重共线性对检验力的影响 随着因变量的效应量大小不同,检验力也各不相同。 会产生如下几种模式:(1)如果相关的变量对由强-强或者弱-弱的变量构成, 那么在变量之间存在强的负相关时,检验力最大。这 一结果表明,在 MANOVA 中,可以通过使用高度负相 的因变量来提高检验力4.3.3 多元分析的统计检验力(2)如果相关的变量对由强-

28、弱的变量构成,那么变量之 间为强相关时,检验力最大,与相关的方向无关。(3)此外,有研究发现,当通过增加项目数量来提高信度 时,会导致检验力的升高,即使变量对的相关较弱或 是方向为正4.3.3 多元分析的统计检验力4.4 结果解释当评价完处理的统计显著性之后,下一步就要开始对结果进行解释了。结果的解释一般包括三个步骤:(1)如果有协变量,则要首先解释协变量的效应(2)评价不同因变量在不同处理上表现出的差异大小(3)评价组间差异是在单个因变量上还是在整体因变量组合上4.4.1 评价协变量评价整体效应协变量最重要的作用就是统计检验中的整体效应问题。而最直接的评价整体效应的方法就是分别对含有协变量和

29、不含协变量的模型进行分析,然后再比较。解释协变量在 ANOVA 和 MANOVA 中解释协变量类似于对回归方程进行解释的过程。如果整体效应是显著的,之后就可以检验协变量对因变量的作用大小了。4.4.2 评价因变量的效应主效应和交互作用主效应主效应是指自变量对因变量的作用。如果在不同组间因变量存在显著差异,那么就称主效应显著。在检验主效应时,还需要做另外两种分析:(1)如果自变量的个数大于 1,那么研究者就必须要检验交互作用是否显著,如果显著了,就要考虑交互作用对主效应解释的影响。(2) 如果一个自变量多于两个水平,那么研究者就要对这个自变量做多重比较,看具体是自变量的哪几个水平间差异显著4.4

30、.2 评价因变量的效应主效应和交互作用交互作用 评价交互作用的统计显著性交互作用的类型 根据对处理效应的检验,交互作用可以分为两种类型: 一致的交互作用和不一致的交互作用4.4.2 评价因变量的效应主效应和交互作用例如,对不同形状(球形、立方形、星形)不同颜色(红、蓝、绿)的麦片进行评价。不同交互作用情况下结果如图 2-2 所示:4.4.3评价组间差异 多个单变量检验 (1) 两组检验 (2) K组检验 结构化的多组检验 (1)事后检验 (2)事先检验5.多元方差分析应用案例及 SPSS 操作本例采用贝姆性别角色量表数据,量表中共包括 60 个题目,样本量为 4003。本例将男性气质和女性气质

31、作为因变量,将性别、年龄阶段作为自变量,考察不同性别、不同年龄阶段的受测者在男性气质和女性气质两种特质上是否存在差异 操作步骤详见高级心理统计P52P56关键术语多元方差分析 一元方差分析 Hotellings T2检验 因素设计 一元协方差分析 多元协方差分析 方差-协方差矩阵 广义线性模型 多元正态分布 统计检验力 主效应 交互作用 事先检验 事后检验第三章 多元回归分析核心要点了解多元回归的概念以及可以解决的问题。掌握三种不同类型多元回归的特点和区别,了解自变量的进入顺序对衡量该自变量重要性的影响。掌握检验回归方程整体显著性和比较自变量重要性大小的指标和方法。了解可能对回归分析准确性产生

32、影响的因素。多元回归分析的一般目的和描述多元回归分析主要回答的问题多元回归分析的假设及模型多元回归分析的类型多元回归分析中自变量的重要性多元回归分析中的统计检验多元回归分析中的一些值得注意的问题回归分析的局限性应用案例及SPSS操作提纲多元回归分析的一般目的和描述一元回归分析:只有一个自变量,只能处理两个变量之间的关系多元回归分析:考察多个变量对一个变量的影响1多元回归分析 vs 多元相关分析多元回归分析主要回答的问题多元回归分析主要回答四大类问题:(1)验证自变量对因变量的影响;(2)检验单个或一组自变量的重要性;(3)建立预测模型;(4)分析自变量之间的交互作用。2多元回归分析主要回答的问

33、题可细化为是个方面:第一,考察因变量和多个自变量之间关系的强度。第二,考察已有自变量的重要性。第三。考察增加自变量的必要性。第四,在统计上预先控制协变量的影响。第五,基于假设的需要定义变量影响顺序。第六,比较多组自变量的重要性。第七,寻找最佳的预测模型。第八,在新样本上预测因变量分数。第九,重新定义自变量以解释非线性关系。第十,同时处理分类自变量和连续自变量对因变量的影响。2多元回归分析的假设及模型33.1 使用多元回归分析的前提假设(1)存在两个或两个以上的自变量及一个因变量;(2)因变量服从正态分布;(3)自变量与因变量之间呈线性关系;(4)所有变量的观测必须是彼此独立的。多元回归分析的假

34、设及模型33.2 多元回归方程的建立多元回归分析的假设及模型33.3 多元回归方程的参数估计最小二乘法根据最佳拟合的原则,最小二乘法要求估计得到的参数满足残差平方和最小求出参数使残差平方和 取得最小值多元回归分析的类型44.1 标准多元回归(standard multiple regression)又称为同时回归(simultaneous regression)所有自变量同时进入回归方程仅度量了每个自变量进入方程后增加的预测因变量的贡献标准多元回归在计算单个自变量的贡献时,该自变量与其它所有自变量共同解释的部分都被排除,仅计算剩余的可解释的部分所有重叠的部分将不计入任何自变量的贡献多元回归分析

35、的类型44.2 序列回归(sequential regression)又称分层回归(hierarchical regression)自变量将根据研究者指定的顺序进入回归方程由于存在前后顺序,衡量一个(或一组)自变量的贡献时,与其它变量共同解释的部分会归为先进入的变量。多元回归分析的类型44.3 统计回归(statistical regression)完全以统计标准决定进入自变量进入回归方程的顺序,没有考虑变量的意义和理论解释的问题,是一种带有争议的回归类型。一个变量会进入或被排除出方程完全根据该样本下计算出的统计指标,一些细微的差异将会对衡量变量重要性造成较大的影响。多元回归分析的类型44.4

36、 三种回归的比较标准回归会剔除所有自变量的重叠部分,可以体现出每个自变量的单独贡献。序列回归可以在某些变量进入方程的前提下探讨另一些变量的贡献。统计回归可以辨别具有多重共线性的变量,将为未来的研究剔除某些明显冗余的变量。多元回归分析中自变量的重要性55.1 多元测定系数回归平方和(regression sum of squares)总平方和(total sum of squares)多元回归分析中自变量的重要性55.2 调整的多元测定系数多元回归分析中自变量的重要性55.3 偏相关系数偏相关(partial correlation)指的是控制其它自变量后Y和X的相关,它等于从Y和X中都除去其它

37、预测变量的影响之后,Y和X中剩余部分的简单相关。将偏相关系数平方后便可以得到偏测定系数(coefficient of partial determination)偏测定系数是在控制其它自变量的条件下,单一自变量对因变量的边际解释力。多元回归分析中自变量的重要性55.4 半偏相关系数半偏相关(semi-partial correlation)又称部分相关(part correlation)多元回归分析中自变量的重要性5多元回归分析中自变量的重要性55.5 标准化回归系数因为标准化的Z变量是无量纲的变量,所以此时的回归系数 就称为标准化的回归系数(standardized regression c

38、oefficient)。多元回归分析中的统计检验66.1 回归方程的显著性检验多元回归分析中的统计检验66.2 新加入变量的显著性检验多元回归分析中的统计检验66.3 回归系数的显著性检验多元回归分析中的一些值得注意的问题77.1 样本量样本量与一系列问题有关,包括要求的检验力,水平,自变量个数、预期的效应量以及结果的泛化性等。当样本量非常大时,几乎所有回归系数都将显著地不等于0,即使不能很好预测因变量的自变量也是如此。多元回归分析中的一些值得注意的问题77.2 异常值模式异常的个案可以对回归系数的估计精度产生巨大影响。单变量检测的常用方式有Z分数和盒式图等双变量下的散点图多变量下的马氏距离等

39、在回归的过程中可以同时检测异常值最为常用的方法是残差分析多元回归分析中的一些值得注意的问题77.3 多重共线性如果两个自变量之间的相关系数很高,或者一个自变量可以由其它自变量线性表示,即认为存在多重共线性问题。共线性现象的不良影响(1)回归系数的置信区间变宽,系数变得不稳定,由样本推到总体的泛化性变差;(2)回归系数不能很好地反映单个自变量对因变量的独立影响;(3)使变量的偏测定系数变小;(4)当方程用于预测时,回归结果变得不可靠。多元回归分析中的一些值得注意的问题77.3 多重共线性常用的指标及其标准:(1)容忍度(Tolerance)(2)方差膨胀因子(Variance Inflate F

40、actor,VIF)(3)条件指数 (Condition Index,CI)消除多重共线性影响的补救办法:(1)去掉与y相关程度低、而与其它自变量高度相关的自变量;(2)根据容忍度或VIF删除变量,去掉可以被其余自变量线性表示的变量;(3)增加样本量;(4)采用新的样本数据;(5)合并变量(6)换用其它形式的回归(7)变量转换多元回归分析中的一些值得注意的问题77.4 残差分析多元回归分析假设残差具有正态性,线性和方差同质性,同时假设误差具有独立性。残差的正态性假设指的是残差在每个因变量的预测分数下都呈正态分布。线性假设指的是残差与预测分数呈直线关系。方差同质性假设在所有预测分数下残差的方差相

41、同。误差的独立性假设意味着每次观测的结果都不应受其它观测的影响。通常的验证方法是画出残差的散点图,进行残差分析,其中横轴表示因变量的预测值,纵轴表示残差。多元回归分析中的一些值得注意的问题77.5 分类自变量的虚拟编码如果研究的自变量是分类变量,并希望将分类自变量纳入回归,则需要对分类变量进行虚拟编码(dummy coding)。假设该自变量有K个类别,则需要构造K-1个新变量。将其中一个类别指定为对照类别,将对照类别在K-1个新变量上全部编码为0,其余K-1个类别依次在K-1个新变量上编码为1。如果将虚无编码中对参考类别的编码换为-1而不是0,形成的编码方式称为效应编码(effect cod

42、ing)。另一种常用的编码方式称为对照编码(contrast coding),对照编码的一个优点在于编码后生成的新变量相互正交。多元回归分析中的一些值得注意的问题77.5 分类自变量的虚拟编码回归分析的局限性8回归分析旨在揭示变量之间的关系,但并不能做出因果推断。研究变量的选取同样应该借助理论而不能仅靠统计。回归分析假设自变量的测量没有残差,然而在绝大部分心理学研究中都几乎不存在如此理想的情况。应用案例及SPSS操作99.1 标准多元回归案例高级心理统计P76-82。9.2 序列回归案例高级心理统计P82-85。关键术语多元回归分析标准多元回归 序列回归统计回归 偏回归系数多元测定系数 偏相关

43、系数 半偏相关系数 多重共线性 残差分析第四章 逻辑回归Logistic Regression核心要点了解logistic回归的基本概念和原理,掌握其适用的基本情境。了解logistic回归方程中的系数的含义与解释。学习logistic回归方程的整体检验和拟合优度的评价标准。掌握SPSS软件展示logistic回归的操作过程和结果解释。提纲1 Logistic回归分析概述2 主要回答的问题3 前提假设与模型4 注意的问题5案例和SPSS操作1. Logistic回归分析概述用于处理因变量为离散的二分变量的问题,也可以进一步扩展为多分类Logistic回归。logistic回归分析中并不直接对二

44、分结果变量进行回归分析,而是将其转换到logit尺度下,引入发生比(事件发生的概率/事件不发生的概率)的概念,再对发生比取自然对数(ln)作为因变量,探究自变量的线性组合对转换后的因变量的影响。1. Logistic回归分析概述Logistic回归的优势:对预测变量的分布和类型没有特定假设,预测变量可以是连续变量、分类变量等;尤其适用于自变量对因变量的影响具有收益递减规律或非线性的情况,即当自变量处于取值范围的两端时,其值的变化对因变量的影响较小;当自变量处于取值范围的中间部分时,其值的变化对于因变量的影响较大的情况。2. 主要回答的问题能否根据一系列的预测变量来预测个案在结果变量的类别?各预

45、测变量的效果如何?预测变量之间是否存在交互作用?个案的分类结果是否准确?预测变量的效应值多大?3. 前提假设与模型一、模型假设连续预测变量与经过logit转换后的结果变量之间存在线性关系;结果变量应为二分变量;预测变量可以是连续变量、离散变量,如果是分类变量,采用虚拟编码;每次观测相互独立、残差均值为0。3. 前提假设与模型3. 前提假设与模型Logistic曲线我们以0.5作为截点,将事件发生概率大于0.5的结果变量赋值为1(事件发生),否则赋值为0(事件未发生)。3. 前提假设与模型3. 前提假设与模型5. 模型评价负2倍对数似然值(-2LL):反映了假设拟合模型为实际情境时观察到特定样本

46、的概率,其值处于0和1之间。其值越大,表明回归方程的似然值越小,则拟合越差。将截距模型(不包含任何预测变量)与含有预测变量的logistic模型的-2LL进行比较,如果前者显著高于后者,那么可以证明含有预测变量的模型显著改善了模型的拟合情况,即预测变量可以显著改善模型的拟合情况。显著性的检验采用卡方检验。注意样本量的影响。伪测定系数(pseudo-R2):预测准确性:分类表(classification table)4. 注意事项第一,样本量大小。第二,个案与变量的比例。第三,预测变量的多重共线性。第四,分类结果中的异常值。5. 案例及SPSS操作本章的应用案例是模拟生成的,因此其分析结果不能

47、推论到实际之中,我们仅以此为例演示logistic回归分析过程。本案例数据文件参见“4_1 logistic.sav”详见高级心理统计P92-P97关键术语二分变量 分类表 发生比 对数发生比 优势比 logistic曲线 logit转换 logit模型 发生比模型 logistic回归系数 logistic回归系数幂值 对数似然函数 伪测定系数 wald检验内容小结1. 对于因变量为二分变量的情境,传统多元回归的方法不再适用,logistic回归则适用于此情境。2. 通过对发生比取自然对数来进行logit转换,从而将二分结果变量转移到连续的量尺上,使之与自变量之间形成线性可加的关系。3. l

48、ogistic回归方程由于对结果变量进行了转换,其对回归系数的解释比传统多元回归方程的解释更加复杂。通常采用回归系数的幂值,即EXP(B)来反映预测变量对结果变量发生比的影响。用Wald test对回归系数的显著性进行检验。 4.用-2LL 和伪测定系数对logistic回归方程进行整体检验和拟合优度的评价。判别分析discriminant analysis核心要点了解判别分析的基本前提假设及适用情境。了解判别函数和分类函数的相关概念和主要类型。掌握判别分析的重要参数如判别系数、结构系数、矩心、特征根等参数的含义。学习 SPSS 软件中判别分析的操作过程和结果解释。提纲1 判别分析一般目的和描

49、述2 判别分析主要回答的问题3 判别分析假设条件及模型4 判别分析的主要类型5 判别分析的参数及解释6 判别分析应用案例及 SPSS 操作1.判别分析一般目的和描述判别分析(discriminant analysis)又称作鉴别分析、区分分析,在教育心理评价方面有广泛应用。判别分析是一种根据已知属于不同类别的样本为标准,结合所观测的不同样本的若干项不同的观测指标数据,建立一个或几个线性组合(即判别函数,discriminant function),据此将待判别的事物加以分类的一种多元统计方法2.判别分析主要回答的问题判别分析大致可以回答以下几个问题: (1)能否根据一系列观测指标变量有效区分不

50、同的类别? (2)究竟有多少个显著的判别函数? (3)使用哪种线性方程来对新的个案进行分组? (4)所选择的一系列观测指标与不同类别的关联程度有多大?3 .判别分析假设条件及模型判别分析的假设条件样本量各组别样本量不同对判别分析结果的影响不会很大;但是如果在分组过程中,你希望判别为不同组别的先验概率不同,那么样本量会对此产生影响。3 .判别分析假设条件及模型判别分析的假设条件观测指标变量的多元正态分布在判别分析中,假定各观测指标变量满足多元正态分布,即观测指标变量的得分是从一个总体中独立随机抽样,任何观测指标变量的线性组合的抽样分布都是正态分布的。3 .判别分析假设条件及模型判别分析的假设条件

51、各类别方差-协方差齐性一般来说,当样本量较大、各类别样本量均衡的时候,违反方差齐性的假设并不会对判别函数的显著性造成太大的影响;但是当样本量较小各组别样本量不均衡的时候,估计判别函数的显著性的判断会受到较大的影响,很可能造成偏差。3 .判别分析假设条件及模型判别分析的假设条件多重共线性 如果观测指标变量有高相关,那么类似于多元回归很可能会出现多重共线性。3 .判别分析假设条件及模型判别分析的基本模型判别函数 判别函数表示分组变量与满足条件假设的观测指标变量之间的关系。和多元线性回归方程形式类似,判别函数的因变量为不同判别函数的得分,此得分并不是分组变量的编码值,而是通过对观测指标变量进行坐标旋

52、转而得到的间距测度变量,其作用在于最大化组间差异、最小化组内差异。3 .判别分析假设条件及模型判别分析的基本模型分类函数 判别函数反映了预测指标变量和判别值之间的关系,而分类函数则解决 如何将个案划分到不同的类别的问题4.判别分析的主要类型建立判别函数的方法(1)在标准判别分析(standard discriminant analysis)中,所有选择的预测变量都将进入方程之中,变量之间共同对于组间方差的解释将不属于任何一个变量。4.判别分析的主要类型建立判别函数的方法(2)在序列判别分析(sequential discriminant analysis)中,研究者可以根据已有研究或假设对预测

53、变量进入方程的顺序进行设定。4.判别分析的主要类型建立判别函数的方法(3)在统计判别分析(statistical discriminant analysis)中,当研究者对于预测变量进入方程的顺序没有特定要求,那么可以通过统计标准来确定进入顺序4.判别分析的主要类型对个案进行分类的方法(1)距离判别距离判别的基本思想是:在 P 维空间中,对已知的 K 个总体 G1,G2,GK来说,在每个总体内部,由于所有元素同属一个总体,元素与元素之间的距离相对较短,而对于异质总体的元素来说,其间的距离应该相对较长一些。4.判别分析的主要类型对个案进行分类的方法(2)贝叶斯判别。贝叶斯判别是在判别分析中充分利

54、用先验概率信息的一种判别方法。4.判别分析的主要类型对个案进行分类的方法(3)Fisher 判别Fisher 判别通过寻找一个将 P 维空间的点降为一维数值的线性函数,然后利用这个线性函数把 P 维空间中已知类别总体以及未知类别归属的空间点都转换为一维数据,再根据它们之间的疏密情况把未知归属的点判为相应的总体。5.判别分析的参数及解释判别系数判别系数又称为函数系数、判别权重,反映了各预测变量对于判别函数的作用,可以分为标准化和非标准化两种。 5.判别分析的参数及解释结构系数在判别分析中结构系数又称为判别负载,反映了各观测指标变量与判别函数值之间的相关系数。 5.判别分析的参数及解释分组的矩心分

55、组的矩心是每个类别判别函数值的均值,它描述了以判别函数为轴,每个类别的中心所在的位置。 5.判别分析的参数及解释特征根每个判别函数都会对应一个特征根,其数值等于组间差异与组内差异的比例。特征根反映了该判别函数的判别能力,越大说明判别能力越佳。 5.判别分析的参数及解释典型相关系数 典型相关系数的计算公式如下: 5.判别分析的参数及解释Wilks Lambda参数Wilks Lambda 反映的是组内平方和占总平方和的比例,其值越小,则表明组内平方和占总平方和的比例越小,对应的组间平方和占总平方和的比例越大。 6.判别分析应用案例及 SPSS 操作本例数据包含 ID、numeracy(计算能力)

56、、reasoning(推理能力)、spacial(空间能力)、GROUP(类别)变量。其中,ID 表示个案编号,GROUP 为分组变量,一共有三个组别(优秀、良好、不及格),对应变量值为 1、2、3,随机挑选了 9 个个案的分组变量为缺失值。其余变量为预测变量,均为1-10 点评分。 操作步骤详见高级心理统计P104P110关键术语分组变量 判别变量 判别函数 分类函数 分类函数值标准判别 序列判别 统计判别 距离判别 贝叶斯判别 Fisher判别 判别系数 结构系数 分组矩心 特征根 典型相关系数 Wilks Lambda第六章 聚类分析核心要点掌握聚类分析的基本概念,熟悉聚类分析的应用场景

57、。了解层次聚类法和非层次聚类法的概念,并掌握它们的计算步骤。知道如何对聚类分析的结果进行解释。了解聚类分析与因素分析、回归分析的区别与联系。提纲1 一般目的和描述2 主要回答的问题3 模型及原理4 聚类分析的主要类型5 值得注意的问题6 应用案例及SPSS操作1.一般目的和描述聚类分析是将所观测的事物或观测事物的指标进行分类的一种统计分析方法,它的目的是辨认在某些特征上相似的事物,并将这些事物按照这些特征划分为几个类,使得同一类中的事物具有较高的同质性,不同类中的事物具有较大的异质性。聚类分析的对象有两个方面,一个方面是对样品也即个案或被试聚类(称Q 型聚类),另一个方面是对指标也即变量进行聚

58、类(称R 型聚类)。2. 主要回答的问题如何测量变之间的相似性或个体之间的距离如何将相似的事物或变量聚为一类如何描述和解释所聚成的各类3. 模型及原理距离每个样品(案例)有p个指标(变量),故每个样品可以看成p维空间中的一个点,n个样品组成p维空间中的n个点,用距离来度量样品之间接近的程度。距离测度应满足下列四个条件:1)dij 0;2)dij=dji, 即距离具有对称性;3)dijdik+dkj,即三角不等式,任意一边小于其他两边之和;4)如果dij0,则i j3. 模型及原理距离3. 模型及原理相似系数3. 模型及原理相似系数选择原则要考虑所选择的距离/相似系数公式在实际应用中有明确的意义

59、。要综合考虑对样本观测数据的预处理和将要采用聚类分析方法。要考虑研究对象的特点及计算量的大小。3. 模型及原理变量的标准化中心化变换变量的标准化标准化变换中心化变换变量的标准化极差正规化变换中心化变换变量的标准化对数变换中心化变换4. 聚类分析的主要类型根据聚类分析的对象划分样品聚类(称Q 型聚类)指标聚类(称R 型聚类)根据聚类分析的原理划分层次聚类法(Hierarchical Cluster)非层次聚类法(Nonhierarchical Cluster)或K 平均数法(Kmeans methods)4.1层次聚类1、聚集法:首先把每个案例各自看成一类,先把距离最近的两类合并,然后重新计算类

60、与类之间的距离,再把距离最近的两类合并,每一步减少一类,这个过程一直持续到所有案例归为一类为止。2、分解法:与聚集法相反,首先把所有的案例看成一类,然后把最不相似的案例分为两类,每一步增加一类,直到每个案例都成为一类为止。4.1层次聚类(1)最短距离法(Single Linkage)类与类之间的距离定义为一个类中的所有案例与另一类中的所有案例之间的距离最小者。(2)最长距离法(Complete Linkage)与最短距离法相反,类与类之间的距离定义为两类中离得最远的两个案例之间的距离。4.1层次聚类(3)中间距离法 4.1层次聚类(4)重心法4.1层次聚类(5)类平均法4.1层次聚类(6)可变

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论