行为研究的设计与-第八章 回归_第1页
行为研究的设计与-第八章 回归_第2页
行为研究的设计与-第八章 回归_第3页
行为研究的设计与-第八章 回归_第4页
行为研究的设计与-第八章 回归_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、相关统计之回归分析相关统计之回归分析1 1本讲内容:本讲内容:2 2回归分析向均值回归案例:探索短时记忆研究背后的统计学回归分析回归分析回归分析线性回归建立线性回归方程回归直线的特点绘制回归直线估计值的标准误差3 3回归分析两个变量之间的相关关系:4 4非线性关系非线性关系线性关系线性关系相关关系相关关系不相关不相关函数关系函数关系相关关系:对于两个变量,当自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系。函数关系中的两个变量间是一种确定性关系,相关关系是一种非确定性关系函数关系是一种理想的关系模型,相关关系在现实生活中大量存在,是更一般的情况。回归分析线性回归回归分析是对具有

2、相关关系的两个变量进行统计分析的一种常用方法.两个具有线性相关关系的变量的统计分析:线性回归是分析两个连续型变量之间依存变化的数量关系的统计方法。是回归分析中最基本、最简单的情况,因此称为简单回归。两个变量的地位是不同的,其中一个是自变量,也称解释变量,用X表示,可以是服从正态分布的随机变量,也可以是能精确测量和严格控制的非随机变量?;另一个是因变量,用Y表示。线性回归通常的假设为:1.自变量与因变量之间的关系有线性趋势(Linear).每个观察个体之间相互独立(Independent).给定x值,对应的y服从总体平均数为、方差为 的正态分布。(Normal Distribution).不同所

3、对应的方差相等,均为 。(Equal variance)为了方便记忆以上称为LINE(线性假设),因为线性、独立、正态、等方差的首字母为LINE.225 5 112233,.,nnx yxyxyxy线性回归的概念如果以变量x、y分别为横轴和纵轴,将成对的样本实测值绘制成散点图,各散点通常不会恰好在一条直线上。根据散点图所反映出两个变量的线性趋势,可以假定,对于自变量x的各个取值,相应的因变量y的总体平均数 位于一条直线上,这时我们可以用某个适当的线性回归方程来描述y的总体均值依赖于x的数值变化。x yy xx6 6线性回归的概念回归方程大多数情况由样本得到,成为样本回归方程或经验回归方程。在回

4、归方程中我们通常用 来表示一个 的样本估计值,即x确定时y的样本均值,则样本回归方程的一般表达式为 a为回归直线在y轴上的截距,表示x值为0时y的平均水平。 a0交点在原点上方; a=0,回归直线经过原点。b为回归系数,即直线的斜率,其统计意义是:x每变化一个单位,y平均变化b个单位。 b0,表示直线从左下方走向右上方,即y随x的增大而增大; b=0,表示直线与x轴平行,即x与y无线性关系。y y、y xyabx7 7回归直线的实质回归直线表示了一种特殊类型的均值,因此许多人称它为最优拟合直线。均值表示的是样本中较低得分和较高得分之间的均衡点:在样本中,每一个观测值和均值之间的差异的和始终是0

5、,也就是说,回归线表示回归直线与每一个观测值Y之间距离总和最小。变量Y的每一个观测值和其预测值 之间的差异总和,始终等于0,也就是说 ,0XMY0YY8 8建立线性回归方程从样本数据中求解a和b,实际上是拟合一条反映所有散点集中趋势的回归直线,使得各个实测值与对应的估计值最接近。实测值y与回归线上的估计值 的纵向距离 称为残差,就是各点残差要尽可能小。由于残差有正有负,通常要找一条各点残差平方和最小的直线。要保证各实测点距回归直线纵向距离平方和最小,通常用最小二乘法,推导出回归方程系数的计算公式是yyy2()()xxyybxxaybx9 9估计值的标准误差建立回归方程后我们可以根据它对给定的X

6、进行相应Y的。预测除非两个变量之间具有完全的相关性,否则回归直线表示的仅仅是对Y值的估计。因此我们需要一种统计量来表示 的精确度。类似于标准差用来描述观测值与均值之间典型的差异有多大。我们也可以对 同样这么做使用的一个统计量称为估计值的标准误差(standard error of estimate).估计值的标准误差就是观测值围绕着回归直线波动的标准差,用估计值的标准误差我们就可以推断出 的置信区间.1010YY两个变量间相关的一个散点图。数据中间的直线表示了回归直线,外侧的曲线表示了95%置信度下置信区间的上限和下限。2222()11(1)2XTestYestYYXMYYSNXXNNrSSN

7、其中绘制回归直线方法一:直线一定通过点 直线与纵坐标相交于截距a。方法二:在自变量实测范围内,取易于读数的x值代入回归方程得到一个点的坐标,连接此点与点,X Y(,)X Y1111REGRESSION TO THE MEAN向均值回归概念:向均值回归又叫趋中回归 当某些被试在一个变量上的取值远离群体均值特别低或者是特别高的时候,这些被试在同一个变量上的另一次观测值或在其他相关的变量上的观测值,往往会比较靠近均值。用公式表达就是:一个球队在上一届联赛中表现出色,在下一届联赛的表现往往不如上一届;一个走红的文学作品(小说、电影或电视剧等) ,其续集(如果有的话)往往令人失望;高考状元在大学期间的成

8、绩很难保持名列前茅;在一个场合表现得非常聪明(或愚笨)的学生在另一个场合往往表现得没那么聪明(或愚笨)XXYY1212历史回顾 回归分析最早是19世纪末期高尔顿(Sir Francis Galton)所发展。高尔顿是生物统计学派的奠基人,他的表哥达尔文的巨著物种起源问世以后,触动他用统计方法研究智力进化问题,统计学上的“相关”和“回归”的概念也是高尔顿第一次使用的。1855年,他发表了一篇“遗传的身高向平均数方向的回归”文章,分析儿童身高与父母身高之间的关系,发现父母的身高可以预测子女的身高,当父母越高或越矮时,子女的身高会比一般儿童高或矮,他将儿子与父母身高的这种现象拟合出一种线形关系。但是

9、有趣的是:通过观察他注意到,尽管这是一种拟合较好的线形关系,但仍然存在例外现象:矮个的人的儿子比其父要高,身材较高的父母所生子女的身高将回降到人的平均身高。换句话说,当父母身高走向极端(或者非常高,或者非常矮)的人的子女,子女的身高不会象父母身高那样极端化,其身高要比父母们的身高更接近平均身高。高尔顿选用“回归”一词,把这一现象叫做“向平均数方向的回归”(regression toward mediocrity)。而关于父辈身高与子代身高的具体关系是如何的,高尔顿和他的学生KPearson观察了1078对夫妇,以每对夫妇的平均身高作为自变量,取他们的一个成年儿子的身高作为因变量,结果发现两者近

10、乎一条直线,其回归直线方程为:这种趋势及回归方程表明父母身高每增加一个单位时,其成年儿子的身高平均增加0.516个单位。这样当然极端值就会向中心靠拢。33.730.516yx1313REGRESSION TO THE MEAN向均值回归当相关系数小于1.0的时候,变量X与其均值 之间的相对偏差 ,就会大于预测值 和Y的均值 之间的差异 。在父辈身高与子代身高的例子中, 表示的是该父辈的身高与父辈们的平均身高之间的差异,而 表示的是孩子的身高与所有其他孩子们的平均身高之间的差异。高尔顿观察到的是特别高或者特别矮的父母们的孩子,倾向于高于或者低于孩子们的平均身高,但是这些孩子们趋向于比他们的父母接

11、近于平均身高。X()X XYYYXXYY141411,X Y(,)XY向均值回归。散点图表示r=0.5 的数据,粗线表示数据的回归直线,另一条表示相关系数为r=1的回归线。阴影区表示向均值回归。MMYYXX1515向均值回归的计算1999年Campbell 和Kenny将趋中回归刻画为“由于自变量与因变量不是完全相关,因变量(标准化的)预测值往往不像(标准化的)自变量那样极端”。他们将趋中回归定义为:趋中回归=完全相关的预测值-回归预测值 (1)下面我们用数学式子表示一下:设X和Y是两个相关变量,X为自变量,Y为因变量。他们的皮尔逊相关系数为: 由通常的一元回归方程,经过简单的变形可知,对给定

12、的 X , Y的均值的预测值是: (2)其中 和 分别是 X和Y的样本均值, 和 分别是X和Y的样本标准差。如果 X和 Y完全相关,对给定的 X , Y的预测值是 (3)由 Campbell 和 Kenny 关于趋中回归的定义(1)及(2) 、(3)可知,对给定的 X ,趋中回归由下式计算: (4 4)()yxSYYrXXS 22XXYYrXXYY= 1yxSrXXS趋中回归= 1-rXX趋中回归1616向均值回归的性质 两个变量的相关系数越小,趋中回归越大。向均值回归现象在r=0时,表现得最大,在r=1时消失。 只要两个变量不是完全相关,趋中回归就存在 离开平均值位置越远的自变量,相应的趋中

13、回归越大= 1-rXX趋中回归1,1r 1717模拟向均值回归1.随机生成两组0到100之间的数字,各50个(生成的随机数表r=0.147724)2. 设想把这两组随机数当作给出的两次心理测验得分 (其中一个在星期一测量,另一组在星期五测量)3.第一组数字表示的是测试1的得分情况,第二组数字表示的是测试2的得分情况。4.下图给出了测试1得分最高和得分最低的10个测量值,旁边是相应的测试2的测量值。模拟向均值回归现象的一个例子测试1测试2测试2-测试1测试1测试2测试2-测试1197 63 -34 15 49 34 296 54 -42 13 96 82 395 40 -55 13 58 45

14、495 86 -9 10 15 5 592 77 -15 8 4 46 686 40 -46 8 34 26 785 99 13 8 40 33 884 96 12 3 47 44 984 20 -64 1 13 12 1084 100 16 0 88 87 M(均值)90 67 -22 8 49 41 1818社会研究中均值回归在社会科学研究中一定要注意均值回归这一现象,向均值回归是一个潜在的混杂变量。设想我们要去检验一种降低人们在公众场合表达意见时紧张感的新治疗方法的效果。我们首先挑选出那些在公众场合表达意见时会感到极度焦虑的人。然后我们会为这些受试者提供一个“练习场景”来帮助他们降低焦虑

15、感。当场景练习完成后,我们重新评估这些受试者在公众场合演讲时的焦虑程度。紧张程度得分值的大幅下降,是否就意味着这种治疗环境很有效呢?事实并非如此,焦虑程度的降低,在可能反映了向均值回归这个现象之外并没有提供更多的信息。向均值回归是一个潜在的混杂变量,它导致了对该治疗环境能够缓解人们在公众场合演讲的恐惧感这个结论的内在效度,产生了严重的质疑。控制均值回归:设置两个组,一个控制组一个实验组。1919思考1. 1.向均值回归是不是一种与马太效应相反的现象?向均值回归是不是一种与马太效应相反的现象?2. 2.我们在什么情形下需要想到向均值回归这一混杂变量的影响?我们在什么情形下需要想到向均值回归这一混

16、杂变量的影响?2020RESEARCH IN ACTION: SEARCHING SHORT-TERM MEMORY探索短时记忆探索短时记忆试验项目试验项目研究者在测试中所出示的随机字母组研究者在测试中所出示的随机字母组研究者所出示研究者所出示的探测字母的探测字母 受试者受试者的回答的回答1E Q H DJ 扫描短时记忆 无2L S K J TK 扫描短时记忆 有开始时间 结束时间斯滕伯格研究短时记忆(斯滕伯格研究短时记忆(19661966)所用到的事件序列)所用到的事件序列实验目的:实验目的:人们怎么从短时记忆中提取信息?实验介绍:实验介绍:在每个试验中,斯腾伯格都向受试者提示一组随机选择的

17、字母让他们记忆,字母的数量从1到6个之间,并且在每一个试验中都有所改变。当受试者有足够的时间记忆这些字母后,斯腾伯格给出单独的一个字母,让受试者来指出该探测字母是否属于刚才所记忆的那组字母。对于随机抽取的半数试验,探测字母是属于所记忆的字母组里的,而对其余的试验,探测字母不属于所记忆的字母组。(一个模拟实验)2121a.a.平行同步扫描平行同步扫描将探测字母将探测字母与记忆中所有项目比较与记忆中所有项目比较b.b.系列自中断扫描系列自中断扫描将探测将探测字母逐个字母逐个与记忆中的项目作比较,与记忆中的项目作比较,发现与探测数字相同的就中断扫描发现与探测数字相同的就中断扫描c.c.系列全扫描系列

18、全扫描将探测字母逐个将探测字母逐个与记忆中的与记忆中的所有所有项目进行比较,项目进行比较,不论记忆中有没有探测字母不论记忆中有没有探测字母 我们从短时记忆中获取信息的过程,并不受记忆大小的影响,因为这两个变量之间没有相关性,回归直线呈水平状。 1.预示在记忆大小和受试者的反应时间长度之间存在着正相关性 2. 预测当探测字母不属于受试者所记忆的那组字母时,受试者往往需要更长的时间用于搜索。回答“不是”的回归直线的斜率比回答“是”的直线的斜率要陡峭。 1.记忆规模的大小和反应时间长度之间存在着正相关性 2.但是在肯定的试验和否定的试验之间并没有差异。指出随着所要求记忆的字母组长度的增加,受试者的反

19、应时间长度也相应地增加,但是两条回归直线的斜率和截距并没有差异。实验假设:实验假设:Research In Action: searching short-term memory探索短时记忆探索短时记忆2222斯滕伯格(斯滕伯格(19661966)对短时记忆所需要时间的研究试验结果)对短时记忆所需要时间的研究试验结果c.c.系列全扫描系列全扫描第一,随着所记忆字母组的规模的增加,受试者所需要反应的时间也相应地增加第二,回答“是”和“不是”的试验之间并没有任何差异,两组数据都呈现出同样的趋势Research In Action: searching short-term memory探索短时记忆

20、探索短时记忆实验结果实验结果2323实验启发:实验启发:首先:首先:人们常识一般认为,做出“否”的反应时间比做出“是”的反应时间要长,因为做出“是”反应后,被试者就可以停止扫描,而做出“否”反应则需要扫描记忆中的所有项目。这个实验的结果证明做出“是”、“否”反应所用的时间几乎相等。所以说不能未经实证检验就轻信对数据所作出的常识性解释。需要说明的是,其他研究者用不同的试验方法和不同的实验对象都重复得到了这些研究结果。其次:其次:我们能在许多不同的应用研究中使用相关和回归的分析方法。Research In Action: searching short-term memory探索短时记忆探索短时记

21、忆2424短时记忆相关的研究成果短时记忆成绩, 随文化水平的升高而提高, 文化因素对短时记忆的影响非常显著要使信息保持在短时记忆中, 必须对信息进行有意识的复习和运用一定的记忆方法。以词为组块测量短时记忆容量比以其他单位测量更接近恒定。视觉短时记忆容量比听觉大。小学儿童短时记忆能力随年龄增长呈上升发展趋势, 1岁年龄段是迅速发展时期。凡运用记忆策略识记材料, 其效果总比机械识记好, 学中、高年级儿童的意义识记和机械识记效果均优于低年级。小学各年龄段儿童具体词的记忆效果均优于抽象词, 但这种差别随年龄增长而缩小。2525研究背后的统计学皮尔逊简单相关系数 XY表示每一对得分的交叉乘积,N代表组数

22、由22xyrxy2222XYXYNrXYXYNN得出,其中,XYxXyYNN2626记忆组的大小反应时间 探 测 字 母 属于该组1141168141 2445202590 39492401147 416563136224 525623844310 636623844372 探 测 字 母 不属于该组1145202545 2446211692 39512601153 416553025220 525603600300 636613721366 X2X1100Y秒2YXY42X 2182X633Y 234019Y 2360XY 3.5XM52.75YM1.7078XS7.2356YS 重复做斯滕

23、伯格实验的数据假定有位学生去重复斯腾伯格(1966)的实验,下表是该学生所收集的数据。因变量描述的是平均反应时间,用接近1/100秒的精度来测量,要求受试者对每种实验条件都作出正确的反应。2727224263323601242633182340191212r23602215.5182 1473401933390.75r144.535628.25r 144.5148.2860r 0.9745r 2222XYXYNrXYXYNN1.计算“记忆字母组大小”和“受试者反应时间”在两种条件下的相关系数。2828斜率:截距:回归方程:实例:步骤1: 计算斜率: 步骤2:计算截距:步骤3:使用步骤1和步骤2得到的结果来构造回归方程:2.利用相关系数可以确定定义X和Y之间线性关系的公式YYXSbrSYYYXaMbM()YYYabX (),52.75-4.10

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论