行为科学统计第七版考研复习_第1页
行为科学统计第七版考研复习_第2页
行为科学统计第七版考研复习_第3页
行为科学统计第七版考研复习_第4页
行为科学统计第七版考研复习_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、符号说明: 重点 引导语 派生概念或() 派生分析语句第 部分 简介与描述性统计首先提出了1 平均数(集中趋势)2 对变异性的测量(描述了数据是怎样分布在平均数附近的)第一章 统计学入门 统计 总体与样本 统计的作用: 1 整理和总结信息,使研究者看出在研究中发生了什么,并和其他研究者交流结果。 2 统计帮助研究者回答了引出研究的普遍问题,它根据获得的结果来确定结论是什么。研究开始于一个 关于总体的 普遍问题。 为回答这个问题,研究者研究了一个样本 将结果从样本推广到整个总体。统计 是指,整理、总结并解释信息的一系列数学过程。总体 在一个特定研究中所有感兴趣个体的集合。 (是研究者希望研究的整

2、个组。 ) 参数 用来描述总体的特性。通常是一个数字值。参数可以从单个测量中得到,或从对总体的一组测量中推导。 样本 从一个总体中选择出来的个体的集合,通常在研究中被期望代表总体。统计量 用来描述样本的特性。 通常是一个数字值。统计量可以从单个测量中得到,或从对样本的一组测量中推 导出来。(通常,每个总体参数都与一个样本统计量相对应。 ) 数据 从个体中得到的测量或观察(其中测量、观察均为名词。 ) 它通常被称为一个分数或原始分数。统计分为两类:1 描述性统计 是用于总结、组织并简化数据的统计过程。 它是一种技术,把原始数据组织总结成更易处理的形式。 (通常被组织成表或图,或用计算平均数的方法

3、总结一组数据。 ) 2 推论性统计 是先研究样本,然后将结果推广到 样本来自的总体 的技术。 (通常使用样本统计量 作为推论总体参数的基础。 ) (它通常回答这个问题: 到底是 1 还是 2 其中 1 是样本中的结果差异只是取样误差。 2 是 样板间的教学差异是由于样本性质(如书中例子中:教学方法)造成的。样本只提供了关于总体的有限信息。 即使样本可以代表它们来自的总体, 但我们不期望一 个样本可以给出关于整个总体的精确描述。通常,在样本统计量 和 总体参数间 存在一些差异,叫取样误差。 取样误差 存在于样本统计量 和总体参数 间的差异或误差的数量。 每个样本都包含具有不同性质的不同个体。 由

4、于样本由不同人组成, 样本统计量也从一 个样本变化到另一个。并且没有一个样本统计量 和 总体参数 完全一致。取样误差的基本理念: 样本统计量通常与其相应的总体参数不同,并且根据样本的不同而变化。数据结构、研究方法与统计变量 是一种 针对不同个体具有不同值的 特性或条件。常量 是一种 不会变化,且对每个个体都相同的 特性或条件。 相关法 观察两个变量并确定它们之间是否存在关系。(2X2 表格数据中,对于每个个体,研究者都有两个测量,且所有的测量都是个数。这种表 示个数的数据的变量之间的关系,可以用卡方检验。 )对两组或多组测量来说,会存在其中一个变量被用来定义组别。(例如早餐成绩问题, 变量 1

5、吃不吃早餐被用来定义组, 变量 2 学习成绩被用来得到每个组 的数据)并且,如果测量过程产生数字值,那么统计评估会包括计算每组的平均数,并比较它们。 如果测量过程仅仅将个体归入非数字的类别中,那么统计评估常包括计算每个组的比例。(例如, 产生数字值的儿童早餐与成绩问题, 学习成绩被用来计算平均值。 而城乡居民的政 策接受研究中,数字值被用来计算比例。 ) 实验法 操纵一个变量并观察或测量另一个变量。并且为了建立两个变量间的因果关系,实 验需要控制所有其他变量,使它们不会影响结论。实验法的两个特性:1 操纵: 研究者操纵一个变量, 将它的值从一个水平变化到另一水平。 然后观察或测量第二 个变量,

6、来确定这种操纵是否导致了变化的产生。2 控制:研究者必须控制研究情况,使其他无用的变量不能影响需要研究的变量关系。 通常研究者需要考虑的两种变量:1 被试变量一些特性会 随个体的不同 而变化,如年龄性别和智力。只要实验是比较两组个体的差异, 就必须保证两组的被试变量完全相同。2 环境变量通常使用三种技术控制其他变量:1 随机分派 目的是,使每个被试有相同的机会被分派到每个处理条件中, 以使被试的特性在两组中均匀分布。2 匹配通过匹配来保证参与组或环境的同质性。 (如测量所有被试 IQ 后,将被试匹配地分派到两组 中,使两组有基本相等的 IQ)3 将变量控制成常量 例如,只使用 10 岁儿童做被

7、试。实验法的术语自变量 被研究者操纵的变量。 (在行为研究中, 自变量通常由被试参与的两个或多个处理条 件组成。) 自变量由 在观察因变量之前就操纵好的前条件组成。因变量 即被观察的变量,用于评估处理 效应。(或:被观察并用来评估可能存在操纵效应 的变量)在心理学研究中,因变量通常是经过测量后从每个被试中得到的数据。注意,在实验法,事实上只测量了一个变量。 (因为是操纵一个观察另一个) 它和相关法有本质区别 后者两个变量均被测量,数据由每个个体的两个不同分数组成。控制条件与实验条件通常,实验将 没有接受任何处理的被试的分数,与接受处理的被试分数进行比较。 这是通过 证明处理条件造成的分数与不处

8、理造成的分数的不同,而说明存在处理效应。 这种研究中,出现了:1 控制条件 指个体不接受实验处理。 或者不接受处理,或者接受中性或安慰剂性处理。 控制条件的目的是提供与实验条件相比较的基准。2 实验条件 指个体接受实验处理。注意:自变量通常由至少两个值组成。 (因为至少应有两个值才能称为变量) 有的实验,自变量是简单的数值。由实验组和控制组组成的实验,自变量应该是处理与非处理。非实验和准实验法准自变量 是指在非实验中那些决定了组别的变量。在非实验中仅仅对两个组进行比较,但这两组却不是通过操纵自变量所得到 通常是 由被试变量或时间变量(如处理前与处理后)决定。p17 的两个例子,均是无法操纵变量

9、 1(可视为准自变量,准在它为改变因变量而生,却无 法被操纵),这种变量 1 叫做准自变量。分割线开始 对于例子 2 的 “研究者无法操纵时间 ”,这里有两个问题:1 为什么它这样说, “无法操纵时间,但是用它来划分两组数据 ” 这里面其实强调了两个因果关系,即:a)如果这是一个实验,那么自变量一定为研究者所操纵。 b)如果一个变量是一个实验里的自变量, 那么 “分组 ”这个过程一定是由操纵自变量造成的。 (因为自变量通常由被试参与的处理条件组成,而处理条件决定了分组。 ) 所以才有这种暗含因果关系的用词 “但是用它 ”。2 为什么这是个非实验 因为这个实验的分组是源于时间变量 治疗前治疗后是

10、两个时间点, 而它并没有得到研究 者的操纵。如果是对时间操纵后才导致这种分组, 才能说时间是实验的自变量, 而这个实验才能是实验。 注:切莫纠结于, 为什么说它没有操纵时间这种思维是在假定了时间是此实验的自变 量导致的,而时间仅仅是导致分组的原因,只能称为准自变量。分割线结束 变量与测量有些变量仅仅是假设出来的概念(即构念)从而无法直接观察,对它们的研究需要测量。 构念 是内部属性或特性,它不能被直接观察到,但可以描述并解释行为。操作定义 是一个测量过程。它测量了外部行为,并 使用测量结果作为定义 和对假设的构 念的测量。操作定义有两个部分 1 描述了一系列测量构念的操作; 2 用测量结果定义

11、了构念。根据变量值的类型,分为两种变量:1 离散变量 由不同的、不可分割的类别组成。在两个相邻类别之间不存在其他值。 它们通常限于整数。2 连续变量在任意两个观察到的值之间都存在无限多个可能的值。 一个连续变量可以被分割成无限个小 数部分。连续变量的两个因素1)两个不同个体很少会得到完全一样的测量。若有,可以合理怀疑测量过程过于粗糙,或 变量可能不是真的连续的。2)测量连续变量时,每个测量类别实际上都是一个区间,需要用边界来定义。 一个数值其实是一个区间,而非量表上一个点。在量表上对其设定边界,有以下概念:实限 指一条连续数据线上数值组成的区间的界限。将两个相邻数值分开的实限恰好位于两 个数值

12、的中点。每个数值都有两个实限:上实限和下实限。收集数据需要测量观察。 而测量包括将事物分类(定性测量)和使用数字描述事物大小(定量测量) 。 介绍四种测量量表:1 称名量表 由一系列具有不同名称的类别组成。 称名量表的测量将观察的对象分类并贴标签,但不对观察做任何定量的区分。 (称名量表的类别不是量化值, 但它可以用数字代表, 并依然不能代表任何量化差异。 如房 间 100 和房间 109 这条信息无法得出任何量化结论。 )2 顺序量表由一组 按顺序排列的类别 组成。顺序量表的测量将观察对象按大小排序。 例如,类别可以是大中小,但不能是1cm2cm3cm 。类别组成了序列这个事实意味着在类别间

13、存在方向性。 可以用顺序量表的测量, 来确定 两个个体是否不同并确定差异的方向,但无法确定两个个体间的差异大小。等距量表和等比量表它们都由一系列排序的类别组成,并且这些类别组成了一系列相同大小的区间。大小相同的区间,代表可以利用此量表来确定两个测量间的差异的大小和方向。 它们的区别在于零点的性质。3 等距量表 由排序的类别组成,这些类别都是完全相同大小的区间。等距量表具有随意的零点,并且零值不代表被测量的变量不存在。 在等距量表中,量表数字间的差异等价于量的差异,但大小的比例没有意义。4 等比量表 是一种等距量表。它有一个绝对零值,代表没有测量的变量。 等比量表绝对的、非任意的零点,使我们可以

14、测量变量的绝对值。 等比量表中数字的比例可以反映量上的比例。关于判断是等距还是等比(自推) :1 等距量表的零点没有意义, 等比量表的零点则代表了一个 “没有测量 ”的变量 (我把测量视 为名词,大约代表 “值 ”)。所以等距的零点才能随便换,且只为衡量测量值的差值。 SAT就是一个等距量表,因为零值是为衡量测量值之差而存在。 每个人的感冒次数则是等比量表,因为零值有意义且不能变动。因此: 2 等距量表的重点在于测量之间的差值,等比量表则是比例。 例如 SAT测试就是等距量表,重点在于测量间的差值而非比例。(并不排除等比量表中测量间差值的意义,但由于等比本也是等距,因此舍弃比例并无意 义。)统

15、计符号分数 指研究中对因变量的观察后得到的每个被试的值。原始分数 指研究中最初得到的、没有改变过的一组数据。 特定变量的值用 X 表示。(注意: X又叫一个量表,可视为是一类数据之意。在 p48 图上三行有明确的表达)第二章 频数分布概述原始数据通常不会显示任何明显的模式。研究者依靠描述性统计来总结和组织他们的结 果,使得当真的存在某些模式时,它们更易被发现。描述性统计的任务:简化结构并整理组织数据。 最常用过程是将数据放入一个频数分布。频数分布 是一种组织好的关于位于测量量表每个类别上的个体数目的数据表。 频数分布显示了个体得分在测量量表上的分布情况频数分布可以是表或图,但均有如下两个相同因

16、素:1 组成最初测量量表的类别2 频数的记录(每个类别中的个体数目)频数分布表频数分布表的特点:1 表中的第一列,列出了所有可能的值,即使此类别的频数为0。对于顺序、等距、等比量表,类别被按从高到低的顺序排列。对于称名量表,类别可以按任意顺序排列。2 第二列记录每个数值的频数。3 第一列的值 (如 X)指的是测量量表, 并非真实数据。 比如 X=5 但此类别的个体并不存在。4 频数可以用于求出分布中的数据个数。将频数相加可以得到个体个数的总和。除了频数分布的两个基本列之外,还有其他描述数据分布的测量。 最常用的是比例和百分率。比例 用 p 表示。 p=f/N 。 百分率 %=p( 100) =

17、f/N (100) 由于比例 p 描述了频数( f)和数据数目( N )的关系,故比例又可称为相对频数。 比例通常表示为小数。当一个数据组涵盖范围过大时,为了不必列出所有数据,可以使用如下办法: 分组频数分布表 将数据分成区间组,然后将区间列在表中,用区间代替每个数据。这里的组(即区间) ,叫组距。 它有四个规则:1)应该具有大约 10 个组距。只是大约。2)每个区间的宽度应为相对简单的数字。特别的,5 和 10 可以简化计算。3)每个组距的最小数值应为宽度的倍数。如以10 为区间宽度,则这些区间应从 20, 30 等开始。4)所有区间应有相同宽度。 它们应当无间断无重复涵盖 所有数值, 使任

18、意特定数值恰好只 属于一个区间。在分组频率分布表中,频数是对组距的描述,即这个组距的频数为f=xxx。并且, 当分数被放入一个分组表后, 会失去关于特定分数值的信息。 通常组距越宽失去的信 息越多。当测量一个连续变量时,得到的测量对应的是线上的区间,而不是单个的点。 例如一个连续变量的 X=8的频数 f=3,其实是代表有 3个数在 之间。 同样的,频数分布表中也存在实限概念。表面界限 比如 4049 的组距中, 40 和 49 为区间的表面界限。 但是这个区间的实限则是 40 的下实限和 49 的上实限, 即:这个组距的实限是和。并且组距的两实限间的距离,就是区间的宽度。 每两个组距会在实限处

19、交汇,因此量表中没有中断。注意,回答 “该组距的值域 ”时,需要回答出表面界限和实限。 分布表中最后一个区间是最小的区间。因为“在顺序、等距、等比量表中,类别被按顺序排列通常是由高到低 ”。频数分布图对于用 称名量表或顺序量表 测量的数据,用柱形图。 对于用 等距或等比量表 测量的数据,有两种图。1 直方图首先将数字(测量类别)沿 X 轴列出,然后画出位于每个 X值上的一个矩形,使得:a. 矩形的高度对应每个类别的频数b. 矩形的宽度为每个类别的实限。 另外,修正的直方图中,频数用方块代替,故不再需要显示频数的 Y 轴。总结(自推) : 注意 p39 图的组距画法。第一个矩形宽架设在至之间,

20、把刻度标在中点上。即恰好代表了组距1。对于图, 7578组和 8184 组之间没有空隙,是为了看齐分组频数分布表的 “无缝 ”。 它说明 7881 组之间没有数据 这是组距的宽度决定的现象。2 折线图 首先将数字(测量类别)沿着 X 轴列出,然后1)每个坐标的中心上方有一个点,它的垂直位置对应这一类别的频数。2)点和点之间的连续线段将这一系列点连在一起3)最后,在分数全距(看坐标系内,别看轴)的两端各画一条直线与X 轴相交(其实是零点和 X 最大值那点,看图) 对于一个分组分布,可以将每个点直接画在组距的中点处(中点为区间两实限的平均值) 。对于总体分布的频数分布图 由于其个体数过大,这种图有

21、两个特点:1 相对频数 在图中(可视为柱形图)只有分组( X 轴)和相对频数( Y 轴),没有显示绝对数目。2 平滑曲线 当一个总体由 等比量表 的数字分数构成时, 常用平滑曲线代替直方图或折线图的阶梯或锯 齿状。平滑曲线并非是将一系列点 (真实频数) 连在一起, 而是展示从一个分数到另一个分数的相 对变化。频数分布的形状完整描述任意分布, 有三种特性:形状、集中趋势和变异性 集中趋势 指分布中心的位置变异性 指数据是分散在广大区域还是集中在一起 形状 理论上分布的形状被定义为一个方程。 而大部分分布的形状是:1 对称分布 可以通过中心画一条垂直线使分布的一侧为另一侧的镜像2 偏态分布 分数倾

22、向于堆积在量表的一端并向另一端逐渐变细 另:尾 指分数逐渐向分布一段变细的部位 a)正偏态分布:尾在右侧的偏态分布(即尾指向X 轴正方向)b)负偏态分布:尾在左侧的偏态分布(即尾指向X 轴负方向)百分位数、百分等级和内插法 频数分布除了描述整组数据,也可以用来描述整组数据中的个体位置。 原始分数 个体分数或 X 值。原始分数本身不能提供个体位置。 其中一个变化是 将原始分数转化为百分位数。注意:可见,百分位数就是原始分数的一个变化。1 一个特定分数的等级(百分等级) 指在分布中低于或等于该特定分数的个体的百分率。 等级一定是一个百分率。 例如,全班有 60%的人分数在 43 以下,那么分数 X

23、=43 具有百分等级 60%。2 百分位数当一个分数被它的百分等级确定后,这个分数就叫百分位数。 它依然是一个原始分数。 如上例, X=43 可以被称为第 60 个百分位数。在频数分布表中,为了确定百分位数或百分等级: 累积频数( cf) 计算量表中位于或低于每个类别的个体数目。因为它们表示了沿着量表向上时积累的个体个数。 (累积频数显示了处于或低于每个分数的个体个数。 ) 累积百分率( c%) 将累积频数转化成百分率 因为它们显示了沿着量表向上时的累积的个体百分率。注意,频数分布表中的 X 值仍是区间,并非一个个点。 所以,当 X=2的 cf=2,c%=10%时,指的是: 在达到区间 X=2

24、的上限前积累了 2 个,且占 10%。内插法 具体步骤略 注意:内插法的基本假定是,一个区间从一端到另一端的变化是正常的线性变化。茎叶图略第三章 集中趋势集中趋势 是一个统计测量,它确定了 能够代表分布中心的 一个数值。集中趋势的目的 找到最典型或最能代表整个组 的单个数值即 确认每一个分布的 “中心 ”或 “最具代表性的数值 ”。) 集中趋势描述了一个大型总体的典型特征,使得大量数据更容易被理解。 )三种测量集中趋势的方法:1 平均数 也叫算数平均数,是将分布中的所有数据相加并除以数据的个数得到的。一个总体的平均数用 表示,一个样本的平均数用 M 表示。(通常,使用希腊字母代表总体的特性,用

25、英文字母代表一个样本的特性。 )我们经常需要将两组数据组合,并找出合并组的整体平均数。 整体平均数并非原先两个样本的平均数中心。 由于两个样本大小不同, 其中一个对整体组做 出了更大贡献。因此,决定整体平均数时占了更大权数。因此,整体平均数也叫加权平均数。 加权平均数 等于 数据总和 / 数据个数。2 中数 中数 是恰好将一个分布一分为二的数值。这个值也相当于第 50 个百分位数 (中数不存在特殊符号和记号,对于样本和总体来说,中数的定义和计算相同。 ) (在图形中,中数恰好将图形的面积分成两部分。 )3 众数众数 是具有最大频率的 分数或类别 众数可以用于确认任何测量量表的典型值或平均值,包

26、括称名量表。 众数是一个分数或一个类别。但绝不是频数。一个分布只有一个平均数,一个中数。但它可能有一个众数、多个众数,或没有众数。 具有两个众数的分布被称为双峰分布,具有多于两个众数的分布为多峰分布。 有时,具有数个等高点的分布叫无众数。(通常双峰分布说明在同一个总体或样本里,存在两个不同的、有区别的个体组。 ) 通常,众数是具有绝对最高频数的数值。但有时也表示具有相对高频数的值。此时这个分布有两个不同的峰值,每一个值都是这个分布的众数。 较高的叫主要众数,较矮的叫次要众数。选择一种最适合的集中趋势测量1 平均数 优点:用到了分布中的每个数值,通常具有很好的代表性。与最常见的变异性测量有紧密联

27、系(如平均数和方差等) 缺点:极易受极端值影响而位移,而不能较好代表整个分布。2 中数1)极端数值和偏态分布 中枢不易受极端值影响。 即使极端值再变大,中数也不会因此改变。2)未确定数值 比如有一个被试从未完成实验,只好1 小时后停止实验,其时间则无法确定。注意:对于未确定数值第一, 不能不要这个数值。 因为使用样本的目的是把握总体, 这个数据告诉我们有一部分总 体不能解决问题。第二,不能记录为 60 分钟。要记录的是完成所需时间,个体从未完成任务,则无法记录。 综上所述,存在未确定数值则无法计算平均值。我们选择中数。3)尾端开放式分布指 一个分布的类别 没有上限和下限。例如孩子的个数量表中,

28、存在类别 “5或更多 ”。 这样就无法计算 X,更无法计算平均数。4)顺序量表注意: 由于平均数是 根据距离 来定义集中趋势, 而中数是用方向定义的 一半分数大 于中数,一半小于中数 因此不能用平均数,而用中数来报告顺序量表的平均数。3 众数1)称名量表 因为称名量表不能测量数量,因此不能计算平均值和中数。2)离散变量3)描述形状 在一个频数分布图中,众数表示了高峰的位置。集中趋势和分布形状1 对称分布 一个对称的单峰分布:平均数、中数、众数重合于中点。 一个对称的双峰分布:平均数和中数处于中点,众数位于两侧。2 偏态分布正偏态分布:从左到右为 众数,中数,平均数 负偏态分布:从左到右为 平均

29、数,中数,众数第四章 变异性 变异性: 提供了 对一个分布中的数据 分散程度或聚集程度 的数量测量。 测量变异性的目的:获得分数在分布中的离散型的客观测量一个好的变异性的目的:1 描述了分布。 (表示了数据是否聚集在一起 或分布在较大区域内。 ) 通常变异性是根据距离定义的。2 测量了单个或一组数据能否很好地代表整个分布。3 提供了在使用一个样本代表总体时 预期误差值的信息全距和四分位距全距 Xmax 的上实限( URL)和 Xmin 的下实限( LRL)的差值。四分位距 被分布的中间 50%所覆盖的距离。等于 Q3-Q1。其中 Q1Q3 为第一四分位数和第三四分位数,指分布最低的25%和分布

30、最高的 25%与其余值分隔开的界限(是一个界限) 。一般会把它转换为半四分位距,它测量了从分布中心到50%的分布边界的距离。由于它始于分布中央的 50%,因此不易受极端值影响。但它不能考虑单个数据间的真实距离,不能给出数据如何分散或聚集的全景。总体的标准差和方差标准差 离差的平方和除以总体大小(或样本的自由度)的算数平方根。 标准差的目的:对分数到平均数的标准距离的测量。标准差推导过程里的中间量1)离差)离差 是每个数与平均数之间的距离。并且有正负。数据的离差总和为零。 这也是标准差计算需要将离差平方的原因 引入离差的平方,使得对变异性的测量基于距离的平方之上。结果:给每个数据增减一个常量,标准差不变。 给每个数据增减一个倍数,标准差依同样倍数增减。2)方差 是离差平方和除以总体大小(或样本自由度)的商。对标准差的解析1)估计 对于一个分布,标准差的范围在( a, b)区间。其中 a,b 分别为距平均数最近和最远的数 据与平均数的距离。大约在( a+b)/2 处。2)图示 标准差线大约为从平均数到最极端值的一半3)计算公式 标准差和方差在概念上,对于总体和样本完全相同。对于总体:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论