版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1 心理测量学 测验分数 上传 刘景波(snr5aliu) 目的 仅用于学习交流 2 实得分数和真分数 X=T+E 原始分数和导出分数 XX z 3 表201 两名学生在五门测验中所得的标准 分数和原分数的比较 测验 平均数S 标准差 原始分数X离均差(X- )标准分数Z 学生甲学生乙学生甲学生乙学生甲学生乙 英 文155.726.4195162+39.3+ 6.3+1.49+0.24 阅 读33.78.22054-13.7+20.3-1.67+2.48 常 识54.59.33972-15.5+17.5-1.67+1.88 学业能力87.125.813984+51.9-3.1+2.01-0.1
2、2 心 理24.36.84125+16.2+ 0.2+2.38+0.03 总 计434397+2.54+4.51 平均数86.879.4+0.5l+0.90 X X 4 原始分数与导出分数 直接从测验上得到的分数叫作原始分数。 测验施测之后,将受测者的反应与答案作比较即可得到每个人在测验 上的分数。这个分数可能是正确回答的题数,也可能是符合某一团体的 典型反应的数量,还可能是完成测验所需的时间或等级评定。 象这种原始分数本身没有多大意义。譬如,某生成绩单上写着数学 85分,语文80分,由此既不看出该生水平高低,也不能看出他哪一门课 学得更好。 通过统计方法由原始分数转化到量表上的分数叫作 导出
3、分数。 为了使原始分数有意义,同时为了使不同的原始分数可以比较,必须 把它们转换成具有一定的参照点和单位的测验量表上的数值。 有了导出分数,我们就可以对测验结果作出有意义的解释。在心理测 验中谈到或用到的分数都是导出分数。 5 为什么原始分数在分数解释上 没意义?考察心理测量的性质和水平: 性质:间接测量 水平:顺序量表。 测量要素:参照点和单位。 附:测量性质的划分依据参照点。 测量量表水平的划分依据量表具备数字 系统特性的多少可划分为四个水平。命 名量表顺序量表等距量表等比量表。 6 量表水平与数字系统特性 数字系统四个特性: 唯一性命名量表 顺序性顺序量表 可加性等距量表 可乘性等比量表
4、 测量要素:参照点和单位 参照点:绝对0和相对0 单位:相等和不等 命名量表相对0,无单位 顺序量表相对0,不等单位 等距量表相对0,相等单位 等比量表绝对0,相等单位 7 提高心理测量的水平 将顺序量表转化为等距量表 转化方法:原始分转化为标准分 XX z 8 测验分数的种类 1963年,美国心理学家葛莱瑟建议把测验 分成参照常模的和参照标准的两种,并用 标准参照分数来与传统的常模参照分数相 区别。 见下图。 9 10 参照常模测验中,个人的分数是通过与其他人的 分数比较来解释的,并可直接或间接地表示成在 某个团体内的相对等级。 相反,在标准参照测验中,个人在测验中的成绩 不是和其他人比较,
5、而是和某种特定的标准比较。 一种标准是对测验所包括的材料熟练掌握的程度, 将分数与这种标准比较可以搞清被试知道什么和 能做什么,因为涉及的主要是测验的内容,所以 称这种分数为内容参照分数。另一个比较标准是 外在效标,即用预期的效标成绩解释测验分数, 因为涉及的是后来的结果,所以称这种分数为结 果参照分数。 11 常模 简单来说,常模是代表一个测验上样本团体的测验结果。也就是说, 将测验实施于一个样本团体,并将团体中个体在测验上所得到的分数 以描述统计学方法加以系统整理成概括性数据资料,这些资料包括测 验上各原始分数及与它们相对应的各种转化后分数。利用这些资料, 测验使用者可以很方便地将该测验上
6、的任何原始分数转换为转化后分 数。常模是标准化测验所必须具备的参数,通常有关常模的各种资料 都是被整理成数据表,称之为常模表(norm tables),在测验手册中出 示,以供使用测验的人将原始分数转换为转化后分数时查对。 有关各种转化后分数的使用其中隐含着常模的概念,在以上的讨论中 也曾多次涉及到常模(norms)这一概念,若从实用的观点来看,常模 与转化后分数实际上是一体之两面。首先,在测验理论上我们应了解 各种转化后分数的原理和求法,然后编制测验时依照这些方法来建立 该测验的常模。前面已经讨论过,用原始分数对人进行评价意义有限, 唯有将它们转换成各种转化后分数或衍生分数后,才能对受测者在
7、测 验上的表现加以参照比较并解释其在心理运作上的意义。所以,常模 在某种程度上代表一种外在标准,可用来协助评定受测者在测验上分 数的高、低,或表现的优、劣。 12 常模是解释测验结果的关键 由上可知,常模对测验结果的解释起关键性作用,测验结果的解释是 否正确、合理,依赖常模品质的优劣而定。在建立测验常模时,最重 要的考虑为常模样本(norm sample)或称标准化样本。顾名思义,常 模样本乃是将测验加以标准化的过程中所使用的样本团体。在心理学 上,我们常须依据对样本的研究去对群体加以了解。在测验上也是一 样,在研究人类心理特质上的个别差异时,是不可能也不必要去对每 一个人加以测验的。总体的各
8、种特征通常会充分而正确地显现于从该 总体中以科学方法采集的样本中,只要对样本的心理特征加以测量, 便可将其结果引申于总体。心理测验上常模的建立便是基于这一原理。 有关“总体”的界定应视测验本身的性质和目的而定。如果测验的目 的是要评价女性大学生的就业兴趣,那么该测验的对象总体便为全体 的女性大学生,依此类推。由于事实上我们无法去测验每一位女性大 学生,因此就以抽样的方法来采集总体中的一个有代表性的样本团体, 并以它来建立测验上所需的常模。 13 采集常模样本的条件四个要素保证建立的常模适 用于总体 (1)代表性:指常模样本的基本特征必须与总体的特征相吻合。这里所说的 基本特征是指人口学上的特征
9、,如,年龄、性别、年级、地区、种族、文化水 平、社会经济地位、以及其它的一些相关因素。 (2)常模样本的大小:是指样本中所包含人数的多少。原则上,样本中所包 含的人数愈多愈好,因为样本过小时常模的稳定性差。同时,在考虑常模样本 对总体的代表性时,力求使常模样本中的人数在人口特征上的比例与总体中的 比例相符合,这也是常模样本必须足够大的原因之。一般成就测验的常模样本 人数常常有数万人甚至数十万人之多。 (3)适合度:由于常模是在解释测验结果时所用的一种参照标准,我们必须 能确定测验的常模样本确实是适合用来作某种比较之用。也就是说,测验总体 的选择和常模样本的采集都应适合测验的目的。在有些情况下可
10、能有必要使用 全国性常模,在另一些情况下可能需要区域常模,另外,有时为了较特殊的目 的更可能需要某种特殊常模。 (4)新近性:是常模样本的一个要件,但它比前述三者容易受到忽视。新近 性强调测验的常模必须具有时效,才能满足当前使用的需要。 14 发展量表和商数 1、发展量表 人的许多心理特质如智力、技能等,是随着时间以有系统的方式发展的,所以将个人成 绩与这个发展水平的人的平均成绩比较而制成发展量表。 在此量表中, 个人分数指出他的行 为属于哪一个发展水平。发展量表主要有心理年龄、年级当量和发展顺序量表。 2、商数 包括比率智商(IQ)被定义为智龄(MA)与实龄(CA)之比乘以 100。 100
11、 CA MA IQ (公式 4-15) 教育智商(EQ)为教育年龄(EA)与实足年龄之比乘以 100。 100 CA EA EQ (公式 4-16) 成就商数(AQ)是教育成就与他的智力做比较,即教龄与智龄或教商与智商之 比: 100100 IQ EQ MA EA AQ (公式 4-17) 15 三、百分位分数和百分等级 1百分等级(percentile ranks) 所谓百分等级可界定为在一常模样本中位于某一原始分数以下的人数百分比。 百分等级 回答的问题是“有百分之多少的分数落在某一分数(i)之下?” 。为了计算百分等级需要 如下步骤: 将团体中的分数从低到高排序 计算某一分数(i)的百分
12、等级 XPir N R %100 (公式 4-18) 上式中,Pr指百分等级,N 代表全体人数,R 表示名次。 当团体中的分数较繁复时, 即得某一分数的人不只一个, 此时百分等级的计算方法如下: XPir fF % 2 1 (公式 4-19) 其中,F 代表任何原始分数 Xi之下所包含的累积次数百分比,f ()代表原始分数 Xi 所占之百分比。此公式可用来计算某一团体中任何分数之百分等级。 16 2百分位数(percentile) 百分位数则表示与某一百分等级相对的那个分数值 17 四、Z分数与T分数 18 CPI的分数系统 z分 数 T分 数 百 分 点 9级 评 分 (标 准 九 ) -2
13、.0 30 2 3 l -1.33 36 9 2 2 -0.66 43 25 5 4 0 50 50 5 0.66 56 74 5 6 l.33 63 90 8 8 2.0 70 97 7 9 19 五、标准九与C量表 20 C量表 将标准九两端再分出一级,便成为C量表。 C量表的全距为010,由于0容易引起误解, 所以将C量表的全距改为111。其中,1和 11级的人数各占1%。 21 16PF 的分数系统 22 23 六、离差智商IQD 24 25 对从一个平均数为100、标准差为15的测验中 获得的数据的转化 26 分数解释 分数解释是一个范围 原因是测验分数包含误差 27 1标准误的概念
14、 各种信度对于评价测量程序是重要的,但它们不能从量 的方面直接表明个人分数中的不一致性的大小和得分误差。 在个人分数解释方面,测量的标准误非常重要1。标准误 (standard error of measurement)的计算公式为 其中,表示测量的标准误,表示实得分数分布的标准差, 表示信度系数。 1标准差表示变量值个体间离散情况与程度; 标准误表示样本群体间差异程度,衡量抽样误差大 小。 XXX meas r1 28 标准误图示 29 图62描绘的是在整个受测者组一次测试 的较广分数分布内,几个受测者可能的观 测分数围绕其真分数的几种分布。正如整 个受测者组有一个标准差一样,理论上, 每个
15、受测者个人观测分数围绕其真分数的 分布也有一个标准差。当这些个体的误差 标准差经全组平均后,其结果叫做测量标 准误(standard error of measurement),记 作E。可以用以下关系式来推导测量标准 误的表达式: 30 XXX meas r1 222 XET 等式两边同时除以 2 X 1 2 2 2 2 X E X T 2 2 X T 为信度系数 XX r , 2 E 为标准误 31 标准误的用途 在解释测验分数时是一个十分有用的统计量,它能使我们 讨论个体的真实分数和误差分数。在人事心理学中标准误有 三个方面的应用 用以确定描述个体的测量是否有显著差异。 确定个体测量分数
16、与假设的真实分数是否存在显著差异。 确定测验对不同组(如高能力组和低能力组)是否有不 同的辨别力。 最后的一个优点是,它使我们不把测验分数看作是精确 点,而看作是分数带或分数范围。因为在所有的心理测量中, 存在着一定程度的测量误差,所以这样的观点是正确的,也 是适当的。 32 2个人测验分数的误差 测量的标准误是一组测量分数中误差分布的标 准差,可以像其他标准差一样地解释。 个人每次测量所得分数(X)有68%的可能性 落在真分数(T)加减一个单位标准误() 的范围内,有95%的机会落在真分数加减1.96个标 准误的范围内,有99%的机会落在真分数加减2.58 个标准误的范围内。因此,可以根据测
17、量的标准误 和个人的实得分数估计出个人的真分数的可能范围。 我们一般采用95%的或然率水平,其置信区间为: (X-1.96)T(X+1.96) meas meas meas 33 举例 在一次测验中,有些学生得80分,这是否反映了他们 的真实水平?如果再测一次,他们的分数将改变多少?已知 该测验的标准差为5,信度系数为0.84,根据公式计算: T=801.962=76.0883.92 我们可以说,这些学生的真正分数有95%的可能性落在 76与84分之间。即若再测一次,他们的分数低于76、高于 84的可能性不超过5%。 284. 015 meas 34 3两种测验分数的比较 我们知道,来自不同测
18、验的原始分数是无法直接比较的, 只有参照同一个团体的平均分数,将它们转换成相同尺度的 标准分数,才能进行比较。 例如,某候选人(甲)的语文能力测验分数为例如,某候选人(甲)的语文能力测验分数为6565分,数分,数 学能力分数为学能力分数为7070分,(两个分数皆为标准分,(两个分数皆为标准T T分数)由此我们分数)由此我们 知道,甲的数学能力比语文能力稍强些,但而二者的差异是知道,甲的数学能力比语文能力稍强些,但而二者的差异是 否有意义,仍不清楚。否有意义,仍不清楚。 为了说明甲在两种尺度测验上表现的优劣,我们可以用 “差异的标准误”来检验其差异的显著性。常用的公式如下: 35 式中:d为差异
19、的标准误;1,2分别 是两组测验分数的标准误。 2 2 2 1 d YYXXd rrS2 ,1 1XX rSYY rS1 2 36 在上例中,如果语文能力和数学能力测验的信 度分数分别为0.84和0.91,甲的两个测验数为T分数 (T分数的平均数为50、标准差为10),其差异的标 准误为: 若采用95%的置信区间(即0.05显著水平), 则甲在这两种能力上T分数的差异必须达到或超过 1.96 d =1.965=9.8 ,才能认为二者真有差异。因为 数学能力的得分比语文能力得分只高5分,所以差异 不显著。 591. 084. 0210 d 37 测验间 分数的等值化 38 定义 等值化的目的是在
20、测量同一特质的不同测 验间建立起等价分数。这样,即使被试参 加的是不同的测验,被试间的测验分数也 可以进行比较。 39 1水平等值化和垂直等值化 水平等值化 等值化是指在不同测验间建立等值分数的过程。当使用不同的测验测量不同被试的同 一心理特征时,由于不同测验的分数分布不尽相同,就需要确定各测验间的等值分数。 如果在各种测验的不同形式间建立等值分数称为水平等值化(horizontal equating)。 例如,在一个职业资格考核计划中,人们编制了多种不同形式的测验,以便使测验可 在一年内施测多次。 垂直等值化 如果一套成就测验由不同水平的几个测验构成,每一水平适应于某一年级范围的学生。 例如
21、该套测验的水平1正好适合二年级初的学生,水平2正好适合二年级末的学生。然 而,对那些在二年级进步较慢的学生而言,水平2可能太难而无法得到准确的测量结果。 一种可能的解决办法是对这些学生施测水平1。为了解释这些学生的测验成绩,就有必 要知道这两种水平的等值分数。这个过程被称为垂直等值化(vertical equating)。 类似的问题在职务等级确定中也存在,例如高级讲师的最高等可能和副教授的最低等 有重叠。 40 等值化的三种设计 我们可以通过三种基本的等值化设计来收集等值 数据。 设计A中每位被试参加将被等值的测验中的一种, 对被试施测何种特定测验是随机确定的。 设计B中每位被试参加所有被等
22、值的测验,测验 顺序随机确定。 设计C中被试仅参加被等值测验中的一种,并且, 所有被试都参加一份参照测验;测验施测可以随 机进行,但不强求如此。通常选择何种设计取决 于实用性。 41 三种等值化设计 在第一种设计中,不同的测验随机分配 给不同的样本组。例如,如果要对测验 的两种形式加以等值,那么就可把总样 本组分为两组,每一组接受其中一种形 式的测验,这种设计称为设计A。 在设计B中,所有被试都先后接受两种 测验。为控制顺序效应,测验按所有可 能的顺序施测。任一被试的测验顺序是 随机安排的。如果对两种形式等值,那 么总样本组将被随机分为两组。第一组 先接受X测验,后接受Y测验;第二组 采用相反
23、的顺序。 设计C中,不同的被试参加不同的测验, 另外所有被试参加一个共同的测验或参 照测验(anchor test),这个参照测验通 常比需要等值的测验要短。为将两种测 验等值,两组被试各接受一种测验,不 需要随机分配。并且,两组被试同时参 加参照测验。 这几种设计的概况如表201所示。 表201三种等值化设计的计划表 设计12 AXY BX Ya Y X CX,Zb Y,Z a表示样本组1参加X再参加Y测验。 b表示样本组1参加测验X和参照测验Z。 42 等值化方法 我们还可以通过三种等值化方法计算等值分数: 1.线性等值化 2.等百分位数等值化 3.潜在特质等值化原则上每种 方法都可用于三
24、种设计中的一种。然而,实际上,当被试无法随机抽 取时,通常使用设计C和潜在特质理论相结合的方法。这种情况下, 线性等值化和等百分位数等值化所作的假设被认为是不合理的,因而 运用这两种方法所作的等值化是不准确的。 在非随机分派情况下使用设计C和潜在特质理论进行等值化的方法。 线性和等百分位数等值化通常用于设计A和B。这两种方法间的选择 应基于等值化的准确性。一般似乎认为,如果测验分数除均值和标准 差外分布大致相同,则线性等值化比等百分位数等值化要更准确。然 而,如果除了均值和标准差之外还有别的分布特征上的不同,则等百 分位数等值化更精确些。 43 线性等值化的适用条件 当X与Y测验分数分布仅在均
25、值()和标准差 ()上不同时,适合采用线性等值化方法。 在其他情况下,等百分位数等值化(equipercentile equating)可能更适用。顾名思义,等百分位数等 值化意味着两个不同测验上的分数有相同的百分 等级。等百分位数等值化将在以后详加讨论。 44 1设计A的线性等值化 设计A要求随机分配样本组接受不同的测验。 线性等值化的基本假设是:除了均数和标准差不同外,X测验和Y测 验的分数分布是相同的。如果这样,等值分数视为:分别来自X测验 和Y测验的一对分数,具有相同的Z分数。这样,如果 则两个分数等值。这两个分数将有相同的百分等级。从X转化成Y*的 方程可表示为(Angoff,197
26、1): Y*a(X-c)+d 45 X表示第一个测验的分数。符号Y*表示转换后的分数。这样,第一个 测验中的X分数就等值于第二个测验的Y*分数。 假如让组1参加X测验,得到 而组2参加Y测验得到 代人公式202,我们得到a=11/10=1.1 c=50 d=52 于是公式201就为 Y*=1.1(X50)+52。 这样X测验中分数45就等值于Y测验中分数465。 46 2设计B的线性等值化 该设计中,被试接受所有测验。不同样本 组参加测验的顺序不同,顺序随机确定。 两个测验的等值有两种可能顺序。仍采用 公式20。1进行线性等值,但对于设计B,a、 c、d的公式如下(Angoff,1 9 7 1
27、): 47 线性等值化例子 表202一个假想的按设计B进行 的等值化研究的描述性统计量 样本 测验 形式 统计量 1 X25.25.3 Y26.15.0 2 X24.85.6 Y26.54.9 48 3设计C的线性等值化 在C设计中,每个参与等值的测验施测于不同的样本组。这些样本组可不必随机抽取。 另外,所有样本组都将接受参照测验Z。这样,要对两个测验进行等值,只要将每个测验 施测于不同的被试样本组,同时两个样本组都要参加一个参照测验Z。 用Z表示参照测验的分数,第一组参加测验X,第二组参加测验Y。为描述线性等值中 所作的假设,我们定义子体1从总体中抽样得到样本组1,子体2从总体中抽样得到样
28、本组2,这两个子体构成总体。线性等值化的假设如下: (1)子体1中,X对Z回归的斜率、截距和估计的标准误,等于总体中X对Z回归的斜率、 截距和估计的标准误; (2)子体2中,Y对Z回归的斜率、截距和估计标准误,等于总体中Y对Z回归的斜率、 截距和估计标准误。 如果两样本组是随机抽取时,这些假设显然是有道理的。但是,如果样本组不是随机 抽取的,这些假设便可能不可靠。Angoff(1971)称两样本组被试在参照测验Z上的差异越大, 则假设成立的可能性越小。 和设计A一样,设计C线性等值化使用公式201,这里 49 上述公式中,下标数字表示组别;没有下标的统计量为总体的统计量. 符号bXZ和bYZ表
29、示组1中X对Z的回归的斜率与组2中Y对Z的回归的斜率。 须注意到公式204b是用X和Z的关系得到整个样本组的X分数均值的估 计值。 同样公式204 c可得到整个样本组的Y分数均值的估计值,公式204a 的分子和分母项分别是Y和X的方差的样本组估计值。 50 4等百分位数等值化 等百分位数等值化涉及确定两个不同测验上的分数有着相同的百分等级。设 计A和B的等百分位数等值方法基本相同;只是设计C 收集数据进行等百分位 数等值的过程比较复杂,在这里不予讨论。 等百分位数等值过程的第一步是确定两个测验各自分数分布的百分等级(在 设计B中两样本组都参加了每个测验,每个测验分数的分布通过整合两样本组 的数
30、据而获得)。表204列出了两个假想测验的分数的百分等级的中值,每 个测验都可作出原始分对应百分等级的坐 标图。图202展示的是两个假想的包括20个项目的测验的曲线。图中,数 据点连接时使用了线性内插法(linear interpolation)。可能更典型的做法是, 手工描出光滑曲线,或者对分数分布进行分析性的平滑处理百分等级是 根据此分数分布计算出的。一旦百分等级原始分数散点图构造出来了, 就能从图上得到等值的分数。在图20.2中以测验X上的12分为例,相应的Y* 分数大约为10.2。表20.5列出了由图20.2得出的百分等级、X分数和相应的Y* 分数。 51 表表204百分等级中数百分等级中数 表表205等百分位数的等百分位数的 等值分数等值分数 得分得分 测验形式测验形式 XY百分等级百分等级X Y*Ya 011
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 皮革制品招投标现状解析
- 护理硕士毕业论文答辩
- 建筑维修审查合同
- 高中生物遗传病概率计算
- 植物园绿化项目聘用合同
- 运动俱乐部泳池租赁协议
- 电子科技清罐施工合同
- 石油公司电气安全检查流程
- 地铁站装修改造协议
- 矿井排水泵机租赁协议
- 新闻热点评报课件
- 安全风险评价风险矩阵法L-S、LEC法
- 第九版外科学课件泌尿系统损伤
- 2019年度第四次经济普查项目绩效自评表
- 污水处理池 (有限空间)作业安全告知牌及警示标志
- 三年级下册信息技术课件-3.争当打字小能手|人教版 (共12张PPT)
- 一年级上册音乐教案- 第十一课 郊游|湘艺版
- 某物业供水系统水泵PLC控制设计
- 中央电视台公益广告30年大盘点
- 软件系统售后服务范围及内容
- 化工设备使用与维护8第八章储存设备的使用与维护课件
评论
0/150
提交评论