第五章：心理测量学知识

上传人：f*** IP属地：江苏上传时间：2023-10-25 格式：PPT 页数：160 大小：8.09MB 积分：38 举报 版权申诉

已阅读5页，还剩155页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第五章：心理测量学知识第一节：概述第一单元：测量与测量量表一、什么是测量测量就是依据一定的法则用数字对事物加以确定。包括三个主要的元素：（1）事物；（2）数字：（3）法则“事物”指的是我们要测量的对象；“数字”是代表某一事物或事物某一属性的量；“法则”是测量所依据的规则和方法；有好坏之分。丝绸、体重、智力；气味、标准物、视力和听力。真假多重多聪明（一）参照点，即确定事物量的计算起点有两种参照点，即绝对零点（理想）、相对零点（二）单位，即测量的基本要求好的单位必须具备两个条件：一为有确定的意义；二为有相同的价值心理测量的单位，一般无统一单位，也不符合等距的要求二、测量要素：即参照点和单位50元人民币与10美元相比，那个多？1公里与1英里相比，那个长（0.6214）？三、测量量表在一个定有单位和参照点的连续体上把事物的属性表现出来，这个连续体称为量表。

根据量表的精确程度,测量从低级到高级分成四种水平：（一）命名量表用数字来代表事物或把事物归类。1、代号；2、类别白人黑人黄人男人女人类别代号（二）顺序量表包含类别和大小；用于分等或排出顺序。如：“<“、”>”名次名次胖瘦高矮（三）等距量表不但有大小而且数字有相等的单位，可以做加、减运算（四）等比量表有相等单位又有绝对零点，数值可做加、减、乘、除运算

统计心理测量：顺序量表---------〉等距量表方法长度体积第二单元：心理测验的基本概念一、心理测验的定义所谓心理测验，就是依据心理学理论，使用一定的操作程序，通过观察人的少数有代表性的行为，对于贯穿在人的全部行为活动中的心理特点做出推论和数量化分析的一种科学手段。测量行为、行为样本、标准化、常模二、心理测验的性质间接性（外显行为----〉心理特质）相对性（没有绝对的标准，只是确定个人在序列的位置）客观性（标准化：过程、评分、转换和解释等）第三单元：心理测验的分类一、按测验的功能分类：智力测验、特殊能力测验、人格测验韦氏儿童智力量表:言语测验和操作测验.言语测验包括理解测验.其中的题目是:如果你把小朋友的皮球弄丢了,你应该怎么办?为什么政府要派人到肉食加工厂去检验肉类产品?

国家设立人民代表大会有哪些好处?职业指导的测验中有个寻找字、符差异的测验：长江——长工BOOK——BOOT

756246——756346

爱德华个人偏好量表里的题目：A我喜欢问些明知别人回答不出来的问题。B我喜欢告诉别人怎样做他们的工作。二、按测验材料的性质分类：文字测验、操作测验在中小学生团体智力测验中的文字测验题目：下面五样东西中哪一样最不象其他四样？A袜子B衣服C鞋子D皮包E帽子中国比奈测验中的操作测验题目：三、按测验材料的严谨程度分类：客观测验、投射测验艾森克个性问卷中的题目：你喜欢跳降落伞吗？是否儿童主体统觉测验中的题目：四、按测验的方式分类：个别测验、团体测验五、按测验的要求分类：最高作为测验、典型行为测验韦氏儿童智力测验中的背数测验题目：顺背3-8-6

6-1-23-4-1-7

6-1-5-88-4-2-3-9

5-2-1-8-63-8-9-1-7-4

7-9-6-4-8-35-1-7-4-2-3-8

9-8-5-2-1-6-31-6-4-5-9-7-6-3

2-9-7-6-3-1-5-45-3-8-7-1-2-4-6-9

4-2-6-9-1-7-8-3-57-5-1-3-2-6-9-1-8-7-

4-1-9-2-4-7-8-3-1-5韦氏儿童智力测验中的背数测验题目倒背2-5

6-35-7-4

2-5-97-2-9-6-

8-4-9-34-1-3-5-7

9-7-8-5-21-6-5-2-9-8

3-6-7-1-9-48-5-9-2-3-4-2

4-5-7-9-2-8-16-9-1-6-3-2-5-8-8

3-1-7-9-5-4-8-2MMPI里的题目：有时我会哭一阵，笑一阵，连自己也不能控制。是否假如不是有人和我作对，我一定会有更大的成就。是否第四单元：纠正错误的测验观一、错误的测验观（一）测验万能论（二）测验无用论其一，某些人格测验侵犯了个人隐私，违背民主原则。其二，测验为宿命论和种族歧视提供了心理学依据（三）心理测验即智力测验二、正确的测验观（一）心理测验是重要的心理学研究方法之一，是决策的辅助工具（二）心理测验作为研究方法和测量工具尚不完善心理测验的最大问题是理论基础不够坚实

-------既要承认心理测验的不完善，又要科学的自信的使用心理测验。第五单元心理测验在心理咨询中的应用3类常用心理测验：一、智力测验中国比内量表（吴天敏）、WAIS-RC、C-WISC、C-WYCSI（龚耀先）、WISC-CR（林传鼎）、SPM（张厚粲）、CRT（李丹）等二、人格测验

EPQ、16PF、MMPI等三、心理评定量表精神病评定量表、躁狂状态评定量表、抑郁量表、焦虑量表、恐怖量表等。心理测验在咨询和治疗中并不是必不可少的环节。一般来讲，心理测验应在咨询关系尚未建立之前实施，进入正式的心理咨询程序之后，要尽量避免心理测验。也有例外。第六单元心理测验的发展史

始于汉代、兴于隋唐的科举取士制度一、科学心理测验的产生与发展心理测验的开端---19世纪80年代，英国

F.Galton

为了研究差异的遗传性，便设计了测量差异的方法。为心理测量，奠定统计学基础。心理测验第一次出现于心理学文献中---1890年，美国J.M.Cattell在《心理》杂志上发表《心理测验与测量》

世界上第一个正式的心理测验----1905年，法国A.Binet在《心理学年报》上发表了一篇文章，题为《诊断异常儿童智力的新方法》

在此以后，心理测验主要有以下几个方面的发展：

1、操作测验的发展

2、团体智力测验的发展如陆军甲种和乙种智力测验

3、能力倾向测验的发展如D.Wechsler所编的智力量表

4、人格测验的发展二、现代心理测验在我国的发展第二节测验的常模（常模的定义）

第一单元常模团体一、常模团体的性质（一个人是否胖、内向、聪明等与其常模团体有关。）常模团体是由具有某种共同特征的人所组成的一个群体，或者是该群体的一个样本。常模团体用一个标准的、规范的分数表示出来，以提供比较的基础。任何一个测验都有许多可能的常模团体。制订和解释应考虑。如智力测验有各年龄常模。常模团体必须能够代表该总体，包括：确定一般总体、确定目标总体、确定样本。无论是测验的编制者还是使用者，主要关心的是常模团体的成员。（大学生的家长给孩子每月400元的生活费是高还是低？）二、常模团体的条件（一）群体的构成必须明确界定必须清楚说明所要测量的群体的性质与特征（二）常模团体必须是所测群体的代表性样本小团体：全选，平均分作为常模；大团体：用随机取样或分层取样的方法。（三）样本的大小要适当（关键是要有代表性）几十个人的团体：全部；总体数目大：不小于30或100个的样本数目；全国性常模：2000—3000人（四）标准化样组是一定时空的产物注意选择较为新近的常模三、取样的方法

取样即从目标人群中选择有代表性的样本。随机抽样：每个个案被抽取的机会均等非随机抽样抽样方法：（一）简单随机抽样

a按随机表顺序,b先编号再随机选择（二）系统抽样总体数目为N，选择K分之一（组距）作为样本。要求目标总体无序可排，也无等级结构存在（三）分组抽样：总体数目大，群体有多样性，分组

---组内随机取样。（四）分层抽样：目标总体按某种变量分层---层内随机取样。分层比例抽样、分层非比例抽样四、常模分数与常模（一）常模分数常模分数就是施测常模样本被试后，将被试者的原始分数按一定规则转换出来的导出分数。通过将被试的反应与标准答案相比较而获得的测验分数叫原始分数。

导出分数具有一定的参照点和单位，它实际上是一个有意义的测验量表，它与原始分数等值，可以进行比较（二）常模常模分数构成的分布，就是常模（norm），是解释心理测验分数的基础。一般常模、特殊常模第二单元常模的类型一、发展常模（年龄量表）（纵向比较）将个人的成绩与各种发展水平的人的平均表现相比较，根据这种平均表现所制成的量表就是发展常模。（一）发展顺序量表它告诉人们多大的儿童具备什么能力或行为就表明其发育正常，相应能力或行为早于某年龄出现，说明发育超前，否则即为发育滞后。葛塞尔发展程序表（按月份显示儿童各方面的大致发展水平）瑞士皮亚杰的发展理论16周28周40周48周（二）智力年龄一个儿童在年龄量表上所得的分数，代表他的智力水平的年龄。这种分数叫做智力年龄，简称智龄。比内—西蒙一个人的智龄并不一定和他的实龄相符。

年龄量表的基本要素（三）年级当量即年级量表，测验结果说明属哪一年级的水平。在教育成就测验中最常用二、百分位常模（横向比较）

百分位常模包括百分等级和百分点、四分位数和十分位数。（一）、百分等级

是指在常模样本中低于这个分数的人数百分比。未分组资料的百分等级计算：

PR=100-（100*R-50）/N

其中R是原始分数排列顺序数，N是指总人数（样本的总人数）。例题见341页。百分等级

（二）百分点也称百分位数，计算处于某一百分比例的人对应的测验分数是多少。在分数量表上，相对于某一百分等级的分数点就叫百分点或百分位数。计算根据直线内插法进行。见341页。（三）四分位数和十分位数四分位数是将量表分成四等分，相当于百分等级的25％、50％和75％对应的三个百分分成的四段。十分位数也可以依此类推出，1％～10％为第一段，91％一100%为第十段。三、标准分常模标准分常模是将原始分数与平均数的距离以标准差为单位表示出来的量表。如z分数、Z分数、T分数、标准九分数、离差智商(IQ)等。常态化（一）线性转换的标准分数

z分数为最典型的线性转换的标准分数：

z分数的另一种形式：Z=A+Bz

（二）非线性转换的标准分数（略）当原始分数不是常态分布时，也可以使之常态化，这一转换过程就是非线性的。计算步骤如下：

1．对每个原始分数值计算累积百分比；

2．在常态曲线面积表中，求出对应于该百分比的z分数。所得的z分数可将分布分成几部分，我们称之为z`分数，以区别由线性转换所求得的z分数。例如：T分数=50+10z`四、智商及其意义

比内—西蒙智力测验中用“心理年龄”（mentalage,简称MA)来表示被试智力的高低。

计算方法例如：实际年龄7岁，心理年龄10岁实际年龄13岁，心理年龄10岁缺点：不同年龄儿童间无法比较。（一）比率智商

1916年，美国斯坦福大学推孟教授以比率智商（IQ）来表示测验的结果：

IQ=(MA/CA)*100例如：IQ=10岁/7岁*100=143IQ=10岁/13岁*100=77

缺点：

1、个体智力增长是一个由快到慢再到停止的过程，即心理年领与实足年龄并不同步增长。

2、不同年龄组儿童的比率智商分布情况不一样，相同比率智商分数在不同年龄就具有不同意义。（二）离差智商是一种以年龄组为样本计算而得到的标准分数，表示的是个体智力在年龄组中所处的位置。具体公式如下：

IQ=100+15z`=100+15（X-）/SD

在实际中，通常根据原始分数在常模表上按其年龄直接查出智商。从不同测验获得的离差智商只有当标准差相同或接近时才可以比较。

以100为平均数不同标准差下每一IQ组距正态曲线下个案百分比:

百分数分布分组分数SD=12SD=14SD=15SD=16SD=18130以上0.71.62.23.15.1120-1294.36.36.77.58.5110-11915.21616.115.815.4100-10929.826.12523.62190-9929.826.12523.62180-8915.21616.115.815.470-794.36.36.77.58.570以下0.71.62.23.15.1总

计100100100100100

几种导出分数间的相互关系第三单元常模分数的表示方法一、转换表法（常模表）一个转换表显示出一个特定的标准化样组的原始分数与其相对应的一个等值分数—百分位、标准分数、T分数或者其它任何分数。简单的转换表，如表5-2。复杂的转换表，如表5-3。二、剖面图法剖面图是将测验分数的转换关系用图形表示出来。第三节测验的信度第一单元信度的概念一、信度的定义信度是指同一被试者在不同时间内用同一测验（或用另一套相等的测验）重复测量，所得结果的一致程度。

信度只受随机误差的影响。系统误差产生恒定效应，不影响信度。随机误差：情绪、身体、环境等

系统误差：测验等

X（实得分数）=T（真实分数）＋E（误差）

S2X（实得分数的方差）

=S2T（真分数的方差）+S2E（误差的方差）信度的理论定义：

rxx=S2T/

S2X

信度的操作定义：

rxx=（S2X-S2E）/S2X=1-S2E/S2X

二、信度的指标（一）信度系数与信度指数信度是以信度系数为指标，它是一种相关系数。常常是同一被试样本所得的两组资料的相关，理论上说就是真分数方差与实得分数的方差的比值。

信度系数

信度指数(二)测量标准误理论上，无数次测验，平均数就是这个人的真分数，而标准差则为测量误差的指标。用一组被试两次测量结果来代替同一个人的反复施测。信度的另一个指标，测量的标准误公式是：

SE为测量标准误；Sx为所得分数的标准差；rxx为相关系数第二单元信度评估的方法不同的信度反映测验误差的不同来源一、重测信度（test—retestreliability），又称稳定性系数

间隔时间：2-4周，最好小于6个月优点：能提供有关测验是否随时间而变异的资料，可作为被试将来行为表现的依据。缺点：易受练习和记忆的影响二、复本信度(alternate-formreliability)，又称等值性系数如果两个复本的施测相隔一段时间，则称重测复本信度或稳定与等值系数。优点：能够避免重测信度的一些问题，如记忆效果、学习效应等。缺点：

1、如果测量的行为易受练习的影响，则复本信度只能减少而不能完全消除这种影响；

2、已掌握的解题原则，可以迁移到同类问题中；

3、对于许多测验来说，建立副复本是十分困难的。三、内部一致性信度（internalconsistencyreliability）主要反映的是题目之间的关系，表示测验能够测量相同内容或特质的程度。

(一)分半信度(split—halfreliability)

计算分半信度常采用积差相关方法计算。分半法经常会低估信度（在其他条件相同的情况下，测验越长，信度越高），常采用斯皮尔曼—布朗公式修正：

斯皮尔曼一布朗公式为经验公式，它的假设条件是两半测验分数的变异数相等。当假设不成立时，可采用弗朗那根(Flanagan)或卢伦(Kulon)公式直接求得测验的信度系数。(二)同质性信度(homogeneityreliability)

同质性主要代表测验内部所有题目间的一致性。

1、库德一理查逊公式：适用于答对一题记一分，答错无分的测题。常用的是K—R20公式，在各测题难度相同或近似的情况下，还可采用计算更为简便的K—R21公式。

2、克伦巴赫系数：适用于多重记分的测题。四、评分者信度（scorerreliability）用于测量不同评分者之间所产生的误差。抽取若干份测验卷，由两位评分者按评分标准分别给分，然后再根据每份测验卷的两个分数计算相关，即得评分者信度。

一般要求在成对的受过训练的评分者之间平均一致性达0.90以上，才认为评分是客观的。当多个评分者评定多个对象，并以等级法纪分时，可采用肯德尔和谐系数（w）作为评分者信度的估计。

第三单元信度与测验分数的解释一、解释真实分数与实得分数的相关信度系数可以解释为总的方差中有多少比例是由真实分数的方差决定的，也就是测量的总变异中真分数造成的变异占百分之几，同时也告诉我们，测量的误差比例是多少。二、确定信度可以接受的水平能力测验、成就测验信度系数可达到0.9—0.95；人格测验、兴趣、态度、价值观等测验的信度可达到0.8—0.85或更高一些。当rxx<0.70时，测验不能用于对个人作出评价或预测，不能做团体比较；当0.70≤rxx<0.85时，可用于团体比较；当rxx≥0.85时，才能用来鉴别或预测个人成绩或作为。新编的测验信度应高于原有的同类测验或相似测验。三、解释个人分数的意义

信度有两个作用：

1.估计真实分数的范围；

2.了解实得分数再测时可能的变化情形。测量标准误可以通过第一次测验的结果及信度估计得到：

人们一般采用95％的或然水平，其置信区间为：例题：见353页。

四、比较不同测验分数的差异比较：两个人不同分数的差别同一被试在两个测验上的差别

两个测验的标准差要求相同。第四单元影响信度的因素一、样本特征

(一)样本团体异质性的影响若获得信度的取样团体较为异质的话，往往会高估测验的信度，相反则会低估测验的信度。（二）样本团体平均能力水平的影响对于不同水平的团体，题目具有不同的难度，每个题目在难度上的微小差异累积起来便会影响信度。二、测验长度在一个测验中增加同质的题目，可以使信度提高。第一，测验越长，测验的测题取样或内容取样就越有代表性。第二，测验越长，被试的猜测因素影响就越小。假若我们希望用增加测验的方式提高测验的信度以达到某种理想值，通过斯皮尔曼—布朗公式的导出公式就可计算出最少应增加的题数。例题见355页三、测验难度难度对信度的影响，只存在于某些测验中。若测验对某团体太难或太易，则分数范围将缩小，从而使信度降低。从理论上说，只有平均难度水平为50%时，才能使测验分数分布范围最大，求得的信度也最高。洛德（Lord)提出在学绩测验中，为了保证其可靠性，各类选择题的理想平均难度为：五择一测题，0.70；四择一测题，0.74；三择一测题，0.77；是非题，0.85；四、时间间隔时间间隔只对重测信度和不同时测量时的复本信度（重测复本信度）有影响，对其余的信度来说不存在时间间隔问题。以再测法或复本法求信度，两次测验相隔时间越短，其信度系数越大；间隔时间越久，其他变因介入的可能性越大，受外界的影响也越大，信度系数便越低。第四节测验的效度第一单元效度的概念一、效度的定义在心理测验中，效度是指所测量的与所要测量的心理特点之间符合的程度，或者简单地说，是指一个心理测验的准确性。效度的定义也可以通过真分数的概念和方差分析方法加以说明。

效度被定义二、效度的性质（一）效度具有相对性任何测验的效度是对一定的目标来说的，或者说测验只有用于与测验目标一致的目的和场合才会有效。

(二)效度具有连续性测验效度通常用相关系数表示，它只有程度上的不同，而没有“全有”或“全无”的区别。效度是针对测验结果而言的。第二单元效度评估的方法一、内容效度（content—relatedvalidity）（一）什么是内容效度内容效度指的是测验题目对有关内容或行为取样的适用性，从而确定测验是否是所预测量的行为领域的代表性取样。编制有较高内容效度的心理测验，1.明确所测量的心理特性的概念，并划定出与这种心理特性有关的行为。2.测验题目应是所界定的内容范围的代表性取样。3.要求内容效度的测验，并不一定要求测验为同质的。如智力测验。（二）内容效度的评估方法1、专家判断法内容效度有时又称“逻辑效度”（logicalvalidity）。使不同专家对测验的判断一致的步骤：（1）定义好测验内容的总体范围，描述有关的知识与技能及所用材料的来源；（2）编制双向细目表，确定内容和技能各自所占的比例，并由测验编制者确定各题所测的是何种内容与技能；（3）制定评定量表来测量测验的整个效度。2、统计分析法两个评分者之间评定的一致性。内容效度可由一组被试在独立取自同样内容范围的两个测验副本上得分之相关来做估计。再测法也可用于内容效度的评估。3、经验推测法通过实践来检验效度（如对儿童发展量表的检验）。（三）内容效度的特性与所有效度的性质一样，不是普遍适用的，而是根据具体情况分析得来。与测验定义的使用者有关有时间上的特定性要区分内容效度和表面效度；

最高行为的测验要求有较高的表面效度，典型行为测验却要求较低的表面效度。二、构想效度（construct-relatedvalidity）（一）什么是构想效度（构思效度、结构效度）指测验能够测量到理论上的构想或特质的程度，即测验的结果是否能证实或解释某一理论的假设、术语或构想，解释的程度如何。某一构想的理论某一心理特质的假设设计和编制测验，施测相关或因素分析，验证与理论假设的符合程度（二）构想效度的估计方法1、对测验本身的分析这类方法是通过研究测验内部结构来界定理论构想，从而为构思效度提供证据。内容效度可以作为构思效度的证据。内部一致性指标：推断测验是测量单一特制还是测量多种特质。有时分析被试者对题目的反应特点也可以作为构思效度的证据。如果对测题的反应包括了社会赞许和道德评判，不一定能反映被试者的行为，则影响构思效度。2、测验间的相互比较通过分析几个测验间的相互关系，找出其共同之处，进而推断这些测验测量的特质，以确定这些测验构思效度。相容效度(congruentvalidity）

：与其他测量同一构思的测验有相关。其中一个是新测验，另一个是已有效度证据的成熟测验，两者测量的是同一种心理特质。假如相关高，说明新测验所测量的特质确实是老测验所反映的特质或行为。因为两测验的相关系数的平方即是两组测验分数所共同解释的变异大小，所以称这一相关为相容效度。

区分效度（discriminatevalidity）：必须与测量不同构思的测验无相关。

因素分析法(factoranalysis)：可以找到影响测验分数的共同因素。3、效标效度的研究证明

一个测验若效标效度理想，那么该测验所预测的效标的性质和种类就可以作为分析测验构思效度的指标。可以根据效标选取不同的被试形成相对照的两组；也可以根据测验分数分成高分组与低分组。另一种证实构思效度的方法是心理特质的发展变化。4、实验法和观察法证实观察实验前和实验后分数的差异也是验证构思效度的方法。三、效标效度(criterion—relatedvalidity)(一)什么是效标效度（实证效度）效标效度反映的是测验预测个体在某种情境下行为表现的有效性程度。被预测的行为是检验效度的标准，简称效标。根据效标资料是否与测验分数同时获得，又可分为同时效度和预测效度。前者与用来诊断现状的测验有关（如心理特征的评估及诊断），后者与预测将来结果的测验有关（如用于选拔、分组的）。一个好的效标必须具备以下条件（略）效标必须能最有效地反映测验的目标，即效标测量本身必须有效；效标必须具有较高的信度，稳定可靠，不随时间等因素而变化；效标可以客观地加以测量，可用数据或等级来表示；效标测量的方法简单，省时省力，经济实用。例如：GRE的成绩能预测将来能否取得学位，说明GRE能测量大学毕业生的专业基础和能力。（二）效标效度的评估方法效标效度有多种评估方法，下面介绍3种常用的方法：1、相关法：测验分数与效标资料间的相关系数，称为效度系数。

a.积差相关法：前者和后者都为连续变量

b.点二列相关法：连续变量和真正的二分变量二列相关法：连续变量和人为的二分变量

c.贾斯朋(Juspen)多系列相关法：连续变量和等级评定变量2、区分法：检验测验分数能否有效的区分有效标所定义的团体的一种方法。计算公式如下：

问题：组间平均数差异在统计上的显著性取决于团体的大小。3、命中率法：当测验用来做取舍的依据时，用其正确决定的比例作为效度指标的一种方法。测验分数：确定一个临界分数（即分数线）。效标资料：根据实际的工作或学习成绩，确定一合格标准。

效标成绩

测验预测失败（—）成功（+）成功（+）（A）失误（B）命中失败（—）（C）命中（D）失误

命中率的计算有两种方法：

总命中率

正命中率第三单元效度的功能一、预测误差效度系数的实际意义常常以决定性系数来表示，意旨相关系数的平方。它表示测验正确预测或解释的效标的方差占总方差的比例。估计的标准误。是指所有具有某一测验分数的被试其效度分数(Y)分布的标准差，也即预测误差大小的估计值，是对真正分数估计的误差大小。二、预测效标分数在测验工作中，人们感兴趣的是从测验分数预测效标成绩，最常用的是Y对X的回归方程：三、预测效率指数无关系数K值大小表明预测源分数与效标分数无关的程度。预测效率的指数E＝100（1－K）

E值大小表明使用测验比盲目猜测能减少多少误差。

例题见366页。第四单元影响效度的因素

影响效度的因素很多，凡能产生随机误差和系统误差的因素都会降低测验的效度。一、测验本身的因素

测验取材的代表性、测验长度、试题类型、难度、区分度以及编排方式等都会影响效度。保证测验较高效度要点：测验材料必须对整个内容具有代表性；测题设计时应尽量避免容易引起误差的题型(如是非题)；测题难度要适中，具有较高的区分度；测验长度要恰当，即要有一定的测题量；测题的排列按先易后难顺序。二、测验实施中的干扰因素

(一)主试的影响因素测验实施过程中主试的因素会影响效度。必须按标准化的规定实施测验。效标效度，测验与效标二者实施时间间隔越长，测验与效标越容易受到很多机遇因素的影响。测验情境，如场地的布置、材料的准备、测验场所有无噪音和其他干扰因素等也会影响到测验的效度。

(二)被试的影响因素

被试在测验时的兴趣、动机、情绪、态度和身心状况、健康状态以及是否充分合作与尽力而为等，都会影响被试在测验情境中的反应，因而影响测验结果的效度。被试的反应定势也会降低测验的效度。三、样本团体的性质测验的效度和样本团体的特点具有很大的关系。同一测验对于不同的样本团体其效度有很大的不同，因此在作效度分析时，必须选择具有代表性的被试团体。(一)样本团体的异质性．与信度系数一样，如果其他条件相同，样本团体越同质，分数分布范围越小，测验效度就越低；样本团体越越异质，分数分布范围越大，测验效度就越高。其中有两种情况会影响样本团体的异质性：

只以选拔上的被试为样本团体参加效度研究，降低了测验的效度。

选拔标准太高，样本团体的同质性增加，降低了测验的效度。(二)干涉变量对于不同性质的团体，同一测验的效度会有很大的不同。这些性质包括年龄、性别、教育水平、智力、动机、兴趣、职业和任何有关的特征。测量学上称这些特征为干涉变量（moderatorvariable）。

美国心理学家吉赛利（E.E.Ghiselli）提出的如何找出干涉变量的方法：用回归方程求得每个人的预测效标分数，将该分数与实际效标分数相比较，获得分数D。如果D的绝对值很大，说明测验中可能存在干涉变量。根据本团体的组成分析，找出对照组，分别计算效度，找出干涉变量。对于预测团体，根据某些易见的干涉变量将其区分为预测性高和预测性低的两个亚团体。对于预测性高的团体，获得的测验效度会有所提高。

四、效标的性质

效标效度是以测验分数与效标测量的相关系数来表示的。效标的性质需要考虑：效标与测验分数之间的关系是否是线性关系效标测量本身有可靠性第五节项目分析测验的项目分析：定性分析，包括考虑内容效度，题目编写的恰当性和有效性等；定量分析，主要是对题目难度和区分度等进行分析。通过项目分析，可以选择和修改测验题目，以提高测验的信度和效度。第一单元项目的难度一、定义难度(difficulty)，是指项目的难易程度。能力测验---反映难度水平的指标非能力测验---类似的指标是“通俗性”难度的指标：以答对或通过该题的人数百分比来表示：也称易度：P值大小与难度高低成反比。难度的指标：被试者未通过每个项目的人数百分比二、计算方法（一）二分法记分的项目选择题，通过记1分，错误记0分。可直接用公式5—31计算难度。当被试人数较多时，则可根据测验总成绩将被试分成三组：分数最高的27％被试为高分组，分数最低的27％被试为低分组，中间46％的被试为中间组。分别计算高分组和低分组的通过率，以两组通过率的平均值作为每一题的难度。其公式为：

为了平衡机遇对难度的影响，吉尔福特提出了一个难度的校正公式：（二）非二分记分的项目当测验项目为问答题或不能用二分法记分的形式时，一般用下面的公式计算难度。三、难度水平的确定(一)项目的难度进行难度分析的主要目的是为了筛选项目，项目的难度多高合适，取决于测验的目的、性质以及项目的形式。当测验用于选拔或诊断时，应该比较多地选择难度值接近录取率的项目。选择题P值一般应大于概率水平，是非题难度为0.73，四选一为0.63较合适。（二）测验的难度测验的难度直接依赖于组成测验的项目的难度。通过考察测验分数的分布，可以对测验的难度做出直观检验。A为正偏态分布，即大多数得分集中在低端，说明编制的测验对于所要研究的样本团够来说偏难，因此必须增加较低难度的项目；B为负偏态分布，测验过易，必须增加有较高难度的项目。第二单元项目的区分度一、定义

项目区分度(itemdiscrimination)，也叫鉴别力，是指测验项目对被试的心理特性的区分能力。如果一个项目，实际水平高的被试能顺利通过，而实际水平低的被试不能通过．那么我们就可以认为该项目有较高的区分度。项目区分度是评价项目质量和筛选项目的主要指标，也是影响测验效度的重要因素。区分度取值范围介于-1.00至+1.00之间。二、计算方法

在估计项目区分度时，常用其他指标替代实际能力水平，其中用的最多的时测验总分。

（一）鉴别指数按测验总分高低排列答卷；确定高分组与低分组，每一组取答卷总数的27％分别计算高分组与低分组在该项目上的通过率或得分率按下列公式估计出项目的鉴别指数：

美国测验专家伊贝尔（L.Ebel）提出用鉴别指数评价项目性能的标准。如下表：(二）相关法计算区分度最常用的方法是相关法，即以某一项目分数与效标成绩或测验总分的相关作为该项目区分度的指标。点二列相关：适用与一类变量为二分称名变量，另一类变量为连续变量的成对变量的相关计算。二列相关：适用于两个连续变量，但其中一个变量被人为分成两类。Φ相关法：适用于两个变量均为二分称名变量。三、区分度与难度的关系

如果每一个项目的难度均处于0.50，有可能大多趋向于有关的内容或技能，结果造成项目同质性提高。在极端的情况下，有可能50％的被试全部通过各项目得满分，另外50％的被试全部为0分，形成U形分布，这样反而降低总分的区分能力。如果测验的所有项目都是中等难度，只有项目的内在相关为0时，整个测验才能产生常态分布。考虑到一般测验项目之间具有某种程度的相关，难度的分布广一些，梯度多一些，是合乎需要的。难度和区分度都是相对的，较难的项目对高水平的被试区分度高，较易的项目对水平低的被试区分度高，中等难度的项目对中等水平的被试区分度高。对被试总体较难或较易的项目，对水平高或水平低的被试便成了中等难度。

人的大多数心理特性呈常态分布，项目难度的分布也以常态分布为好，即特别难与特别易的项目少些，接近中等难度的项目多些，而所有项目的平均难度为0.50。这样不仅能保证多数项目具有较高的区分度，而且可以保证整个测验对被试具有较高的区分能力。第六节测验的编制的一般程序第一单元测验的目标分析一、测验的对象明确测验编成后要用于的团体。应了解受测者的年龄、受教育程度和社会经济以及阅读水平等。在测验编制及建立常模过程中还应考虑文化背景的影响。如韦氏智力测验，分城市式和农村式。二、测验的用途明确测验的用途：描述、诊断，或是选拔和预测。用途不同，编制测验时的取材范围以及试题难度等也不尽相同。根据测验的用途分类：显示和预测。测验就有显示性测验和预测性测验。(一)显示性测验显示性测验是指测验题目和所要测量的心理特征相似的测验。例如成就测验。显示性测验（古德纳夫）：样本测验和标记测验。题目取自一个很明确的总体的测验即是样本测验，例如测量学生的四则混合运算能力题目取自一个全开放的总体的测验即是标记测验，例如智力测验。如果被试在智力测验上得分高，而且在实际生活中确实也很聪明，那么这个测验就算是智力的比较好的标记，因为它指出了或标记了所取样总体的性质。(二)预测性测验预测性测验是指预测一些没被测量的行为的测验。例如GRE中的词汇测验，能预测被试将来在大学里的学业表现。编制预测性测验最关心的是测验分数与预测行为之间的关系，要搞清楚哪些因素可以预测。显示性测验和预测性测验的区分并不是绝对的，有时是统一的。如高考，是样本测验，又是预测测验。三、测验的目标心理测验的目标是指编制的测验测量什么样的心理变量或行为特征。目标分析过程：测验编制者对测验目标加以分析，将其目标转换成可操作的术语。

目标分析以测验不同而异，一般可分为三种情况：(一)工作分析对于选拔和预测功用的预测性测验，它的主要任务就是要对所预测的行为活动作具体分析，我们称之为任务分析或工作分析。这种分析包括两个步骤：第一是确定：心理特征和行为-------要预测的活动达到成功，如职业兴趣测验中的打字项目，假定手指的灵活性、手眼协调等能力是打字必需的；证卷公司选录入员。通过参阅前人的工作从理论上分析通过对已经录用或已经成功的人员的行为分析确定测验的能力、技能或特质--------选择测量的题目。第二是建立衡量被试是否成功的标准，即效标。是鉴别测验的预测能力是否有效的重要指标。好经理的标准：每天洗头、刮胡子、衣着整齐、出门总开汽车，还是思路清晰、头脑清醒、IQ为140？(二)对特定概念下定义定义要测量的心理或行为特质-----包含的维量（行为表现或测量）。例如创造力的测量，有人将创造力定义为发散思维的能力，即对规定的刺激产生大量的、变化的、独特的反应。根据此操作定义，创造力则应该从反应的流畅性、灵活性、独创性和详尽性四个方面来测量。(三)确定测验的具体内容显示测验的目标分析的主要任务是确定显示的内容和技能，从中取样。成就测验的内容分析过程主要体现在双向细目表的编制过程中。这是一个由测量的内容材料维度和行为目标维度所构成的表格，它能帮助成就测验的编制者决定应该选择哪些方面的题目以及各题目所占的比例。表5—8小学自然常识测验双向细目表

行为目标教材内容获得基本知识了解原理原则应用原理原则分析因果关系综合成有系统见解建立评价标准合计生物世界资源利用动力和机械物质特性与能量气象宇宙地球3225222533645263483423123211210220110110002010122513128合计1828301383100第二单元测题的编写编制测验题目涉及到从写出、编辑，到预试、修改等这样一个循环过程。在得到一套令人满意的测题之前，这些步骤是不断重复的。一、搜集资料测验计划编好后，就要搜集有关资料作为命题取材的依据，一个测验的好坏和测验材料的选择适当与否有密切关系。题目的来源可分为三个方面：(一)已出版的标准测验从已经出版的各种标准测验中选择合适的题目。比如MMPI的简本；敌意量表，来自于MMPI；成就测验，题目可来源于课本、参考书、讲义和课题讨论等素材。(二)理论和专家的经验理论和专家经验有时也可以作为题目的来源之一，比如要编制态度量表，那么理论上不少对态度的类型、性质维度、定义等等的描述就可以转换成题目，或用具体的例子。(三)临床观察和记录临床观察也可以作为题目的来源，各种观察量表或检核表很多都是来源于观察到的行为表现，对于人格测验而言，其题目就是临床上描述人格的术语或词汇。比如MMPI的题目就是从病历记录中筛选出来的。二、命题的一般原则编制测验题目，类型繁多、功能各异、性质不一，详细说明每一种题目的具体编制方法实属不能，但一般原则还是有的。这些原则可以从内容、文字、理解和社会敏感性四个方面来考虑。(一)内容方面要求题目的内容符合测验的目的，避免贪多而乱出题目；内容取样要有代表性，符合测验计划的内容，比例适当；题目间内容相互独立，互不牵连，切忌一个题目的答案影响对另一个题目的回答。(二)文字方面使用准确的当代语言，避免使用生僻的字句或词汇；语句要简明扼要，既排除与答案无关的因素，又不要遗漏答题所依据的必要条件；一句话说明一个概念，不要使用两个或两个以上的观念，意义必须明确，不得暖昧或含糊，尽量少使用双重否定句。(三)理解方面题目应有确切的答案，除创造力测验和人格测验外不应具有引起争议的可能；题目的内容不要超出受测团体的知识水平和理解能力；题目的格式要不被人误解。(四)社会敏感性方面应尽量避开社会敏感性问题（性关系、性观念及自杀等），如涉及社会禁忌或个人隐私的题目不应使用。编制涉及这类社会敏感性问题测验的策略(Phillips，D．L．)：1．命题时假定被试具有某种行为，使他不得不在确实没有该行为时才否定，可避免否定答案过多的倾向。如：“你平均多久才手淫一次，每月一次?每周一次?每天一次?从不?”2．命题时假定规范不一致，如“有些医生认为吸烟有害，而另一些医生则认为吸烟有益，你认为呢?”3．指出该行为是常见的，虽然是违规的，如“多数人在看色情电影时有性冲动，你呢?”三、测题的编制要领根据对被试的要求不同对心理测验的题目进行分类：提供型和选择型题目。提供型题目给出正确答案，如论文提、问答题、填充题。选择型题目要求在有限的几个答案中选择正确的答案，如选择题、是非题、匹配题等。(一)选择题题干就是呈现一个问题的情境，一般由直接问句或不完全的陈述句构成。选项就是问题的多种可能答案，常常是包含一个正确答案，若干(一般是1-5个)错误答案，其中错误的答案叫“诱答”，是为了迷惑那些无法确定答案的被试。1．题干所提的问题必须明确，尽量使用简单而且明晰的词语。做到题干意义完整，即使被试不看选项亦能完全理解。不要在题干中夹有选项，或者掺有不切题的内容。2．选项切忌冗长，要简明扼要。选项中共同用到的词语删掉，放到题干中去，可使题意更明确，同时减少被试看题时间。3．每题只给一个正确答案，其他属诱答。若是找最合适的答案，则应用这样的问句：“下列答案中哪个最合适?”以免引起困惑。4．各选项长度应相等，尽量不要有长有短。同时，选项与题干的联系要非常密切。诱答也必须一致，以免被试很容易就排除了诱答项目。5．避免题干用词与选项用词一致，否则成了选择答案的线索。正确答案有修饰用语或用正规的词语，而诱答选项均没有，也会给被试提供线索，应避免。“决不”、“从来”、“所有”、“惟一”、“绝对”等词，不适用于选项中。6．选项最好用同一形式。如同是人名，同是日期，同是物理现象等等，长度最好相等。选项的排列最好随机，除非本身有逻辑顺序。(二)是非题是非题又叫正误题，是指出一个论点要被试判断是否正确，或是从是非两个答案做出选择，因此可以把是非题看作是两个备选答案的选择题。例：(1)你常常会主动地去做一些有意义的习题吗?是□否□

(2)你常常主动给朋友写信或打电话吗?是□否□编制是非题应注意：1．内容应以有意义的概念、事实或基本原则为基础，不要在叙述中出现琐碎的细节或无关的话语，不要照抄原文。2．每道题只能包含一个概念，避免两个或两个以上的概念出现在同一个题目中，造成“半对半错”或“似是而非”的情况。3．尽量避免否定的叙述，尤其是要避免用双重否定的叙述。因为否定的叙述常会被人误认为是肯定的叙述，将“不”字忽略，双重否定尤其容易使人困惑，不如直接采用肯定的叙述为佳。4．若是表达意见的题目，最好说明意见的来源和根据，以便测出被试是否了解某个人或某些人的意见、信念或价值观念等。5．“是”、“非”题的数目应有适应比例，基本相等，且要随机排列。“是”、“非”题目的编写在长度和复杂性上应尽量保持一致。(三)简答题简答题是提供型题目，它要求被试用一个正确的词或句子来完成或填充一个未完成句子的空白，或者是提供一个正确的答案。有时将前者称之为填充题，后者称之为简答题。例：世界上第一个智力测验是由

与

编制的。(填充题)夏天为什么要穿浅颜色的衣服，不穿深颜色的衣服?(简答题)编制简答题有三条原则：1．宜用问句形式。

人人文库> 全部分类> 专业文献 > 医学资料

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第五章：心理测量学知识

文档简介

温馨提示

最新文档

评论

第五章：心理测量学知识

文档简介

温馨提示

最新文档

评论

相关文档