人事测评的心理测量学基础

上传人：1*** IP属地：云南上传时间：2025-03-24 格式：PPT 页数：132 大小：396KB 积分：12 举报 版权申诉

已阅读5页，还剩127页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

二、心理特质的可测性l

Thorndike“凡客观存在的事物都有其数量。”l

McCall“凡有数量的东西都可以测量。”第二节测量误差及其来源一、测量误差的含义由那些与测量目的无关的因素导致的不一致和不准确的测量效应。二、测量误差的种类系统误差：测量工具本身引起的误差（可控）；随机误差：由不稳定因素引起的误差（不可控）。三、测量误差的来源（一）测量工具（测验内部）引起的误差1题目取样2指导语3难度4时限5测验复本不等值（二）由测量对象引起的误差1测验的经验2练习因素3应试动机4测验焦虑5反应定势6生理因素（三）由施测过程引起的误差1物理环境2主试者方面3意外干扰4评分计分第三节真分数及其有关的假设一、真分数的含义真分数（TrueScore）：一个测量工具在没有测量误差时，所得到的纯正值。操作定义：经过无数次测量所得到的平均值。观察分数（ObservedScore）：实际的测量分数（外显的混合分数）二、数学模型及其假设X=T+E

测量误差的假设：Σ（X）=T或Σ（E）=0ρ（T，E）=0ρ（E1，E2）=0

SX2=ST2+SE2ST2=SV2+SI2

SX2=SV2+SI2+SE2SV2SI2SE2SX2ST2

第六章测量信度第一节信度概述一、什么是信度？信度（reliability）是指测量结果的一致性程度，也叫测量的可靠性。操作定义：rxx=ST2/SX2

rXX=ρTX2

rXX=ρXX’注意：（1）信度指的是一组测验分数或一系列测量的特性，而不是个人分数的特性；（2）真分数的变异数是不能直接测量的，因此信度是一个理论上构想的概念，只能根据一组实得分数作出估计。注意：（1）信度有多种。（2）同一种信度也会因样本、测查时间不同而有多个。（3）信度只是对测量分数一致性的估计，但并没有指出不一致的原因。（4）获得较高的信度只是测验有效的必要条件。三、信度的作用信度是测量过程中所存在的随机误差大小的反映

1．信度可以用来解释个人测验分数的意义

SE=SX√1-rXX

真分数的置信区间（95%）=X±1.96SE

2．信度可以帮助进行不同测验分数的比较第二节信度的估计方法一、重测信度1．含义和计算重测信度（test-retestreliability）是指用同一量表对同一组被试施测两次所得结果的一致性程度。皮尔逊积差相关系数误差来源：测量时间不同所带来的随机误差2．使用的前提条件所测量的心理特质必须是稳定的；练习和遗忘的效果基本上相互抵消；在两次施测的间隔时期内，被试在所要测查的心理特质方面没有获得更多的学习和训练。二、复本信度1．含义和计算复本信度（Alternate-formreliability）是指两个平行的测验测量同一批被试所得结果的一致性程度。皮尔逊积差相关系数等值性系数：两个复本测验是同时连续施测的稳定等值系数（重测复本信度）：两个复本测验是相距一段时间分两次施测的。

2．使用的前提条件l

两测验真正平行；l

被试要有条件接受两个测验。三、分半信度1．含义和计算分半信度（split-halfreliability）是指将一个测验分成对等的两半后，所有被试在这两半上所得分数的一致性程度。

校正后的皮尔逊积差相关系数

校正公式：斯皮尔曼-布朗公式rxx=2rhh/（1+rhh）常见的分半方法是按测题序号奇偶分半：

测验题目按某种顺序（如难度）排列；

如果是随机排列的题目，则必须是所有题目是平等的（要么难度相等，要么性质一致，是测同一个心理特质的）；

如果测验有多个分量表，应在分量表内部排好顺序，再把各分量表的两半组合起来求相关。弗朗那根公式：rxx=2[1-（Sa2+Sb2）/Sx2]卢仑公式：rxx=1-Sd2/Sx2

2．使用的前提条件一个测验可以分为对等的两半时四、同质性信度1．含义同质性信度（homogeneityreliability），也叫内部一致性系数，是指测验内部所有题目间的一致性程度。

2．计算及适用范围

rxx=K/rij[1+（K-1）rij]KR20公式：rxx=[K/（K-1）][1-（Σpiqi）/Sx2]pi为答对第i题的人数的比例；qi为答错第i题的人数的比例。K为题目数，Sx2为测验总分的变异。KR21公式：rxx=[K/（K-1）][1-（Kpq）/Sx2]

克龙巴赫α系数：α

=[K/（K-1）][1-（ΣSi2）/Sx2]

荷伊特信度：rxx=1-MS人×题/MS人因子分析一般用于预测的测验或学绩测验可不考虑同质性。而验证理论构想时必须考虑同质性。因此，同质性不但与信度有关，还与效度有关。五、评分者信度1．含义和计算评分者信度（scorerreliability）是指多个评分者给同一批人的答卷进行评分的一致性程度。

2人时：相关系数多人时：肯德尔和谐系数W=12[ΣRi2-（ΣRi）2/N]/[K2（N3-N）]（评分者人数K=3~20；被评者人数N=3~7时，查W表检验）

RI为第i个被试被评的水平等级之和信度误差变异来源重测信度时间取样复本信度（连续施测）内容取样复本信度（间隔施测）时间与内容取样分半信度内容取样同质性信度内容取样和内容的异质性评分者信度评分者间的差异各种信度系数相应误差变异的来源第三节提高测量信度的方法一、影响测量信度的主要因素（一）被试方面被试团体同质性越高（个体差异越小），所得相关系数（信度）就越低。被试团体异质性越高（个体差异越大），所得相关系数（信度）就越高。

（二）主试方面

指导语、态度、期望、评分主观等（三）施测情境（四）测量工具测验长度：测验越长，信度越高。测验难度：过难或过易都会使个体间得分差异减小，降低信度。测验内容：试题取样不当，内部一致性低，题意模糊，信度则低。（五）两次施测的间隔时间间隔时间越短，信度越高；间隔时间越长，信度越低。二、提高测量信度的常用方法1.适当增加测验的长度2.使测验中所有试题的难度接近正态分布，并控制在中等水平3.努力提高测验试题的区分度4.选取恰当的被试团体，提高测验在各同质性较强的亚团体上的信度5.主试者严格执行施测规程，评分者严格按照标准给分，施测场地按测验手册的要求进行布置，减少无关因素的干扰第四节信度的特殊问题一、速度测验的信度问题因为速度测验的题目难度都很低，所以不能用奇偶分半求分半信度；可以将测验分两半来施测。因为几乎不可能把题目做完，所以同质性信度不适用。可以用重测信度和复本信度。二、标准参照测验的信度问题总体越同质，相关系数越低。所以，用通常的方法来算标准参照测验的信度是不适当的。可以用复本，通过人数的百分比差别越小，信度越高。三、分测验的信度除整个测验的信度外，各个分测验也应有信度，否则，从分测验得分来做推论就会出问题。四、差异的信度比较两门课成绩的差异，若两门课的信度都不可靠时，二者的差别更不可靠。五、行为改变（变迁）的测量行为改变：要求测验对分数的差异越敏感越好信度：二者的矛盾难以调和信度好坏的判断标准标准化能力或学绩测验：>0.90人格测验：>0.80教师自编学绩测验：>0.60测验使用时的信度标准一般来说，当信度<0.70，测验不能用于对个人作出评价与预测，而且不能作团体间比较；当0.70≤信度<0.85时，可用于团体比较；当信度≥0.85时，才能用来鉴别或预测个人成绩。测量效度第一节效度概述一、什么是效度效度（validity）是指一个测验或量表实际能测出其所要测的心理特质的程度。（1）效度是一个相对的概念：每个测量工具都有自己的目的。（2）效度是测量的随机误差和系统误差的综合反映。（3）判断一个测量是否有效要从多方面收集证据操作定义：效度=SV2/SX2=rXY2SV2SI2SE2SX2ST2

二、效度与信度的关系（一）信度高是效度高的必要而非充分的条件一个测验效度高，其信度也必然高；但一个测验信度高，其效度不一定高。

（二）测验的效度受它的信度制约rXY≤rXX一个测验的信度必然比效度高，至少相等。第二节内容效度一、内容效度的性质内容效度（contentvalidity）是指测验题目对有关内容或行为取样的适当程度，即一个测验实际测到的内容与所要测量的内容之间的吻合程度。因此，一个测验要有内容效度必须具备两个条件：（1）要有定义完好的内容范围（2）测验题目应是所界定的内容范围的代表性取样。二、内容效度的确定方法（一）逻辑分析法：专家判断根据自己的知识经验对量表的有效性（逻辑性）作出判断，也称逻辑效度。为使内容效度的判断过程更客观，一般采用下列步骤：①确定测验内容的总体范围；②编制双向细目表；③编制评定量表，从测验内容所测的技能、题目对所定义的范围的覆盖率、各种题目数量和分数的比例以及题目形式的适当性等方面，对测验作出总的评价。（二）统计方法：用两个测验复本来测同一批被试，若相关高，则内容效度可能高，但若相关低，则说明必有一个测验缺乏内容效度。

（三）经验法：再测法前测→教学→后测如果后测成绩优于前测成绩，说明该测验具有一定的内容效度。三、内容效度的特点和评价1.适用范围：内容效度主要应用于成就测验，也适合于某些用于选拔和分类的职业测验。但不适用于能力倾向测验和人格测验。时间性2.缺乏理想的数量指标3.内容效度不是表面效度表面效度（surfacevalidity）：外行人对某个测验从表面上看好像是测某种心理特质的程度。并不是一种真正的效度。人格测验要求表面效度不宜过高。第三节结构效度一、构想效度的定义结构效度（structurevalidity）是指一个测验实际测到所要测量的理论结构或特质的程度，或者说测验分数能够说明心理学理论的某种结构或特质的程度。

特点：（1）具有不同理论构思的测验，其结构效度是无法进行比较的；（2）结构效度有时很难获得；（3）结构效度没有单一的指标，是由各方面的证据累积起来进行评价的。二、结构效度的确定方法结构效度确立的一般步骤：（1）提出理论框架；（2）依据理论框架推演出有关测验成绩的假设；（3）用逻辑或实证的方法来证明假设。具体方法：（1）测验内部寻找证据法l分析测验的内容效度：若内容效度高，说明其结构效度也高；l分析被试对题目反应的特点：有无社会称许性的题目，如“当事情不顺我意时，我时常动怒。”对该题的回答，也许反映不了要测的性格。l计算测验的同质性信度：分半信度、α系数、KR20、KR21（2）测验之间寻找证据法l

相容效度：新老测验之间的相关（两测验测的是同一心理特质）。若相关高，则说明新测验可能有较高的效度。l

区分效度：新老测验之间的相关（两测验测的不是同一心理特质），若相关低，则说明新测验可能有较高的效度。l

因子分析法：得出的因素符合理论的构思，说明效度高。（3）考察测验的实证效度法l

根据效标把被试分组，考察其得分差异。l根据测验得分差异把被试分组，考察其所测特质（行为表现）的差异。（4）多种特质-多种方法矩阵法方法：1、2、3特质：A、B、CMultitrait-multimethodmatrix

多特质多方法矩阵

Method1TeacherratingMethod2TestsMethod3Observers’ratingA1B1C1A2B2C2A3B3C3M1A1诚实(.89)B1攻击性.43(.89)C1智力.36.32(.76)M2A2诚实.62.03.20(.93)B2攻击性.22.70.13.40(.94)C2智力.10.13.64.22.30(.84)M3A3诚实.59.11.02.60.20.21(.94)B3攻击性.14.82-.16.13.61.23.30(.92)C3智力.21.10.72.06.19.52.49.36(.85)rofdifferentmethod/sametrait:

ConvergentvalidityReliabilityWhenrsmdt>rdmdt

MethodbiasDiscriminantvalidityrdmdtofdifferentmethod/differenttraitrsmdtofsamemethod/differenttrait（5）搜集某些变异上的证据智力随年龄变化而变化三、对构想效度的评价1.有些构想概念模糊，缺乏一致的定义2.没有明确的操作步骤与程序3.没有单一的数量指标第四节实证效度一、实证效度的定义实证效度是指一个测验对处于特定情境中的个体的行为进行估计的有效性。被估计的行为是检验测验效度的标准，简称效标。所以，实证效度又称效标关联效度（criterion-relatedvalidity）。

同时效度（concurrentvalidity）：测验分数与效标资料是同时收集的。预测效度（predictivevalidity）：先获得测验分数，隔一段时间后，再收集效标资料。二、效标（1）效标与效标测量效标（criterion）就是衡量一个测验是否有效的外在标准。

观念效标：理论定义，如“大学的成功”

效标测量：操作定义，如大学成绩

常用的效标：学业成就、临床诊断、实际工作表现、特殊训练成绩、不同团体的总体表现、先前有效的测验、等级评定。（2）效标的特性a.多样性：一个测验可能有不同的观念效标，同一个观念效标又可能有不同的效标测量。b.复杂性：几乎每一种效标行为都由多种特质构成，包含复杂的成分。c.特殊性：即使一个普通的效标，在应用时也有特殊性。d.时间性：近期效标与最后效标（3）效标测量的条件a.有效性：效标测量能真正反映观念效标。b.可靠性：有较高的信度c.客观性：效标测量必须能真正反映观念效标，防止效标污染。

效标污染（criterioncontamination）是指评定者知道被试的测验分数，因而影响到对效标的客观评定。d.实用性：经济实用三、实证效度的确定方法（1）相关法测验分数与效标测量之间的相关系数。

（2）区分法测验→工作→效标测量（工作成绩）按工作成绩分高低两组，如工作成绩高，测验得分也高；工作成绩低，测验得分也低，说明该测验是有一定效度的。工作表现测验成绩合格不合格合格AC不合格BD（3）命中率总命中率=（A+D）/（A+B+C+D）正命中率=A/（A+C）（4）功利率对使用测验所需的费用和所得到的收益进行比较，看是否利大于弊。一个测验如果简单易行，省时省钱，不经过特殊训练的人也能掌握，又适合于团体施测，那么，即使效度低一些，也会有人使用。反之，只有效度极高，能给人带来很大好处时，才会使用。第五节提高测量效度的方法一、影响测量效度的因素1．测验的构成

测验长度与效度的关系：

r（Kx）y=Krxy/√K（1-rxx+Krxx）

2．测验的实施过程3．接受测验的被试常模团体的同质性影响到对被试测验得分的解释，进而影响到测验的效度。测验偏倚（testbias）是指用不适用于被试的标准来解释被试的测验得分，因而造成解释的偏差。4．所选效标的性质测量行为与所选效标的相似性越高，效度越高。测验分数与效标行为之间是否是线性关系，如果不是线性关系，求皮尔逊相关就会低估效度。效标本身的测量越可靠，效度就可能越高。5．测量的信度二、提高测量效度的方法（1）精心编制测验量表，避免出现较大的系统误差（2）妥善组织测验，控制随机误差（3）创设标准的应试情境，让每个被试都能发挥正常的水平（4）选好正确的效标，定好恰当的效标测量，正确地使用有关公式第六节效度资料的概化所谓概化，是指在一定条件下得出的结论能否适用于其他情况。测验的效度和信度一样，都与特定情境有关，只有在具体情境下的效度，而没有笼统谈论某一测验的效度。一、效度概化的几个方面1预测源的概化使用同一测验的不同复本是否同样有效？同一测验对不同分数水平的人的预测是否同样有效？2效标的概化采用不同种类或不同时距的效标，测验是否同样有效？对于效标的不同分数水平是否预测得一样好？3施测情境的概化不同的施测者、不同的施测条件以及在不同的指导语或心向下做测验是否同样有效？4被试团体的概化测验对于取自同一总体的另一样本是否同样有效？测验对于不同性别、不同年龄、不同教育水平、不同社会经济地位、不同地区、不同民族、不同学校、不同职业的被试是否同样有效？5建立效度方法的概化用不同方法得到的效度指标是否一致？不同的效度之间是否有矛盾？二、交叉效度分析交叉效度分析是考察效度概化能力的一种方法，只涉及被试样本的概化。这种方法是对两个独立取自同一总体的样本分别建立预测源-效标关系，看从一个样本中得到的效度资料是否适用于另一样本。计算测验效度所依据的样本必须与选择项目所依据的被试样本不同。如果使用同一样本，则会使效度系数假性的高。实质是循环论证。测验的项目分析项目分析包括定性分析和定量分析。定性分析包括考虑内容效度、题目编写的恰当性和有效性等；定量分析主要是指题目难度和区分度的测量。对项目进行筛选和修订，可以提高测验的信度和效度。第一节测验的难度一、难度（difficulty）的意义难度，指项目的难易程度。在最高作为测验中，称为“难度”，而在典型作为测验中，则指“通俗性”。两者都是指在总体中，能够正确或确切回答某项目的人数。二、难度的计算（一）二分法记分项目的难度1．通过率

P=R/N

2．极端分组法（上下27%）

P=（PH+PL）/2

（二）非二分法记分项目的难度

P=X/XmaxX为所有被试在该项目上的平均得分，Xmax为该项目的满分。三、测验难度水平的确定效标参照测验、掌握测验：不考虑难度；选拔测验：难度=录取率；

对于选择题来说，难度一般应大于猜测概率；无论是速度测验，还是难度测验，一般都应防止被试得满分，因为满分的意义是不明确的。

大体而言，难度为0.50时最理想，此时项目具有最大的鉴别力。但在实际操作中，让所有项目难度都到达0.50困难很大，而且也不必要，一般只需使项目的平均难度接近0.50，而各个项目的难度在0.50±0.20之间变化。四、难度的等距变换根据正态分布表，将难度P作为正态曲线下的面积，转换成相应的Z分数，这就是等距量表。

Y0ZZYP.00.39894.00000.50.35207.191461.00.24197.341341.50.12952.433191.96.05844.475002.00.05399.477252.50.01753.493792.58.01431.495063.00.00443.498653.50.00087.499773.99.00014.49997美国教育服务中心以Δ作为难度指标：Δ=13+4Z

P=.0013Z=+3Δ=25P=.16Z=+1Δ=17P=.50Z=0Δ=13P=.84Z=-1Δ=9P=.9987Z=-3Δ=1五、难度对测验的影响（一）测验难度影响测验分数的分布形态

难度大，正偏态

难度低，负偏态（二）测验难度影响测验分数的离散程度测验过难或过易，分数全距缩小，信度降低。P=0.50时最佳第二节测验的区分度一、区分度的意义区分度（discrimination）是指测验项目对被试心理品质水平差异的区分能力或鉴别能力。

项目的区分度是测验是否有效的“指示器”。二、区分度的计算（一）项目鉴别指数法1．鉴别指数（indexofdiscrimination，D）的计算D=PH-PL取值范围：-1~+1鉴别指数题目评价0.40以上很好0.30~0.39良好，修改会更好0.20~0.29尚可，仍需修改0.19以下差，必须淘汰2．极端组的划分27%规则一般情况下，取上下25%~33%均可。样本少时，可以取50%注意：由于计算机的方便使用，可以上下50%作为划分高低组的标准，或者多分几组，对区分度和难度作详细分析。因为只取上下两端，只利用了一部分资料，浪费了很多信息，有可能得出错误结论。（二）相关法（项目-总分相关）1．点二列相关Xp-Xqrpb=√pqSt

2．二列相关Xp-XqpqXp-Xtprb=•或rb=•StySty3．φ相关ad-bcrφ=√(a+b)(c+d)(a+c)(b+d)

4．积差相关（三）项目特征曲线（itemcharacteristiccurve,ICC）项目特征曲线描述了效标分数不同的被试在该项目上的通过率。曲线坡度越陡，鉴别力越好，预测的误差越小。率概的目项答回确正1.000.000.50低中高能力鉴别力较好低中高能力率概的目项答回确正1.000.000.50低中高能力率概的目项答回确正1.000.000.50鉴别力为负鉴别力较低率概的目项答回确正1.000.000.50低中高能力ABC难度不同的3个项目的ICC多项选择中每个选项的ICC率概的目项答回确正1.000.000.50低中高能力ABCD三、区分度与难度的关系难度（Ｐ）区分度（Ｄ）1.0000.900.200.800.400.700.600.600.800.5010.400.800.300.600.200.400.100.200.000难度和区分度都是针对一定团体而言的。一般来说，较难的项目对高水平被试区分度高，较易的项目对低水平被试的区分度高。四、区分度的相对性（一）不同的计算方法，所得区分值不同

区分度有几种计算方法？

（二）样本容量大小影响相关法区分度值的大小

样本越大，区分度越……（三）分组标准影响鉴别指数

分组越极端，区分度越……（四）被试样本的同质性程度影响区分度值的大小

样本越同质，区分度越……第三节项目分析的特殊问题一、多重选择题的项目分析（诱答分析）对于多重选择题，除了分析难度和区分度外，还要对每个选项进行分析。下列哪一个最有可能是偏执型精神分裂症患者的次级症状：A幻听B瘫痪C记忆丧失D厌食

如果所有被试都选择某一正确的选项，说明该选项……如果没有一个被试选择某个错误选项，说明该选项……如果所有被试都选择某个错误选项，说明该选项……如果高分组被试的选择集中在两个选项上，说明该选项……如果高分组和低分组对正确选项的选择没有区别，说明该选项……如果所有被试都未回答某个题目，说明该题……如果选择各个选项的人数几乎相等，说明该题……二、速度测验的项目分析对前面部分的测验项目，难度和区分度都……对后面部分的测验项目，难度和区分度都……三、标准参照测验的项目分析在标准参照测验中，无须考虑项目的难度和区分度，只要项目的内容很重要就行。也可以通过比较教学或训练的前测和后测结果来进行项目分析，用来说明教学或训练的效果以及项目编制是否适当。四、项目-团体的相互作用具有不同性质（性别、种族、职业等）的团体，在测验得分上也存在差异，即同样的项目可能有不同的难度。如果测验要求对所有个体都相对“公平”，那么，就应该排除那些有利于或不利于不同性质的亚团体的项目；如果测验的目的就是为了考察不同亚团体的差异，那么，就应选择使团体差异尽可能大的题目。五、有效性与可靠性的矛盾同质性信度要求项目之间有高相关，各项目的难度均等；对于预测效度来说，因为效标的变异范围较大，如果项目越同质，那么效标关联效度则低；因此，效标关联效度要求各项目之间要有一定的差异，即项目之间相关低，这样才能保证测验得分与效标之间有高相关，即高的效标关联效度。因此，对于多数心理测验来说，项目之间中等程度的相关，可使二者调和，获得较为满意的（同质性）信度和（效标关联）效度。心理测验的编制第一节编制心理测验的基本程序一、确定测验目的（一）明确测量对象

年龄、性别、职业、受教育程度、经济状况、民族、文化背景等。（二）明确测量目标

心理变量或行为特征。必须有操作定义，目标要非常具体。（三）明确测量用途

用于描述、还是诊断，或用于预测？二、制定编题计划通常是一张双向细目表，指出测验所包含的内容和要测定的各种技能，以及对每一个内容和技能的相对重视程度。例：小学自然常识测验编题计划知识理解应用分析综合评价合计生物世界35632120资源利用23311010动力与机械23420112物质与能量56832125气象24322013宇宙25410012地球2221108合计1828301388100三、编辑测验项目（一）收集测验资料（1）资料要丰富（2）资料要有普遍性（3）资料要有趣味性

（二）选择项目形式

纸笔测验还是操作测验？是客观题还是主观题？概念和原理的记忆——简答题辨别和判断——选择题综合运用——论文题幼儿——口头测验文盲、半文盲、聋哑——操作测验人多、经费有限——团体测验人少——个体测验（三）编写测验项目题目范围要与双向细目表一致；题目数量要比最终所需要的数量多，以便筛选或编制复本；题目的难度应有一定的分布范围；用词力求清楚明白。四、试测与项目分析试测取样施测过程与施测情景时限可稍宽一些记录被试的各种反应。项目分析质的分析：内容取样、题目的思想性、表达是否清楚量的分析：难度、区分度、备选项分析五、合成测验（一）测验项目的选择指标有三：要选择那些能够测量所要测量的东西的项目；难度区分度（二）测验项目的编排

并列直进式混合螺旋式（三）编制复本

各份复本必须等值。等值要符合下列条件：各份测验测量的是同一种心理特性。各份测验具有相同的内容和形式。各份测验的题目不应重复。各份测验题目数量相等，难度和区分度大体相同。各份测验的分数分布（平均数和标准差）大致相等。复本编好后，应再测一次，以确保各份测验的等值。六、测验标准化测验的标准化是指测验的编制、实施、评分以及分数解释都有统一的标准，以减少无关因素对测验的影响。（一）测验内容指测验内容对所有被试都一样。（二）施测过程测验情景指导语时限（三）测验评分为使评分尽可能客观，有三点要求：对被试反应的及时和清楚的记录。特别是对口试和操作测验。要有一张标准答案或正确反应的表格，即计分键。将被试的反应和计分键比较，对反应进行分类。（四）测验分数的解释常模参照标准参照：内容参照，结果参照七、鉴定测验（一）信度（二）效度（三）测验量表与常模

八、编写测验说明书测验的目的和功用；编制测验的理论背景以及选择题目的根据和测验的构成；测验的实施方法、时限及注意事项；测验的标准答案和评分方法；测验的信度和效度资料；常模资料。第二节测验题目的编制技术一、命题的一般原则试题要符合测验的目的。内容取样要有代表性。题目格式不要使被试产生误解。文句要简明扼要，既排除与解题无关的因素，又不可遗漏解题所依据的必要条件。要避免使用艰深的字词。应有不致引起争论的确定答案（创造力测验、人格测验除外）。各个题目必须彼此独立，不可互相牵连，不要使一个题目的回答影响另一个题目的回答。题目中不可含有暗示本题或其他题正确答案的线索。题目内容不要超出受测团体的知识和能力。所提问题应避免涉及社会禁忌与个人隐私。施测与评分省时。二、测题的种类及编制固定应答型题目，即客观题，包括：选择题、是非题、匹配题等。自由应答型题目，即主观题，包括：填充题、简答题、应用题、论文题、联想题、操作题等。（一）选择题题干+选项（正确选项与诱答选项）多项条件选择题：例如：已知小明的心理年龄是8岁4个月，实际年龄是9岁，其智商是多少？(a)85(b)90(c)92(d)92.6(e)100类别选择题例如：艾森克是著名的_______心理学家。(a)儿童(b)工程(c)管理(d)人格(e)社会异类选择题例如：下面哪位与其他人不属于同一类人？(a)小布什(b)普京(c)胡锦涛(d)希拉克(e)科尔多项是非选择题例如：下面两个陈述哪一个正确？（1）2008年奥运会在北京举行。（2）美国首都是费城。(a)1和2都对(b)1对2错(c)1错2对(d)都错因果条件选择题例如：如果测验的真方差增加，但误差方差不变，结果是：(a)测验信度增加(b)测验信度下降(c)测验总方差减小(d)测验的信度和总方差不变选择题的优点：适用范围广；计分客观；题意明确。缺点：编制诱答选项较难；答案固定，测量范围有限。编写选择题的原则：题干所提的问题必须明确选项要简短，必要的叙述或相同的修饰语应放在题干中；每个选项的性质要一致；选项最好按逻辑顺序排列；选项之间不应有重叠；诱答选项的错误不要太明显；不要把选项夹在题干中间；每题只能围绕一个中心，不能有歧义。（二）是非题每题只包含一个概念，避免两个以上的概念在同一题中出现，造成题目似是而非，或半对半错。避免使用具有暗示性的特殊词语，如“绝对”、“完全”、“有时”、“可能”等。尽量采用正面肯定的叙述，避免反面陈述或双重否定的句子。如“生物没有不是由细胞组成的。”“是”与“非”的题数应大致相等，且随机排列。（三）论文题对答题有时间限制；不要有任选的题目，因为两题很难做到等值；客观、统一的评分细则。测验的实施和计分第一节测验的实施一、测验实施前的准备工作向被试预告测验：测验的时间、地点、内容，让被试做好心理准备。熟悉测验程序：测验内容、施测步骤、记分方法、分数解释。准备测验材料。准备测验环境：通风、采光、噪声、桌椅高度、桌面大小、挂牌以防止意外干扰等。熟悉测验的指导语：告诉被试如何选择反应形式（划勾还是涂黑），说明时间限制，例题演示，有时告知被试测验目的。二、测验的具体实施按测验手册要求实施测验。控制测验焦虑，不讲威吓被试的话。与被试建立良好的协调关系（rapport）。及时和清楚地记录被试的反应。对特殊问题有所准备（如作弊、被试不配合等）。第二节测验的计分和分数的合成一、计分的一般程序（一）计分的基本步骤1及时和清楚地记录被试的反应2制作标准答案，也称计分键3将反应和计分键相比较，给反应归类或赋予分数值（二）论文题计分盲审多个主试评分细分计分标准（三）客观题计分人工计分和机器计分猜测校正公式S=R-W/（K-1）

S—校正后的分数；R—被试答对的题目数；W—被试答错的题目数；K—选择项目数是否需要对猜测进行校正？赞成的理由：反对的理由：（二）测验分数的合成1分数合成的种类（1）项目的组合把各个题目得分相加，得到量表分或分测验分。分等量加权和不等量加权。（2）分测验或量表的组合把各个分测验得分相加，得到量表总分。（3）测验或预测源的组合

同时运用多个测验得分进行预测2分数合成的方法（1）临床诊断——直觉合成

从整体上进行的定性分析，灵活性强，有针对性。（2）加权求和合成单位加权：各原始分相加Xc=X1+X2+X3+……+Xn等量加权：如果各个分数重要性相等，用标准分相加即可；Zc=Z1+Z2+Z3+……+Zn如果各个分数的重要性不一样，就要根据重要性不同，赋予不同的权重，即加权系数。Zc=W1Z1+W2Z2+W3Z3+……+WnZn（3）多重回归用多种预测源分数（测验分数）来预测未来结果。Ŷ=a+b1x1+b2x2+b3x3+……+bnxn

（4）多重分段高中毕业合格→政审合格→体检合格→高考合格→录取不合格不合格不合格不合格↓↓↓↓淘汰淘汰淘汰淘汰（5）轮廓分析（剖面图分析）在MMPI中，如果在量表2和量表7上分数高，即27/72，说明抑郁、焦虑不安，有神经症。测验结果的解释原始分数与导出分数原始分数（rawscore）：将被试的反应与标准答案相比较而获得的测验分数。原始分数本身没有多大意义。导出分数（derivedscore）：按照一定的规则，针对原始分进行统计处理后获得的分数。导出分数具有一定参照点和单位，可以相互比较。根据解释分数时的参照标准不同，可以将导出分数分为两大类：常模参照分数标准参照分数：包括内容参照分数，结果参照分数。第一节参照常模的分数解释参照常模解释分数，通常是将被试的分数直接或间接地以在某个团体中的相对等级或相对位置来表示。这个用来比较的参照团体，称为常模团体（normgroup）。常模团体的分数分布，就是常模（norm）。一、常模团体的组成（一）常模团体的性质由具有共同特征的人所组成的一组群体，或是该群体的一个样本。任何一个测验，都有许多可能的常模团体。在制定常模时，首先要确定常模团体。在对常模参照分数做解释时，也必须首先考虑常模团体的组成。（二）确定常模团体的注意事项1群体构成的界限必须明确对每个常模团体的性质和特征的简短且明确的描述。2常模团体必须是所测群体的代表性样本克服取样偏差，采用正确的取样方法：随机取样，系统抽样，分层取样。3取样的过程必须明确且有详尽的描述在测验手册中，有关取样的大小、取样方法、取样时间等的说明和描述，越明确、越详尽越好。4样本大小要适当从统计学原理上说，样本是越大越好，但考虑到经济、实用，样本数量也不能无限扩大。样本大小可以根据以下几方面来确定：

常模总体的数目。总体数目小，则样本数目也小；总体数目大，样本数目也应大。一般来说，样本最好应有30~100人；如果是全国性常模，一般应有2000~3000人为宜。

总体性质。总体性质越复杂，样本容量就越大。

测验结果的精确度。精确度要求越高，样本量就越大。5常模团体必须是近时的。6注意一般常模与特殊常模的结合二、常模参照分数（normreferencedscore）主要有：发展量表、商数、百分位、标准分数四大类。（一）发展量表1．心理年龄（mentalage）（智力年龄）指被试智力发展水平的年龄。单位是年（或岁）和12个等距的月。年龄量表最基本的假设是，随年龄的增长，所测量的特质有系统的改变。因此，不适用于成人。年龄量表的基本要素：（1）题目：可区分不同年龄组；（2）常模团体：由各个年龄被试组成的有代表性样本；（3）常模表2．年级当量(gradeequivalents)即年级常模，用年级代替年龄，指把学生的测验成绩与各年级学生的平均成绩比较，看他相当于几年级的水平。年级常模的单位通常为10个月间隔。如5年级的分布为5-0到5-9。年级当量只适用于一般课程，不适合只学1~2年的课程。年级当量只适用于解释本学年的水平，不适用于跨学年的。如一个五年级学生的年级当量为8，并不能说他已经掌握了8年级的课程。3.发展顺序量表(ordinalscales)格塞尔发展顺序量表格塞尔认为，婴幼儿的行为系统的建立是一个有次序的过程，反映了神经系统的不断成长和功能的分化，因而可以把每个成熟阶段的行为模式作为智能诊断的依据。4周16周28周40周52周不能控制头部，仰卧姿势左右不对称颈可竖直，头微摇动，仰卧姿势左右对称扶起独坐，身体前倾可独坐，爬行，扶着物件站立搀一手行走，摇摆皮亚杰量表用特定的任务来揭示儿童发展处于哪个阶段。发展量表的优点：以年龄或年级当量为单位来报告分数，易于被人理解。可与同辈团体做直接比较。为个人内比较与纵向研究提供了基础。缺点：只适用于随年龄发生系统变化的心理特质的测量，对成人不合适。只适用于在典型环境下成长的儿童。发展量表的单位在各年龄、各年级并不相等，无法做代数运算。获得同样的年龄或年级当量分数，并不一定具有相同的智力或学业成就。（二）商数(quotient)1．比率智商IQ=100（MA/CA）缺点：实龄是等距的，而智龄不等距（智力发展不是直线的）计算成人智商时，以多大实龄作为除数？智力生长何时达到顶点？不同年龄组，比率智商分数具有不同的标准差，因而相同的比率智商对于不同年龄具有不同的意义。2.教育商数

EQ=100（EA/CA）儿童所受的教育相当于某个年龄儿童所受教育的平均水平，则他的教育年龄就是几岁。3．成就商数AQ=100（EQ/IQ）用于说明智力发展与教育发展是否同步。（三）百分位1百分等级（percentilerank）概念某个分数的百分等级就是得分低于这个分数的人数的百分比。百分等级指示个体在常模团体中的相对位置。百分等级越低，个体所处的地位越低。计算（1）未分组分数资料100R-50PR=100-N（2）分组分数资料100（X-L）fPR=•+FbNi2百分点相对于某一百分等级的分数点叫百分点或百分位数。3十分位百分点将分数分布分成100个等份。十分位是将分数分成10个等份。十分位提供一个10级的等级量表，每一级包括10%的分数。

百分位的评价优点：容易计算，容易解释。对于各种被试和各种测验普遍适用。缺点：缺少相等单位，属于顺序量表，不能做加减乘除运算。（四）标准分数(standardscore)1Z分数。

X-XZ=S不仅具有可比性，还具有可加性。Z=0SZ=1，-3

~+3

约占总体的99.73%。除了Z分数外，还可以把Z分数转换成T分数、标准九、离差智商等。转换方法：线性转换：从正态到正态非线性转换：从偏态到正态（通过百分等级）2T分数纪念Terman和Thorndike。

T=10•Z+50平均数为50，标准差为104离差智商(deviationIQ)IQ=100+15Z5CEEB分数（CollegeEntranceExaminationBoard）美国大学入学考试委员会分数

CEEB分数=500+100Z6EPT分数

EPT分数=90+20Z标准分数变式的评价优点：转换成等距量表，使进一步统计分析成为可能。都可以转换成百分等级，使得不同分数之间可以进行比较。缺点：外行难以理解；如果非正态分布，不同变式的分数之间无法比较与求和。、几种导出分数间的相互关系三、呈现常模资料的方法（一）转化表转化表的3个基本要素：原始分、导出分、常模团体的特征描述。1．简单转化表

2．复杂转化表（二）剖析图（三）常态百分位图表分数以百分等级来表示，而分数轴的距离以标准分数为单位。把百分等级与标准分结合起来使用，具有双重优点。语文推理2770******************数字能力2370*********************语文+数字5070******************抽象推理4085*********************文书速度与正确2915*********************机械推理4545*********************空间关系3065*********************拼写6260*********************语言应用2655*********************原始百分百分位分数位15102025304050607075809095991510202530

人人文库> 全部分类> 教育资料 > 中学教育

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

人事测评的心理测量学基础

文档简介

温馨提示

最新文档

评论

人事测评的心理测量学基础

文档简介

温馨提示

最新文档

评论

相关文档