《心理与教育测量》大纲知识要点

上传人：伐*** IP属地：宁夏上传时间：2021-10-07 格式：DOC 页数：28 大小：469.01KB 积分：15 举报 版权申诉

已阅读5页，还剩23页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、心理测量大纲知识要点考试总体要求1.正确理解心理测量的基本概念,掌握心理测量的基本方法。2.掌握各种测量理论和各种测量指标的计算方法；能够正确使用各种测验,并对其结果进行解释。三、心理测量的基本理论(一)心理测量的理论基础1.心理测量的基本概念（03首师大，名）(1)基本概念：所谓心理测量，就是依据心理学理论，使用一定的操作程序，通过观察人的少数有代表性的行为，对于贯穿在人的全部行为活动中的心理特点做出推论和数量化分析的一种科学手段。（测量：按照一定法则使用量具给事物指派数字的过程。）(2)心理测量三要素：行为样组、标准化和客观性。（01华东师大，简答题）行为样组是指以被测量的行为作为代表来推

2、测与其关联的心理特征。一个测验的好坏,首先决定于测题编制的好坏,即必须要求这些测题能够引发和测量出具有高度代表性的行为样组。标准化是指测验的一致性,也即：测验的编制、实施、记分以及测验分数解释的程序的一致性。心理测验的客观性,是指测验不受主观支配,其测量方法是可以重复的,被试外部的行为是客观的，测验的实施、记分和解释都是客观的。客观性是衡量科学性的一个根本标志,对于心理测验尤为重要,这是决定一个心理测验能否存在的必要条件。行为样组的代表性和测验程序的标准化,都是为了保证这种客观性。(3)心理测量是动词意义，心理测验是名词意义。心理测量的参照点是相对参照点；单位不等距。一般来说,心理测量是在顺序

3、量表上进行的。但通过统计方法,可以把测量数据转换为等距数据。（心理测量属于哪一种水平上的测量，为什么？【02华东师大，简答题】）（4）对心理测量的评价贡献：首先，为心理科学理论的发展，特别是个体差异心理提供了具体方法和手段，构筑了差异心理理论的重要基石。其次，心理测量为社会实践服务做出了巨大的贡献。局限：首先，心理测量具有间接性，精确程度远远劣于物理测量。其次，心理测量所依据的理论尚不完善。2.心理测量的特征、分类(1)心理测量的特征心理测量的间接性研究者无法直接测量人的心理,只能测量人的外显行为。根据心理学特质（04首师大，名）理论,人们对行为测量的结果进行推论,从而间接了解人的心理属性。心

4、理特质是一组内部相关或有内在联系的行为倾向，是个人对刺激作反应的一种内在倾向，是个体特有的、稳定的、可辨别的特征。心理测量的相对性所谓测量就是看每个人处在这个序列的什么位置上,位置具有相对性。心理测量的比较标准的确定没有永恒的标准,从测量结果进行推论所采用的标准不是一成不变的。心理测量的客观性测量的客观性实际就是测量的标准化问题。按照严格的科学程序去编制和使用的测验称之为标准化测验。（测验为什么要标准化？怎样保证测验的标准化？【03北师大，简答题】）为什么要实行标准化：a.可以减少无关因素对测验目的的影响,使测量准确、客观；b.有统一标准,便于对不同人的测验成绩进行比较和交流；c.同一份测验可

5、用于许多人并可反复使用,较为经济。补充：心理测验的可行性（桑代克1918语凡是客观存在的事物都有数量；麦柯尔1939语凡是有数量的事物都可以测量）。(2)心理测量的分类根据测量的对象分类a.认知测验：又可称为能力测验,这类测验主要包括智力测验、能力倾向测验(又称性向测验)、教育测验(又称成就测验)及创造力测验等。b.人格测验：它测量的是个性中除能力以外的部分,亦可看作是非能力测验。主要测量性格、情绪、需要、动机、兴趣、态度、焦虑、气质及自我概念等方面的个性心理特征及其相关行为。根据测验的人数分类a.个别测验：通常是一个主试与一个被试面对面进行。比如比奈西蒙智力测验、韦克斯勒智力测验等。优点：主

6、试对被试的言语、情绪状态和行为反应有仔细的观察和控制的机会,并且有充分的机会与被试合作,激发被试测试的积极性,所以其结果比较正确可靠,适用于一些特殊对象,如幼儿和文盲。缺点：时间长,施测手续复杂,对主试要求高,主试需要经过严格训练,因而一般人不易掌握。所以个别测验仅在有特殊目的(如诊断)时才使用。b.团体测验：在同一时间内由一位主试对多数人施测。比如瑞文智力测验、大多数人格测验等。优点：可以节省人力、物力和时间,主试也不必经过严格的专门训练。团体测验的记分和评分较个别测验更为严格和客观。一般每题都有标准答案。另外,因为标准化样组规模相当大,故团体测验更易建立常模。缺点：无法对被试详细观察,不易

7、控制被试的行为,容易产生误差,难以发现被试的特殊反应,主试和被试之间无法建立和谐关系等。注意团体测验可个别施测,但个别测验不能以团体方式实施。根据测验材料分类a.言语或文字测验：这类测验的题目是以语言或文字呈现的,受试者也要用文字或语言作答。优点：它可以测量人类高层次的心理功能,其编制和实施也较容易,因而应用范围较广。团体测验多数采用文字测验形式。缺点：语言或文字测验不能应用于语言有困难的人,而且对语言文化背景不同的被试加以比较时,甚至在同一文化背景下,被试文化程度和教育背景的不同,也会对测验结果产生相当大的影响,因而多少会损害其客观性。b.非语言测验或操作性测验：此类测验题目不用文字来呈现,

8、而是以图画(图形)、符号或实物(如方块、积木、仪器和工具等)为测验材料。优点：被试的作答无需使用语言或文字,常以操作表达或回应。具有文化公平性,因而可方便地用于学前儿童和不识字的成人,也可进行不同文化背景的差异比较研究。缺点：费时太多,不易团体实施等。还有测验既包括言语测验又包括操作测验,如韦克斯勒智力量表。依据测验的功能分类a.筛选性测验；只是对所欲测量心理特质作一般性的考查。这类测验简便易行、省时省力,但是测验内容不够全面,因而不够精确。b.诊断性测验：测验的内容多而全面,一般为个别测验。它的目的是进一步诊断被试某些方面的特殊优点和缺点。按测验的要求分类a.最高作为测验：要求被试尽可能做出

9、最好的回答，一般有对错之分。b.典型作为测验：要求被试按通常的习惯方式做出反应，一般无对错之分。按测验的性质分类a.结构性测验：在测验中,所呈现的刺激和受测者的任务是明确的。b.投射性测验：在测验中,刺激没有明确意义,问题模糊,对被试的反应也没有明确规定。罗夏、tat等。按测验的应用领域分类a.教育测验：是测验应用最广的领域,用得最多的是学绩测验。注意速度测验和难度测验的区别。（速度测验和难度测验的定义和区别，【04北师大，简答题】）b.职业测验：主要用于人员选拔和安置,可以是能力和学绩测验,也可以用人格测验。c.临床测验：主要用于医务部门。许多能力和人格测验可用来检查智力障碍或精神疾病,为临

10、床诊断和心理咨询工作服务。依据测验结果的解释模式分类常模参照测验：与常模比较，以评价被试在团体中的相对位置为目的；标准参照测验：与一绝对标准相比较，以评价被试有无达到该标准为目的。（二者的区别，03北师大，简答题）。3.经典测量理论和真分数理论模型（03首师大，简答题）经典测验理论又称真分数理论（有书上称“随机误差理论”）。经典测验由基本假设、信度和效度等概念组成。其中影响最大的是斯皮尔曼的真分数模型。(1)真分数模型真分数的定义即是测量中不存在测量误差时的真值或客观值,操作定义就是无数次测量的平均值,通常用或t表示。另外,用或表示实得分数,或表示误差分数。真分数模型认为,任何测验所测得的分数

11、都等于真实分数和误差分数之和。真分数理论的基本方程式如下：实得分数是真分数与误差分数的函数,即实得分数由和共同决定。进行心理测量时,一般被视为稳定不变的,因此个体实测分数的变化是由引起的。除了基本方程式,真分数理论还有三个基本假设作为整个理论的支柱。其一,误差分数的平均数是零。其二,误差分数与真分数相互独立,即相关为零。其三,两次测量的误差分数之间的相关为零。（2）信度；（3）效度见下文(4)经典测验理论的方法体系可分为项目分析和标准化两大部分。项目分析主要包括计算题目的难度、区分度以及项目特征曲线icc（坐标为总分或效标分数和通过率）（04华中师大）。测验的标准化是指对不同的被试在测试题目、

12、施测条件和程序、计分和分数解释等各方面都采用一个固定的标准。（测验的标准化对提高测验质量有何作用？它的局限是什么？测验最主要的质量指标是什么？06北师大，简答题）(二)测量的信度与效度（04浙大，名）1.测量的信度(1)信度的定义信度的描述定义指测验结果的一致性或稳定性,其测量定义为一组测量分数的真变异数与总变异数(实得变异数)的比率,含义是在实得分数的变异中有多大比例是由真分数的变异决定的。rxx=st2/sx2(2)信度系数的估计（种类）重测信度：a.求法是对同一批被试运用某个测验实施首测,相隔一段时间后对它进行再测,然后计算首测与再测所得分数的相关（一般是积差相关）,即得重测信度。这种信

13、度能表示两次测验结果有无变动,反映测验分数的稳定程度,故又称稳定性系数。b.优点：能提供有关测验结果是否随时间而变异的资料,可作为预测受测者将来行为表现的依据。c.缺点：易受练习和记忆的影响,前后两次施测间隔的长短必须适度。如果相隔时间太短,则记忆犹新,练习的影响较大；如果相隔时间太长,则身心的发展与学习经验的累积等都足以改变测验分数的意义,而使相关降低。另外,第一次尝试所发现的错误也可能导致第二次反应的变化而增加误差变异。d.误差来源：时间的不同所带来的随机影响,如气候、偶然的噪音或其他干扰,以及引起被试本身身心状态变化的因素如疾病、疲劳、情绪类型、焦虑等。重测信度代表测验成绩能够应用于不同

14、时间的程度,信度越高,受测验环境中日常的随机因素的影响越小。由于测验的稳定性系数受时间和其他各种因素的影响,故任何一个测验都可有不止一个重测信度系数。所以在测验手册中报告此种信度时应说明时间间隔以及在此间隔中被试的有关经历,如受过何种教育训练、心理治疗以及有何学习经历等。复本信度:a.求法是先运用同一测验的一型或a型施测,随后在最短的时间内运用二型或b型进行再测,然后再求它们得分的相关系数。b.误差来源：测验两种形式是否等值：测题取样是否匹配,格式是否相同,内容、题数、难度、平均数、标准差是否一致。再就是被试方面情绪波动、动机变化等,以及测验情境的变化,偶发因素的干扰。这些都会引起测量误差。在

15、报告复本信度时,也应说明两次施测的间隔,以及在此间隔内被试的有关经历。内部一致性信度估计内部一致性系数的方法通常有两类：一类是分半法,另外一类方法需要对项目反应的方差或协方差进行分析。a.分半法是将一个测验分裂为两个假定相等而独立的部分,然后计算这两部分的记分的相关系数(一般是以项目的奇数为一组,偶数为另一组),继而再用斯皮尔曼布朗公式来估计整个测验的信度（斯布公式要求两半的变异数相等）。公式如下：，其中是分半信度系数,测验在原版时的信度的估计值。缺点：把测验划分成两半的方法实际上有多种,而每一种划分方法产生的估计都有差别,因此用分半法得到的信度估计值不具备惟一性。b.克朗巴赫系数（03首师大

16、，名）适用于非0,1记分的一种内在一致性系数,计算公式为：式中,n为人数，是测验每个项目的方差。si2c.除了以上两种方法,还有库德理查逊公式（只适合于0、1记分的题目）；荷伊特信度；因素分析等方法。有些测量学家认为因素分析是决定测验同质性的最好方法。因素分析方法最初是由心理学家斯皮尔曼在研究智力理论时提出来的,后来发展成为一种复杂的统计技术,用于确定一组变量间的相互关系最少需要几个因素来解释。在测验上,如果一个因素就足以解释所有题目分数的变异时,这个测验就是同质的,假如需要一个以上的因素时,则测验的组成是异质的。d.内在一致性信度的优点：只需施测一次,就可以估计信度系数,省时节力。另外用内在

17、一致性系数一般要比重测信度、复本信度所算出的信度系数高。e.不足之处：求分半信度时,分半的方法不同,估计出的信度系数就不同。而且,测验须要求具有同质性。所以项目异质的人格测验,通常就不能用内在一致性系数来估计信度。评分者信度（02西北师大，名）随机抽取相当份数的试卷,由两位评分者按记分规则分别给分。然后根据每份试卷的两个分数计算其相关系数,即得评分者信度。一般要求在成对的、受过训练的评分者之间平均一致性达到0.90以上,才认为评分是客观的。综上所述,信度高低是用相关系数表示的。不同的测验内容,对相关系数的要求有所不同。一般说来,标准智力测验应达到0.85以上,个性测验和兴趣测验一般应达0.70

18、0.80水平。学业成就测验要求信度在0.90以上,才能被称为是一个良好的测验。(3)信度的影响因素与改进（03、04首师大，简答题）信度与误差变异之间有密切的关系。误差变异越大,信度愈低。凡被试、主试、测验内容和施测情境等各个方面能引起随机误差而导致分数不一致的因素,都会降低测验的信度。被试方面身心健康状况、动机、注意力、持久性、求胜心、作答态度等。主试方面不按规定实施测验,制造紧张气氛,给予特别协助,评分主观等。测验内容方面试题取样不当,内部一致性低,题数过少,题意模糊等。施测情境方面测验现场条件,如通风、温度、光线、噪音、桌面好坏、空间阔窄等。除此之外,还有以下几个因素会影响信度系数的大小

19、：被试样本影响信度系数的一个重要因素是用来确定信度的被试团体的特性。团体的异质性（公式）如同所有相关系数一样,信度系数受分数的分布范围影响,而分数范围与被试团体的异质程度有关。一个团体越是异质,其分数范围越大。而一个经过筛选、相对同质的团体分数则较为均匀。rnn=1-so2(1-roo)/sn2团体的平均水平信度系数不仅受被试样本的个体差异程度的影响,而且受被试团体的平均水平的影响。这是因为,对于不同水平的团体,题目具有不同的难度。每个题目在难度上的微小差异累积起来便会影响信度。由于信度系数与被试样本的异质程度和平均水平有关,因此在编制测验时,应把常模团体按年龄、性别、文化程度分为更同质的亚团

20、体,并分别报告每个亚团体的信度系数,这样测验才能适用于各种团体。题目的数量（公式）题目的数量(亦即测验的长度)也是影响信度系数的一个因素。一般说来,在一个测验中增加同质的题目,可以使信度提高。因为增加测验的长度可以加大分数范围。rkk=krxx/1+(k-1)rxx这里要注意一点,只有当新题目是与原题目选自同一总体,即与原题目具有同质性时，增长测验才能改进信度。测验难度测验的难度与信度间没有简单的关系。然而,若测验对某团体太难或太容易,则分数范围将缩小,从而使信度降低。这表明,要使信度达到最高,能产生最广分数分布的难度水平方为合适。间隔时间以再测法或复本法求信度,两次测验相隔时间越短,其信度系

21、数越大；间隔时间越久,其他变因介入的可能性越大,受外界的影响也越多,信度系数便越低。2.测量的效度(1)效度的定义（04重庆大学，名）效度的测量定义：与测量目标有关的真变异数与总变异数的比率,含义是在一组测验分数中,有多大的比例是由测验所要测量的目标引起的。总分变差分为三个部分：，：由所测量的心理特性引起的主要变差,或与所测量的心理特性有关的共同因素所引起的变差；：由与所测量的特性无关的其他个别特性所造成的变差(系统误差引起的变差)；：误差变差,是测量误差的变差。描述定义：效度是指一个测验或量具能够测量出其所要测量目标的程度。(2)效度的估计测验的效度分为三大类：内容效度、构想效度、效标效度。

22、内容效度（02西北师大，名）（表面效度【04首师大，名】）内容效度指的是测验题目对有关内容或行为范围取样的适当性。这种测验的效度主要与测验内容有关,所以叫内容效度,指测验题目在要测量的行为领域的代表性。内容效度的评估方法主要应用于对学绩测验的评估。一个测验要有内容效度必须具备两个条件：要有定义得完好的内容范围；测验题目应是所界定的内容范围的代表性取样。测验题目并不需要包罗该范围的所有材料,而只需包含测验编制者认为是重要的材料。确定内容效度的方法主要有专家判断、统计分析、经验法等。a.专家判断为了确定一个测验是否具有内容效度,最常用的方法是请有关专家对测验题目与原定内容范围的符合性做出判断。b.

23、统计分析内容效度可由一组被试在独立取自同样内容范围的两个测验复本上得分之相关来作数量的估计。若相关低,说明二者至少有一个缺乏内容效度；若相关高,一般可推论测验有内容效度。c.经验法检查不同年级的学生在测验上的得分和在每个题目上的反应情况。一般说来,测验总分和题目通过率随年级而提高,便是测验具有内容效度的证据。构想效度是指一个测验对某种心理学理论所涉及的抽象概念或心理特质测得如何。效标效度又称实证效度,指的是测验对研究者所感兴趣的外在行为能够做出多好的预测。这种外在行为是衡量测验是否有效的标准,简称效标。构想效度构想效度就是测验对某一理论概念或特质测量的程度。研究和考察构想效度要回答三个问题：一

24、个测验测量什么心理构想,对这构想测得有多好,测验分数中有多少比例的变异数是来自测验所要测的构想。确定构想效度的方法主要分为测验内方法、测验间方法。a.测验内方法主要是通过研究测验内部构造来界定所测量的构想的范围。如确定测验的内容效度,分析被试对题目作反应的过程,考察测验的同质性等方式。b.测验间是通过研究几个测验间的相互关系,找出他们的共同特点,进而推断出所测的共同特质是什么,便可确定这些测验是否有构想效度。如确定相容效度、区分效度、因素分析（因素分析法在效度验证中的作用，【04首师大，简答题】）效度等方式。效标效度（为了使效标关联效度的更准确反映测验质量，应该关注哪些技术环节？06北师大，简

25、答题）效标效度又称实证效度,指一个测验对处于特定情景中的个体的行为进行预测时的有效性,也就是对于研究者所感兴趣的行为能够预测得怎么样。其中,被预测的行为是检验测验效度的标准,简称效标。确定效标效度的方法主要有相关法、区分法、命中率和功利率等。a.相关法最常用来建立实证效度的方法是求测验分数与效标测量间的相关,所得到的数量指标称作效度系数。在测验手册中,一般用它来报告测验对每种效标的效度。计算效度系数最常用的是积差相关法。b.区分法第二个决定效度的方法是看预测源的分数是否可区分由效标测量所定义的团体。c.命中率（公式）当测验用来作取舍的根据时,其有效性的指标就是正确决定的比例（总命中率）。(正命

26、中率和总命中率)d.功利率为了确定测验的功效,人们还常常对使用测验所花掉的费用与得到的利益进行比较,看是否利大于弊。这种效度指标,叫功利率。(3)效度的影响因素与改进影响测验效度的因素很多,在编制测验或选择标准化测验时,都应该考虑到这些因素,以免影响测验结果的有效性。测验本身的因素a.测题中所用词汇和句型不能过于困难。测题中的词汇和句型应适于被试的文化水平。b.试题的意思应该清楚。题意含糊,容易产生歧义,以致被试产生误解也会降低测验的效度。c.所编制的测题应该造合所要测量的学习结果。d.测题中不能提供额外线索。若测题为被试提供了额外线索,就无法确认测题是否真正测量到了所欲测量的学习结果。e.测

27、题的编制要合理。一般地,测题以由易到难的顺序排列。f.选择题的正确答案不能有明显的组型。如果测验正确答案的位置有明显的规律,学生有可能发现规律答对一些原本较难的题目,从而影响测验结果的效度。g.测题数目。增加测题的数目(即增加测验长度)通常可以提高测验的信度和效度。h.测题的难度要适当。标准参照测验中的测题平均难度应在0.05左右,并有适当的难度分布,测题太难或太易都无法区分学生的优劣,从而降低测验的效度。标准参照测验并不强调测验分数间的差异,也就不需要区分学生的优劣,这时的测题难度就应该与教学目标的要求相一致。测验实施和计分方面测验情境,如场地的布置、材料的准备等都会影响到测验的效度,此外,

28、在实施测验的过程中,是否遵照测验使用手册的各项规定进行标准化的施测,指导语是否已将答题方式说明清楚,是否按要求进行时间限制等,也影响到测验的效度。如果没有按照标准化的程序进行施测和客观的评分,就必然会使测验效度降低。被试的主观方面被试的兴趣、动机、情绪、态度和身体健康状况以及是否充分合作与尽力而为等,都会影响到测验结果的可靠性和正确性,即效度和信度。3.信度和效度的关系（03首师大，简答题）(1)信度和效度的关系：信度是效度的必要条件,但不是充分条件。具体是：信度低,效度不可能高。因为如果测量的数据不准确,也并不能有效地说明所研究的对象；信度高,效度未必高。例如,如果我们准确地测量出某人的经济

29、收入,也未必能够说明他的消费水平；效度低,信度很可能高。例如,即使一项研究未能说明社会流动的原因,但它很有可能很精确很可靠地调查各个时期各种类型的人的流动数量；效度高,信度也必然高。信度和效度的差别在于所涉及的误差不同。信度考虑的是随机误差的影响,效度的误差则还包括由于测量了对测验目的来说无关的变量所引起的系统误差。(2)效度受到信度的制约(三)心理测量的误差（误差的来源及其控制）（详述测量误差的来源，【04首师大，论述】）1.测量误差的定义(1)所谓误差是指在测量中与目的无关的因素所产生的不准确的或不一致的结果。测量误差分为随机误差和系统误差。(2)在测验中,有与测量目的无关的偶然因素引起的

30、变化无规律的误差,使得多次测量结果不一致,这种误差的大小和方向是随机的,叫做随机误差或偶然误差。(3)有与测量目的无关的因素引起的恒定的有规律的误差,它稳定地存在于每一次测量中,这种误差叫做系统误差。系统误差只影响测量的准确性,而随机误差既能影响准确性,也能影响一致性。能带来误差的因素有很多,实际上任何与测验目的无关的变因都可能引起误差。测验的标准化就是为了控制这些误差因素,使测验分数更可信、更有效。2.测量的随机误差来源及控制(1)测量的随机误差来源于施测过程引起的误差,在测验的实施过程中可能引起误差的因素很多,如测试环境、时间、主试者、意外干扰、评分记分等。测试环境的干扰。施测现场的温度、

31、光线、桌面高低好坏等对被试都有影响。例如,在测试过程中,光线充足,有利于被试正常地作答；光线暗淡,则会影响作答的效果。测试时间的影响。时间安排也是影响测试准确性的一个重要因素,如果时间安排不当或时限不统一,必然会引起测验结果的改变。主试因素。主试的年龄、性别、外表、言谈举止、表情动作、对测验过程的熟悉程度等都能影响测验的结果。如果不按照规定施测,如给予暗示、制造紧张气氛等都会带来很大的误差。意外干扰。在测试环境复杂,特别是当被试人数较多时,可能发生意外情况,例如：停电、有人生病、作弊等等,无论哪种情况出现,都会影响测验结果的准确性。评分记分。评分不客观和记分出现错误也是较常见的误差。一般来说,

32、客观题的评分较为准确客观,而主观题的评分标准较难掌握,再加上阅卷者的风格、情绪以及其他心理因素的干扰,因而很难保证分数的一致性。(2)控制主试在测验前要把测验材料准备好,以免短缺而临时寻找。事先的充分准备可减少实施过程的测量误差,负责施测的主试也要有一本测题册和一份答案记分纸,并请被试准备好铅笔或圆珠笔。测验被试的确定和测验场地和时间的约定也是一个不容忽略的问题。一定要与被试、被试的家长,或者被试所在学校(校长和班主任)在被试对象、时间和地点等方面事先做好约定,不要临时应付,造成被试情绪上的波动,影响测试的正常进行。主试应努力联系条件符合要求的测验场地。一般来说,测验场地应保证良好的照明和空气

33、调节,并避免噪声和其他外界干扰,桌椅大小高低要适合,桌面要平整。评分记分要客观。3.测量的系统误差来源及控制(1)测验自身引起的误差测验自身的误差主要来源于测验的编制过程,其中项目取样影响最大。测验所要测量的内容是什么,测验的项目能否代表这些内容,是至关重要的。当测验的项目较少而取样缺乏代表性时,被试的反应很难代表真实水平。对于有些类型的项目,例如是非题、选择题,被试可能凭猜测作答,从而降低分数的可靠性。此外,题目用词模棱两可,或对要求叙述不清等,也都会带来误差。(2)被试引起的误差在测量工作中,最复杂的和最难控制的是由被试本身引起的各种误差。应试动机。如果被试在两次测试时的动机不一样,会使被

34、试的回答态度、注意力、持久性以及反应速度发生变化,就容易引起测量误差。测验焦虑。研究表明,能力与测验焦虑呈负相关,抱负水平与焦虑成正相关,缺乏自信、情绪不稳定的人焦虑较低等。测试经验。被试对测验的程序、内容材料的熟悉程度不同以及回答技巧的差异都会影响测量的一致性。所以正式测验之前,应有示范或例子、练习。学习、发展与教育。重复测验中如果有个别人在首次测验后受到特殊训练(学习),重复测验中某些人在两次测验间受到特殊训练,或教育学习量不同,均会造成测量误差。反应倾向。独立于测验内容的反应倾向,也会使得本来能力相同的被试获得不同的成绩。对于速度测验,由于测验时间有限,而题量又较大,求快与求准两种不同倾

35、向会对测验成绩产生影响；对于是非题,某些人有偏好选“是”或选“非”的倾向。这些都会给测验成绩带来误差,为此在编制时一定要注意控制这些倾向的影响。生理因素。当被试在测试前失眠,或在生病、疲劳的状态下进行测试,也容易引起则量误差。能带来误差的因素还有很多实际上任何与测验无关的变因都可能引起误差。测验的标准化就是为了控制这些误差因素,使测验分数更可信、更有效。(3)控制测题数量要适中,要有代表性,能代表所要测量的内容。表达要简洁清晰,不要模棱两可。测试中,通常应告诉被试如何对测题作反应。主试是通过指导语指导并帮助被试理。解测验的施行要求、方法和步骤,并让受测者尽量放松心情,消除焦虑。4.测量误差的估

36、计（公式）（标准误，【04华中】，名）(1)系统误差仅与无限多次测量结果的平均值有关,而与在重复性条件下得到的不同测量结果无关。因此,在重复性条件下得到的不同测量结果应该具有相同的系统误差。由于系统误差和真值有关,而真值是无法确切知道的,只能用约定真值代替,因而可能得到的只是系统误差的估计值,并具有一定的不确定度。系统误差可以通过对测量结果进行修正而消除。由于误差等于负的修正值,因此系统误差的不确定度就是修正值的不确定度。(2)随机误差等于误差减去系统误差。因为测量只能进行有限次数,故可能确定的只是随机误差的估计值。若测量结果为无限多次测量结果的平均值,显然此时的随机误差为零,也就是说测量结果

37、中已经不含有随机误差分量,只存在系统误差。但实际上不可能进行无限多次测量,因而在测量结果中随机误差和系统误差分量都存在。在重复性条件下得到的不同测量结果具有不同的随机误差,但有相同的系统误差。(四)心理测验的项目分析（02西北师大，名）1.题目的难度(1)概念：难度就是项目(或题目)的难易程度。能力测验中常以该项目的通过(或答对)率表示,即以答对或通过该题的人数的百分比来表示：式中,代表试题难度；为全体被试人数；为答对或通过该题的人数。在非能力测验中,类似的指标是“通俗性”,即取自相同总体的样本中,能在答案范围内回答该题的人数。(2)难度的计算方法二分法记分的项目若试题为二分法项目(即答对给1

38、分,答错记0分)时,难度可以直接采用公式计算。当被试人数较多时,则可以根据测验总成绩将被试分成三组：分数最高的27%的被试为高分组(),分数最低的27%的被试为低分组(),中间46%的被试为中间组。分别计算高分组和低分组的通过率,再求试题的难度：其中代表难度,和分别代表高分组和低分组的通过率。非二分法计分的项目当测验项目为问答题或其他不能用二分法计分的形式时,常常对部分正确的反应也给一定分数。对于这类项目,一般用下面的公式计算难度：式中,为全体受测者在该题上的平均分,为该题的满分。(3)难度水平的确定在测验编制过程中,分析项目难度主要是为了筛选项目。项目的难度水平多高合适,取决于测验的目的、项

39、目的形式以及测验的性质。0.5上下浮动0.2。在教育工作中,有些测验的目的是为了考查学生对某些方面的知识、技能是否掌握,此时可以不考虑难度。当测验用于选人时,应该比较多地采用那些难度值接近录取率的项目。作为一个整体的测验的难度,直接依赖于组成测验的项目的难度。对整个测验的难度的综合性检验,可由分数的分布提供。当分数分布是正偏态,分数密集在低端,表明测验的难度偏高。当分数分布是负偏态,分数密集在高端,表明测验的难度偏低。2.题目的区分度（03华中师大，名）(1)概念：区分度是指项目对所测量的心理特性的区分程度或鉴别能力,也就是项目的效度。常以高分组与低分组在该项目得分的平均数的差异表示,或以该项

40、目得分与测验总分的相关表示。(2)确定区分度的方法确定区分度常用的是相关法,即以项目分数与效标分数(或测验总分)的相关作为项目区分度的指标,相关越高,区分能力越好。二列相关。二列相关适用于两个可以连续测量的变量,但其中有一个由于某种原因被分成两个类别。点二列相关。点二列相关适用于一个变量为连续变量,另一个变量为二分变量的资料。当一个变量是双峰分配时。尽管它并不是真正的二分变量,这种统计方法也适用。四分相关。四分相关适用于两个常态的连续变量均被人为二分的资料。如果一个题目分数被二分成通过不通过,效标成绩也被分成通过与不通过,这时就会得到四个类别,从而可组成一个四格表。计算四分相关最常用的是皮尔逊

41、的余弦公式。相关。相关的统计方法适用于两个变量都是点分配的资料,即两个变量都是二分名义变量。项目和总分相关重叠的校正。在做项目分析时,需要经常计算项目和总分的相关,这是一种局部和总体的相关,在一个测验中,只有当每一项目的变异数相同或项目非常多,以致每个项目所贡献的变异数比例都很微小时,才能把项目和总分的相关作为项目区分度的指标。如果不具备这些条件,最好计算每一项目和所有其他项目合成分数之间的相关。(3)鉴别指数的计算（项目鉴别指数的意义是什么，02华东师大，简答题）鉴别指数（04华中师大，名）的计算就是求区分度指标。当效标测量是一个连续变量(例如学业分数)时,可从分布的两端选出高分组()和低分

42、组(),然后将高分组和低分组通过每个项目的人数用百分比来表示,这两个百分数之间的差异就提供了题目区分度的指标。计算公式表示为：其中为鉴别指数,为高分组(27%)通过人数百分比,为低分组(27%)通过人数百分比。区分度的值亦具有相对性,与计算方法、样本大小、分组标准和样本的同质性有关。所以很难确定一个绝对的水平作为筛选项目的标准。对于教育成就测验来说,一般要求项目与总分的相关达到0.20以上,高分组与低分组通过率之差达到0.150.20以上。(4)区分度与难度的关系难度和区分度都是相对的,是针对一定团体而言的(绝对的难度和区分度是不存在的)。一般说来，较难的项目对高水平被试区分度高,较易的项目对

43、水平低的被试区分度高,中等难度的项目对中等水平的被试区分度高。这与中等难度的项目区分度最高的说法并不矛盾。由于人的多数心理特性呈常态分布,所以项目难度的分布也以常态为好,即特别难与特别容易的题目较少,越接近中等难度的题目越多,而所有项目的平均难度为0.50。3.题目的综合分析和筛选(1)鉴别力。取舍题目时,首先要看鉴别力。按照测题的鉴别指数与优劣之评鉴标准,0.30以上的项目是比较好的。(2)难度。值一般在0.35至0.65之间为好,但就整个测验而言,难度为0.5的测题应居多,也需一些难度较大或较小的测题。(3)选项。项目的选项分析是指对选择题后面所提供的几个答案的分析。选项分析的异常情况主要

44、有：正确答案无人选择,或少于其他选项人数；错误答案选的人太多；正确选项上高分组选择人数少于低分组；错误选项上高分组选择人数又多于低分组；某个选项无人选择；未答的人数较多。(五)心理测验的编制技术1.心理测验编制的基本程序编制的步骤主要有(1)拟订测验编制计划。包括确定测验的目的和目标内容、制定编题的双向细目表（内容以及所占的百分比）。（在编制学业成就测验时，确定双项细目表有何价值？06北师大，简答题）(2)编选测验题目。根据编题的双向细目表,编写测题,测题数应比最后所需的数目多一倍至几倍,以备筛选和编制复本。(3)试测和分析。选择与测验对象相近的团体进行试测,试测的实施与情境应力求与以后正式测

45、验的情况相类似,项目分析应从质和量两方面进行,并对不适当的题目予以修改或删除。(4)编排。编排题目有两种方式：一种是并列直进式,即将整个测验题按题目材料的性质归为若干份测验,同一份测验的题目依难度由易到难排列；另一种是混和螺旋式,即先将各类题目依难度分成若干不同的层次,再将不同性质的题目作交叉排列,难度递增。(5)建立常模。从将来要使用测验的全体对象中抽取标准化的样本进行施测,计算出平均得分,即为该测验的常模。(6)鉴定测验一是鉴定测验的信度以了解其可靠性或一致性；二是鉴定测验的效度,考验其有效性和正确性。（7）编制测验手册2.测验目标与命题双向细目表(1)测量目标概念：指所编制测验是用来测量

46、什么心理变量或行为特征的。测验目标必须具有操作定义,即目标要非常具体,如测量语文理解能力的目标可定为测量阅读时了解文义的能力。分析测量目标主要包括两个方面：一是确定能表征所欲测量的心理结构的行为；二是确定每一类行为的项目比例。(2)命题双向细目表概念：命题双向细目表是测验编制过程中的重要依据,即编题计划。它指出测验所包含的内容和要测定的各种技能,以及对每一个内容、技能的相对重要程度。用途：在编题阶段,命题双向细目表指出应该写多少和写哪些种类的题目,题目编好后可将题目的实际分布情况与测验计划对照,以确定测验题目是否恰当地代表了所要测量的领域,核对重要方面的内容是否有遗漏。在记分时可按表中百分比确

47、定每类题目的分数。3.题目编制技术要编制一套好的测验题目,需要掌握命题的原则和一般要领。(1)命题的一般原则试题要符合测验的目的。内容取样要有代表性。题目格式要简洁,不要使被试发生误解。文句要简明扼要,要避免使用艰深的字词。应有不致引起争论的确定答案(创造力测验、人格测验除外)。每个试题必须彼此独立,不要使一个题目的回答影响另一个题目的回答。题目中不可含有暗示本题或其他题正确答案的线索。题目内容不要超出受测团体的知识和能力范围。所提问题应避免涉及社会禁忌与个人隐私。施测与评分省时。(2)测题编制题目形式根据应答的方式,可以分成两大类,即自由应答型和固定应答型。自由应答型题目是让受测者用自己的语

48、言或行动来对某一问题做出回答,包括填充题、简答题、论文题、联想题等。固定应答型题目又称客观性题目,是让受测者从测验编制者事先定好的答案中辨认出正确答案,包括多选题、是非题、匹配题等。这种题目因为评分客观,所以在标准化测验中用得较多。（选择题中什么样的选项是可以被接受的？02华东师大论述）各种类型的题目均有自己的特点和编制原则,但在编制一套测验题目时应该遵循这些基本原则。 1.选择题（题干简明、选项扼要、答案唯一、选项等长、题干选项用词不一致、选项同一形式） 2.是非题（言之有据、每题一个概念、避免否定和双重否定、表达意见说明来源、“是”“非”基本相等） 3.简答题（用问句、空格不宜过多、只有一

49、个简短答案） 4.操作题（操作化、项目的真实性、指导语简明、制定评分标准）(六)心理测验的施测1.测验的设计测验的设计是指对测验的结构和内容、进行测验可达到的目的、测验结果可提供的信息、测验的适用范围、测验的心理测量学指标(考察测验的信度、效度以及常模或对照标准的有效性)等进行设计。进行心理测验前,主试应该充分了解测验的设计,根据考查目标,受测者特点,测验设计,选择合适的测验。测验的使用一般应按照测验手册严格执行。2.施测的程序和步骤心理测验的使用一般是由合格的心理测验专业工作者按下列顺序进行的,即依次为选择测验、施测、评分、测验结果的解释和报告及实际运用。(1)测验的选择测验的使用开始于测验

50、的选择。审慎挑选测验是避免测验误用的首要环节。选择与测验活动目的相符的测验,了解测试对象的受测条件,分析所选测验的特点。(2)测验的实施（主试应该注意什么？01华东师大，简答题）测验的实施是保证测验有效性的重要环节。其中的关键是如何使测验标准化和尽量控制测量误差。主试在测试前要熟悉测验的结构和内容及其使用方法,主试在测验前要把测验材料准备好,在测试前一定要认真核对每名被试的出生日期。标准化指导语（02西北师大，名）测验标准化的第一步是指导语标准化,即在测验实施过程中应该使用统一的指导语。对被试的指导语一般包括：如何选择反应形式(画钩、口答、书写等)；如何记录这些反应(答卷纸、录音等)；时间限制

51、；如果不能确定正确反应时该如何去做以及计分的方法；例题；有时告知被试测验目的。给主试的指导语通常单独印在另一张纸上。主要包括对测验细节的进一步解释及其他注意事项。施测顺序有效的测验结果有赖于主试遵从标准程序进行测试。各种测验都有一些具体的程序规定,在指导手册中都有详细说明。标准时限时限的确定,在很多情况下受施测条件(如课堂时间)以及被试特点(如老人、儿童、病人)的限制,但最重要的考虑因素是测量目标的要求。一般要通过预测来确定测验的时限。测验的环境条件测验的标准化不仅指指导语、时限、测验材料和其他测验本身的因素,也指施测的周围环境。良好的物理环境包括安静而宽敞的地点,适当的光线和通风条件。在测验

52、期间还要防止干扰。计算机辅助的测验实施计算机实施测验,其指导语可以通过视觉呈现或录音说明,测验的反应可以自动记录下来。有时当测验程序不太清楚时,计算机可以给被试更明确的指导。主试和被试间的良好的协调关系主试应该明白他的工作效果在很大程度上依赖于他与被试之间保持良好协调关系的能力。主试和被试的密切合作将有助于被试乐于表现各种能力和尽可能多的特点,提供更多的信息,从而达到测试的目的。(3)测验的评分评分实际上应包括在施测程序中,它是整个施测程序中的最后步骤,也是为被试测试结果的解释和报告做准备的。(4)测验结果的报告对测验结果的解释和报告采取慎重态度。还必须参照其他各项资料,应兼顾个体间差异与个体

53、内差异的分析。对于测验结果的分析,可从广度与深度的两个方面进行。(七)测验常模（03华中师大和05首师大，名）1.常模与常模团体(1)概念常模即指标准化样本的测验作业情况。常模团体是由具有某种共同特征的人所组成的一组群体,或是该群体的一个样本。它用一组标准的、规范的分数表示出来,以提供比较的基础。常模团体的一般平均分数就是常模。1.构成明确：小团体常模2.常模团体必须是所测群体的代表性样本；3.样本的大小要合适：全国性常模2000-3000为宜。4.标准化样组是一定时空的产物：地域性、时效性。（确定常模团体时，应注意哪些问题？【03北师大，简答题】）(2)建立常模的方法在将来要使用测验的全体对

54、象中,选择有代表性的一部分人(称标准化样本),对此样本施测并将所得的分数加以统计整理,得出一个具有代表性的分数分布。标准化样本的平均数,即为该测验的常模。(3)类别常模可因标准化时选取样本的不同而有不同的类别。常见的有年龄常模、年级常模、性别常模、地域常模、民族常模、职业常模等。2.分数转换与合成要使测验分数具有意义,并且使不同的原始分数（为什么说测验的原始分数不能用来解释测验的结果，02华东师大论述）可以比较,就要对它们进行适当的转化处理或者与参照标准加以对照。经过处理和对照参照标准得来的分数就是导出分数。(1)分数转换导出分数可用下面两种方法之一来描述：已经达到的发展水平：在某一特殊团体中

55、的相对位置。依照前者而来的常模可称之为发展性常模,后者为组内常模,对应的量表为发展性量表和组内量表。常用的发展量表有：智龄；年级当量(gradeequivalence)；顺序量表(ordinalscale)；发展商数。常用的组内量表有：百分量表(percentile)；标准量表(standardscale),如离差智商（05北师大，02西北师大，名）、t量表、标准分数等。(2)分数合成（测验分数为什么要合成？说明合成测验分数的主要方法，【03北师大，简答题】）（选择两种分数合成的方法，评述优缺点？06北师大，简答题）（临床、推理、多重分段、多重回归）在使用测验时,常常需要将几个分数或几个预测源

56、组合起来以获得一个合成分数或做出总的预测。分数的组合可以在不同层次上进行。题目的组合每个测验都包含许多独立的题目,把各个题目分数组合起来。不同的题目可以组成量表或分测验,而得到量表分或分测验分；所有题目也可以合成一个测验总分。分测验或量表的组合有些测验是由几个分测验或量表组成的,每个分测验或量表都有自己的分数,这些分数可以组合到一起得到一个合成的分数。测验或预测源的组合在做实际决定时,常常将几个测验或预测源同时使用。采用哪种组合方法取决于使用测验的目的。3.常模的编制(1)通过分析标准化样组的实际作业情况,可以建立常模。常模的可信度取决于样组的代表性和可靠性。前者又取决于样组的取样原则(坚持随

57、机取样)和容量大小。(2)标准化样组的条件标准化样组的成员必须给予确切的定义。标准化样组的成员必须都是具有某一研究多特征的个体。标准化样组必须是欲测量的全域的一个代表性样组。取样的过程必须有详细的描述。它是说明样组代表全域的程度。标准化样组的规模要有适当的大小。一般来说,取样误差与样本大小成反比。所见在其他条件相同的情况下,样本越大越好。但也要考虑具体条件(如人力、物力)的限制。在有代表性的前提下,样本应该大到足以提供稳定的常模值。究竟应该大到多少,可根据要求的可信程度与容许的误差范围进行统计推算。标准化样组是一定时空的产物。我们在一定的时间和空间中抽取的标准化样组,它只能反映当时当地的情况。随着时间的推移、地点的变更,标准化的样组就失去标准化的意义,这样,常模就不适合现时现地的状况,就得进行修订。

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

《心理与教育测量》大纲知识要点

文档简介

温馨提示

最新文档

评论

《心理与教育测量》大纲知识要点

文档简介

温馨提示

最新文档

评论

相关文档