心理测量课件(中科院word版)_第1页
心理测量课件(中科院word版)_第2页
心理测量课件(中科院word版)_第3页
心理测量课件(中科院word版)_第4页
心理测量课件(中科院word版)_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

PAGEPAGE6心理测量学第一章绪论第一节心理测量的历史一、国外心理测量的历史(一)测量产生于实际社会的需要

法国医生沈干(Seguin)训练智力落后儿童(1837年)

法国医生艾斯克罗尔(Esqurol)对智力落后和精神病人的区分(一个人驾驶语言的能力,是他智力水平的最可靠的标志);(二)冯特的实验心理学

冯特建立第一个心理学实验室(1879年);

观察的个体差异:格林威治天文台观察员的遭遇(1796);(三)高尔顿的遗传理论测量达尔文的表兄弟,皮尔逊(Pearson)的老师,《遗传的天才》,人类测量实验室,高尔顿棒,高尔顿笛高尔顿发现,白痴对于热、冷、痛鉴别能力较低。他还说:感觉辨别力“基本上是心智能力中最高的能力。”

(四)卡特尔的个别差异研究冯特的学生,高尔顿的朋友。首次提出“心理测验”(mentaltest)这一术语;《心理测验与测量》(五)比纳和比纳-西蒙智力量表的产生第一个智力测验量表——比内-西蒙量表(1905年量表)—1908年量表—1911年量表美国心理学家Pintner说:“在心理学史上,假使我们称冯特为实验心理学的鼻祖,我们不得不称比奈为心理智力测量的鼻祖。”波林说:“19世纪80年代是高尔顿的10年,90年代是卡特尔的10年,20世纪头10年则是比内的10年。”(六)心理测量的蓬勃发展与应用1.智力测验的发展比内-西蒙量表——斯坦福-比内量表(比率智商)

叶克斯(Yerkes):陆军甲种测验、陆军乙种测验(1917~1919)——20年代智力测验运动的狂热

斯皮尔曼的因素分析法和“二因素理论”——瑞文推理测验(30年代)韦氏智力量表(40年代~60年代)(离差智商)2.能力倾向测验的发展:特殊能力测验(音乐、文书、机械、美术)3.成就测验的发展桑代克编制了第一个标准化的教育成就测验,因此被认为是教育测验的鼻祖。(20世纪初)斯坦福成就测验(1923)ETS(EducationalTestingService)教育测验服务中心4.人格测验的发展最早进行人格测量——克雷培林(Kraepelin)用自由联想法诊断精神病人。最早的人格问卷——武德沃斯的“个人资料调查表”(诊断士兵神经症)“卡特尔16种人格问卷”(16PF)“艾森克人格问卷”(EPQ)“明尼苏达多项人格调查表”(MMPI)罗夏墨迹测验主题统觉测验(TAT)美国心理测验的三个发展期

1904~1915,Thorndike出版《精神与社会测验学导论》:“凡是存在的东西都有数量;凡是有数量的东西都可测量”(数量化,客观化和标准化)。

1915~1930,学历测验,智力测验(IQ),和人格测验大量出现。

1930~1940,从单纯测验法向心理评估和教育评价过渡(综合应用评定法;问卷法;交谈法;轶事记录法等)心理测量的历史发展趋势1先是以解剖生理特征为根据,而后转向对心智活动的测量;2由测量简单的感知能力,发展到测量复杂的认知能力;3由笼统的单一量数转变为以多个量数来评定个别差异,4心理测量与实验心理学由合到分,又到合。心理测量的当代趋势信息加工测验的产生;计算机化测验的产生;项目反应理论和概化理论的兴起。二、我国心理测量发展的历史(一)我国古代的心理测量能力测量孔子:中上之人、中人、中下之人董仲舒:一手画方,一手画圆(分心测验)刘邵:12种人才类型抓周七巧板、九连环人格测量孔子:狂者、狷者、中行刘邵:12种性格类型教育测量西周:小成,大成汉代:太学考试(口试、策试、射策)隋朝:科举考试对测验理论的最初探索刘邵:九征,八观,五视“居,视其所安;达,视其所举;富,视其所与;穷,视其所为;贫,视其所取。”中国古代心理测量思想的特点:

描述性

分类式

注重整体评价,和人的道德品质联系起来

实用性(二)中国心理测验简史(解放前)

1914年,Creighton比较中美儿童智力差异(广州,500人)

1917年,樊炳清介绍“比内-西蒙智力量表”

1918年,Walcott用推孟修正量表施测(清华)

1918年,俞子夷编制“小学生毛笔书法量表”

1920年,廖世承、陈鹤琴在南京开设测验课

1921年,廖世承、陈鹤琴合作出版《心理测验法》一书

1921年,费培杰将比内智力测验翻成中文

1922年,张耀翔在北京将心理测验列为入学考试科目

1924年,陆志伟发表《订正比内西蒙智力测验说明书》;

1931年6月,在南京成立中国测验学会

1932年,《测验》杂志创刊。

1935年,沈有乾用“朋洛德人格问卷”测量中国学生。

1936年,陆志伟和吴天敏进行第二次修订比内西蒙智力测验。

1937年,周先庚使用“塞斯顿情绪稳定性测验”

1943年,林传鼎试用“普莱西X-O测验”

1948年,刘范试用“罗夏克墨迹测验”。(三)中国心理测验简史(解放后)

1979年,林传鼎,吴天敏,张厚粲在武汉举办全国测验培训班;

1979年,龚耀先主持修订“韦克斯勒成人智力量表”;

1979年,林传鼎、张厚粲编制“少年儿童学习能力测验”;

1980年,林传鼎、张厚粲主持修订“韦克斯勒儿童智力量表”;

1980年,北师大开设心理测验课;

1980年,张厚粲开始对高考试卷做系统分析;

1981年,刘绍衣修订“卡特尔16种人格因素问卷”;

1982年,吴天敏第三次修订中国比内测验;

1982年,宋维真修订“明尼苏达多相人格调查表”

1992年,宋维真编制“心理健康调查表”;

1992年,沙毓英等编制“学生性格量表”;

1993年,宋维真等编制“中国人个性测量表”(CPAI);

80年代,编制超常、弱智儿童筛查量表;0~3(6)岁儿童发育、发展量表;CPM领导行为评价量表MMPI-2第二节心理测量的性质一、测量的基本概念(一)测量的定义测量就是依据一定的法则,使用量具对事物的特征进行定量描述的过程。

一定的法则

事物的特征

量具

定量描述测量精确度的影响因素:测量对象的性质:确定型、随机型、模糊型测量工具的精密性测量的类型:物理测量、生理测量、社会测量、心理测量(二)测量的基本要素1参照点绝对参照点(绝对零点)相对参照点2单位好的单位须符合两个条件:确定的意义,即同一单位对所有人来说意义相同。相等的价值,即第一单位与第二单位之间的距离等于第二单位与第三单位之间的距离。(三)测量的量表使事物的特征数量化的数字的连续体就是量表(scale)。Stevens将量表从低到高分为4个等级。1命名量表(NominalScale)用数字来代表事物或对事物进行分类。代号类别数字只是一种名称的替代物。不同的个体用不同的数字标志。如球员的号码,各种分类标志(男或女;正常或异常,等)2顺序量表(OrderScale)给个体赋值,使数值的大小次序与个体在所测量的心理特性上的多少、大小、高低等的次序相符合。次序量表在心理和教育中十分常见(如竞赛成绩排名等)3等距量表(IntervalScale)给个体赋值,使数值间的差不仅能够反映出对应个体在所测量心理特性上的排序,而且能够反映出对应个体在该特性上的差异程度。(如温度计,偏爱程度等)但建构间距量表不是容易的事,常常只能做到次序量表。4比率量表(RatioScale)给个体赋值,使数值间的比率能够反映对应个体在测量心理特性上比率。(如身高、体重、速度等)。但在心理学中是极少见的。心理测量通常都是次序量表,为方便比较,通常把次序量表转换为等距量表。测量量表的等级(功用)

命名量表:识别、区别个体;

次序量表:识别、区别个体;按特性排序个体;

间距量表:识别、区别个体;按特性排序个体;指出个体特性的差异;

比率量表:

识别、区别个体;按特性排序个体;指出个体特性间的差异;指出个体特性间的比率。二、心理测量的基本概念(一)心理测量的理论基础

孟子说“权,然后知轻重;度,然后知长短;物皆然,心为甚。”

Thorndike:“凡客观存在的事物都有其数量。”

McCall:“凡有数量的东西都可以测量。”心理测量的准确性、可靠性、精确度还有待提高,但测量不准不等于不能测量,现在测量不准也不意味着将来永远测不准。(二)心理测量的定义

心理特质具有内隐性,只能通过人的外显行为来推断。Anastasi:“心理测验实质上是对行为样本的客观的和标准化的测量。”Brown:测验是“测量一个行为样本的系统程序。”书本:依据一定的心理学理论,使用测验对人的心理特质进行定量描述的过程。郑日昌:心理测验就是通过观察人的少数有代表性的行为,对于贯穿在人的全部行为活动中的心理特点作出推论和数量化分析的一种科学手段。1行为样本从总体行为中抽取出来的、能够反映个人特定心理特质的一组行为,作为直接的测量对象。

取样研究的有效与否,关键在于样本的代表性,即不是任何部分都可代表全体。

构成样本的行为应当是系统的,有理论思考的;

不可能包括所有可用来测量或定义某种心理特性的具体行为;

因此,心理测验质量的高低很大程度上决定于行为样本的代表性。

只有在全部了解行为样本的意义以后,才能正确使用心理测验。心理测量的最终目标不是对行为样本的测量,而是通过行为样本的测量来预测被试以后将会出现的行为。行为样本与所要预测的行为并不一定相似,可以相似,也可以完全不同。如投射测验和能力倾向测验,其测查的行为与将来要预测的行为有很大的差异,但两者之间有必然的联系(相关)。2标准化测验内容的标准化施测条件的标准化测验情境、指导语、测验时限评分规则的标准化测验常模的标准化3难度或通俗性4信度和效度(三)按测验材料分类1.文字(纸笔)测验2.非文字(操作)测验文化公平测验(四)按测验的目的分类1.描述测验2.诊断测验3.预示性测验第三节心理测验的种类和功能一、心理测验的种类(一)按测量的功能分类1.能力测验智力测验、特殊能力测验、能力倾向测验2.学绩测验已获得的学业成就3.人格测验兴趣、态度、动机、气质、性格(二)按测量的对象分类1.个别测验优点:获得的信息多;容易建立融洽的合作关系;特殊被试(幼儿、盲人)缺点:费时、复杂、对主试要求高。2.团体测验优点:缺点:(三)按测验材料分类1.文字(纸笔)测验2.非文字(操作)测验文化公平测验(四)按测验的目的分类1.描述测验2.诊断测验3.预示性测验(五)按测验的难度和时限分类1.难度测验2.与速度测验

(六)按测验的要求分类1.最高行为测验2.典型行为测验(七)按测验的性质分类1.构造性测验2.投射性测验(八)按测验的应用分类1.教育测验2.职业测验3.临床测验(九)按评价所参照的标准分类1.常模参照测验2.标准参照测验内容参照测验结果参照测验二、心理测验的功能双刃剑(一)理论研究功能1.收集研究资料

2.建立和检验理论假设3.实验分组二)实际应用功能1.选拔人才2.人员安置3.心理诊断4.描述评价5.心理咨询第四节心理测量工作者的素质要求及道德准则一、心理测量工作者的素质要求(一)心理测量工作的知识结构基础知识:专业知识:(二)对心理测验的科学态度错误观念:万能论无用论心理测验就是智力测验(心理测验=智力测验=智商=遗传决定论)对待测验的正确态度:心理测验是研究心理学的重要方法之一,是决策的辅助工具;心理测验作为研究方法和测量工具尚不完善;防止乱编和滥用心理测验。二、心理测量工作者的道德准则(一)测验的保密和控制使用测验信息和样题的公布

有助于消除公众对心理测验的神秘感及误解有关测验的技术程序以及信度、效度和其他测验属性应向所有人公开

让受测者熟悉测验,以消除焦虑,保证测验结果的准确性

对测验结果的反馈(二)测验中个人隐私的保护第二章心理测验的编制第一节编制心理测验的基本程序一、确定测验目的(一)明确测量对象

年龄、性别、职业、受教育程度、经济状况、民族、文化背景等。(二)明确测量目标

心理变量或行为特征。必须有操作定义,目标要非常具体。(三)明确测量用途

用于描述、还是诊断,或用于预测二、制定编题计划通常是一张双向细目表,指出测验所包含的内容和要测定的各种技能,以及对每一个内容和技能的相对重视程度。例:小学自然常识测验编题计划三、编辑测验项目(一)收集测验资料(1)资料要丰富(2)资料要有普遍性(3)资料要有趣味性(二)选择项目形式

纸笔测验还是操作测验?是客观题还是主观题?概念和原理的记忆——简答题辨别和判断——选择题综合运用——论文题幼儿——口头测验文盲、半文盲、聋哑——操作测验人多、经费有限——团体测验人少——个体测验(三)编写测验项目题目范围要与双向细目表一致;题目数量要比最终所需要的数量多,以便筛选或编制复本;题目的难度应有一定的分布范围;用词力求清楚明白。四、试测与项目分析试测取样施测过程与施测情景时限可稍宽一些项目分析质的分析:内容取样、题目的思想性、表达是否清楚量的分析:难度、区分度、备选项分析五、合成测验(一)测验项目的选择指标有三:要选择那些能够测量所要测量的东西的项目;难度区分度(二)测验项目的编排

并列直进式混合螺旋式(三)编制复本

各份复本必须等值。等值要符合下列条件:各份测验测量的是同一种心理特性。各份测验具有相同的内容和形式。各份测验的题目不应重复。各份测验题目数量相等,难度和区分度大体相同。各份测验的分数分布(平均数和标准差)大致相等。复本编好后,应再测一次,以确保各份测验的等值。六、测验标准化测验的标准化是指测验的编制、实施、评分以及分数解释都有统一的标准,以减少无关因素对测验的影响。(一)测验内容指测验内容对所有被试都一样。(二)施测过程测验情景指导语时限(三)测验评分为使评分尽可能客观,有三点要求:对被试反应的及时和清楚的记录。特别是对口试和操作测验。要有一张标准答案或正确反应的表格,即计分键。将被试的反应和计分键比较,对反应进行分类。(四)测验分数的解释常模参照标准参照:内容参照,结果参照七、鉴定测验(一)信度(二)效度(三)测验量表与常模八、编写测验说明书测验的目的和功用;编制测验的理论背景以及选择题目的根据和测验的构成;测验的实施方法、时限及注意事项;测验的标准答案和评分方法;测验的信度和效度资料;常模资料。第二节测验题目的编制技术一、命题的一般原则试题要符合测验的目的。内容取样要有代表性。题目格式不要使被试产生误解。文句要简明扼要,既排除与解题无关的因素,又不可遗漏解题所依据的必要条件。要避免使用艰深的字词。应有不致引起争论的确定答案(创造力测验、人格测验除外)。各个题目必须彼此独立,不可互相牵连,不要使一个题目的回答影响另一个题目的回答。题目中不可含有暗示本题或其他题正确答案的线索。题目内容不要超出受测团体的知识和能力。所提问题应避免涉及社会禁忌与个人隐私。施测与评分省时。二、测题的种类及编制固定应答型题目,即客观题,包括:选择题、是非题、匹配题等。自由应答型题目,即主观题,包括:填充题、简答题、应用题、论文题、联想题、操作题等。(一)选择题题干+选项(正确选项与诱答选项)多项条件选择题:例如:已知小明的心理年龄是8岁4个月,实际年龄是9岁,其智商是多少?(a)85(b)90(c)92(d)92.6(e)100类别选择题例如:艾森克是著名的_______心理学家。(a)儿童(b)工程(c)管理(d)人格(e)社会异类选择题例如:下面哪位与其他人不属于同一类人?(a)小布什(b)普京(c)胡锦涛(d)希拉克(e)科尔多项是非选择题例如:下面两个陈述哪一个正确?(1)2008年奥运会在北京举行。(2)美国首都是费城。(a)1和2都对(b)1对2错(c)1错2对(d)都错因果条件选择题例如:如果测验的真方差增加,但误差方差不变,结果是:(a)测验信度增加(b)测验信度下降(c)测验总方差减小(d)测验的信度和总方差不变选择题的优点:适用范围广;计分客观;题意明确。缺点:编制诱答选项较难;答案固定,测量范围有限。编写选择题的原则:题干所提的问题必须明确选项要简短,必要的叙述或相同的修饰语应放在题干中;每个选项的性质要一致;选项最好按逻辑顺序排列;选项之间不应有重叠;诱答选项的错误不要太明显;不要把选项夹在题干中间;每题只能围绕一个中心,不能有歧义。(二)是非题每题只包含一个概念,避免两个以上的概念在同一题中出现,造成题目似是而非,或半对半错。避免使用具有暗示性的特殊词语,如“绝对”、“完全”、“有时”、“可能”等。尽量采用正面肯定的叙述,避免反面陈述或双重否定的句子。如“生物没有不是由细胞组成的。”“是”与“非”的题数应大致相等,且随机排列。(三)论文题对答题有时间限制;不要有任选的题目,因为两题很难做到等值;客观、统一的评分细则。第三章测验的实施和计分第一节测验的实施一、测验实施前的准备工作向被试预告测验:测验的时间、地点、内容,让被试做好心理准备。熟悉测验程序:测验内容、施测步骤、记分方法、分数解释。准备测验材料。准备测验环境:通风、采光、噪声、桌椅高度、桌面大小、挂牌以防止意外干扰等。熟悉测验的指导语:告诉被试如何选择反应形式(划勾还是涂黑),说明时间限制,例题演示,有时告知被试测验目的。二、测验的具体实施按测验手册要求实施测验。控制测验焦虑,不讲威吓被试的话。与被试建立良好的协调关系(rapport)。及时和清楚地记录被试的反应。对特殊问题有所准备(如作弊、被试不配合等)。第二节测验的计分和分数的合成一、计分的一般程序(一)计分的基本步骤1及时和清楚地记录被试的反应2制作标准答案,也称计分键3将反应和计分键相比较,给反应归类或赋予分数值(二)论文题计分盲审多个主试评分细分计分标准(三)客观题计分人工计分和机器计分猜测校正公式S=R-W/(K-1)

S—校正后的分数;R—被试答对的题目数;W—被试答错的题目数;K—选择项目数是否需要对猜测进行校正?赞成的理由:反对的理由:(二)测验分数的合成1分数合成的种类(1)项目的组合把各个题目得分相加,得到量表分或分测验分。分等量加权和不等量加权。(2)分测验或量表的组合把各个分测验得分相加,得到量表总分。(3)测验或预测源的组合

同时运用多个测验得分进行预测2分数合成的方法(1)临床诊断——直觉合成

从整体上进行的定性分析,灵活性强,有针对性。(2)加权求和合成单位加权:各原始分相加Xc=X1+X2+X3+……+Xn等量加权:如果各个分数重要性相等,用标准分相加即可;Zc=Z1+Z2+Z3+……+Zn如果各个分数的重要性不一样,就要根据重要性不同,赋予不同的权重,即加权系数。Zc=W1Z1+W2Z2+W3Z3+……+WnZn(3)多重回归用多种预测源分数(测验分数)来预测未来结果。Ŷ=a+b1x1+b2x2+b3x3+……+bnxn

(4)多重分段高中毕业合格→政审合格→体检合格→高考合格→录取不合格不合格不合格不合格↓↓↓↓淘汰淘汰淘汰淘汰(5)轮廓分析(剖面图分析)在MMPI中,如果在量表2和量表7上分数高,即27/72,说明抑郁、焦虑不安,有神经症。第四章测验结果的解释原始分数与导出分数原始分数(rawscore):将被试的反应与标准答案相比较而获得的测验分数。原始分数本身没有多大意义。导出分数(derivedscore):按照一定的规则,针对原始分进行统计处理后获得的分数。导出分数具有一定参照点和单位,可以相互比较。根据解释分数时的参照标准不同,可以将导出分数分为两大类:常模参照分数标准参照分数:包括内容参照分数,结果参照分数。第一节参照常模的分数解释参照常模解释分数,通常是将被试的分数直接或间接地以在某个团体中的相对等级或相对位置来表示。这个用来比较的参照团体,称为常模团体(normgroup)。常模团体的分数分布,就是常模(norm)。一、常模团体的组成(一)常模团体的性质由具有共同特征的人所组成的一组群体,或是该群体的一个样本。任何一个测验,都有许多可能的常模团体。在制定常模时,首先要确定常模团体。在对常模参照分数做解释时,也必须首先考虑常模团体的组成。(二)确定常模团体的注意事项1群体构成的界限必须明确对每个常模团体的性质和特征的简短且明确的描述。2常模团体必须是所测群体的代表性样本克服取样偏差,采用正确的取样方法:随机取样,系统抽样,分层取样。3取样的过程必须明确且有详尽的描述在测验手册中,有关取样的大小、取样方法、取样时间等的说明和描述,越明确、越详尽越好。4样本大小要适当从统计学原理上说,样本是越大越好,但考虑到经济、实用,样本数量也不能无限扩大。样本大小可以根据以下几方面来确定:常模总体的数目。总体数目小,则样本数目也小;总体数目大,样本数目也应大。一般来说,样本最好应有30~100人;如果是全国性常模,一般应有2000~3000人为宜。总体性质。总体性质越复杂,样本容量就越大。测验结果的精确度。精确度要求越高,样本量就越大。5常模团体必须是近时的。6注意一般常模与特殊常模的结合二、常模参照分数(normreferencedscore)主要有:发展量表、商数、百分位、标准分数四大类。(一)发展量表1.心理年龄(mentalage)(智力年龄)指被试智力发展水平的年龄。单位是年(或岁)和12个等距的月。年龄量表最基本的假设是,随年龄的增长,所测量的特质有系统的改变。因此,不适用于成人。年龄量表的基本要素:(1)题目:可区分不同年龄组;(2)常模团体:由各个年龄被试组成的有代表性样本;(3)常模表2.年级当量(gradeequivalents)即年级常模,用年级代替年龄,指把学生的测验成绩与各年级学生的平均成绩比较,看他相当于几年级的水平。年级常模的单位通常为10个月间隔。如5年级的分布为5-0到5-9。年级当量只适用于一般课程,不适合只学1~2年的课程。年级当量只适用于解释本学年的水平,不适用于跨学年的。如一个五年级学生的年级当量为8,并不能说他已经掌握了8年级的课程。3.发展顺序量表(ordinalscales)格塞尔发展顺序量表格塞尔认为,婴幼儿的行为系统的建立是一个有次序的过程,反映了神经系统的不断成长和功能的分化,因而可以把每个成熟阶段的行为模式作为智能诊断的依据。4周不能控制头部,仰卧姿势左右不对称16周颈可竖直,头微摇动,仰卧姿势左右对称28周扶起独坐,身体前倾40周可独坐,爬行,扶着物件站立52周搀一手行走,摇摆皮亚杰量表用特定的任务来揭示儿童发展处于哪个阶段。发展量表的优点:以年龄或年级当量为单位来报告分数,易于被人理解。可与同辈团体做直接比较。为个人内比较与纵向研究提供了基础。缺点:只适用于随年龄发生系统变化的心理特质的测量,对成人不合适。只适用于在典型环境下成长的儿童。发展量表的单位在各年龄、各年级并不相等,无法做代数运算。获得同样的年龄或年级当量分数,并不一定具有相同的智力或学业成就。(二)商数(quotient)1.比率智商IQ=100(MA/CA)缺点:实龄是等距的,而智龄不等距(智力发展不是直线的)计算成人智商时,以多大实龄作为除数?智力生长何时达到顶点?不同年龄组,比率智商分数具有不同的标准差,因而相同的比率智商对于不同年龄具有不同的意义。2.教育商数

EQ=100(EA/CA)儿童所受的教育相当于某个年龄儿童所受教育的平均水平,则他的教育年龄就是几岁。3.成就商数AQ=100(EQ/IQ)用于说明智力发展与教育发展是否同步。(三)百分位1百分等级(percentilerank)概念某个分数的百分等级就是得分低于这个分数的人数的百分比。百分等级指示个体在常模团体中的相对位置。百分等级越低,个体所处的地位越低。计算(1)未分组分数资料PR=100-(100R-50)/N(2)分组分数资料PR=100/N[(X-L)f/i+Fb]2百分点相对于某一百分等级的分数点叫百分点或百分位数。3十分位百分点将分数分布分成100个等份。十分位是将分数分成10个等份。十分位提供一个10级的等级量表,每一级包括10%的分数。百分位的评价优点:容易计算,容易解释。对于各种被试和各种测验普遍适用。缺点:缺少相等单位,属于顺序量表,不能做加减乘除运算。(四)标准分数(standardscore)1Z分数。Z=(X-X)/S不仅具有可比性,还具有可加性。Z=0SZ=1,-3~+3之间,约占总体的99.73%除了Z分数外,还可以把Z分数转换成T分数、标准九、离差智商等。转换方法:线性转换:从正态到正态非线性转换:从偏态到正态(通过百分等级)2T分数纪念Terman和Thorndike。

T=10•Z+50平均数为50,标准差为103标准九(stanine)标准化九级分制标准九=5+2Z,即平均数为5,标准差为24离差智商(deviationIQ)IQ=100+15Z5CEEB分数(CollegeEntranceExaminationBoard)美国大学入学考试委员会分数

CEEB分数=500+100Z6EPT分数

EPT分数=90+20Z标准分数变式的评价优点:转换成等距量表,使进一步统计分析成为可能。都可以转换成百分等级,使得不同分数之间可以进行比较。缺点:外行难以理解;如果非正态分布,不同变式的分数之间无法比较与求和。三、呈现常模资料的方法(一)转化表转化表的3个基本要素:原始分、导出分、常模团体的特征描述。1.简单转化表2.复杂转化表(二)剖析图三)常态百分位图表分数以百分等级来表示,而分数轴的距离以标准分数为单位。把百分等级与标准分结合起来使用,具有双重优点。第二节参照标准的分数解释一、内容参照分数(contentreferencedsocre)内容参照又叫范围参照,是看被试对指定范围中的内容和技能掌握得如何。1掌握分数(masteryscore)要想知道被试对一些基本的知识和技能是否掌握,需要制定一个最低的掌握标准,这个标准就是掌握分数。如果一个人达到了这个分数,就说明他已经掌握了这种知识和技能。一般以80%~90%的正确回答作为最低标准。掌握测验只分掌握(通过)和未掌握(未通过),没有具体的得分。2正确百分数如果需要了解被试对知识和技能的掌握程度,就需要报告被试在测验中的正确百分数。正确百分数=100•(答对题目数/总题目数)3等级评定量表有些知识和技能是无法通过回答问题来确定其水平,需要主试对被试的知识或技能进行等级评定。如书法、绘画、体育等。二、结果参照分数(outcomereferencedscore)也叫效标参照分数,即用效标行为的水准来表示的分数,用来对被试未来行为的预测。1期望结果的概率通过原始分或标准分来推测将来成功或失败的概率。期望表期望图2预期的效标分数回归方程:GPA=0.11ACT-0.35第三节被试测验分数的具体解释测验分数解释的类型:描述的解释溯因的解释预测的解释评价的解释分数解释的基本原则主试应充分了解测验的性质与功能。对导致测验结果的原因(遗传、经验、测验情景)的解释要慎重,谨防片面极端。必须充分估计测验的常模和效度的局限性。解释分数应参考其它有关资料(受教育经历、文化背景、面谈内容、习惯、态度、兴趣、动机、健康、言语能力以及其他测验资料)。对测验分数应以“一段分数”来解释,而不应以“特定的数值”来解释。对来自不同测验的分数不能直接加以比较如何向受测者报告测验分数使用当事人所理解的语言。要保证当事人知道这个测验测量或预测什么,但并不需要作详细的技术性解释。如果分数是以常模为参照的,就要使当事人知道他是和什么团体在进行比较。要使当事人认识到分数只是一个估计。要使当事人知道如何运用他的分数。要考虑测验分数将给受测者带来什么影响。测验结果应向无关的人员保密。对低分者的解释应谨慎小心。报告测验分数时应设法了解当事人的心理感受,并采取适当的措施加以引导。第五章经典测验理论的基本假设第一节心理特质及其可测性假设一、心理特质的含义心理特质就是表现在一个人身上所特有的相对稳定的行为方式。

一组内部相关的行为的概括,如善良、聪明;

比较稳定,对不同的刺激做相同的反应;

通过特质可以对人的行为作出预测;

特质可以分为多个层次,智力可以分语言和操作,语言可以分为词汇和文法。二、心理特质的可测性

Thorndike“凡客观存在的事物都有其数量。”

McCall“凡有数量的东西都可以测量。”第二节测量误差及其来源一、测量误差的含义测量值与实际值的差异二、测量误差的种类系统误差:测量工具本身引起的误差(稳定);随机误差:由不稳定因素引起的误差(不稳定)。三、测量误差的来源(一)测量工具(测验内部)引起的误差1题目取样2指导语3难度4时限5测验复本不等值(二)由测量对象引起的误差1测验的经验2练习因素3应试动机4测验焦虑5反应定势6生理因素(三)由施测过程引起的误差1物理环境2主试者方面3意外干扰4评分计分第三节真分数及其有关的假设一、真分数的含义真分数(TrueScore):一个测量工具在没有测量误差时,所得到的纯正值。操作定义:经过无数次测量所得到的平均值。观察分数(ObservedScore):二、数学模型及其假设X=T+E

测量误差的假设:Σ(X)=T或Σ(E)=0ρ(T,E)=0ρ(E1,E2)=0SX2=ST2+SE2ST2=SV2+SI2SX2=SV2+SI2+SE2第六章测量的信度第一节信度概述一、什么是信度?信度(reliability)是指测量结果的稳定性程度,也叫测量的可靠性。操作定义:rxx=ST2/SE2

rXX=ρTX2

rXX=ρXX’注意:(1)信度指的是一组测验分数或一系列测量的特性,而不是个人分数的特性;(2)真分数的变异数是不能直接测量的,因此信度是一个理论上构想的概念,只能根据一组实得分数作出估计。二、信度系数与信度指数信度指数:相关系数信度系数:相关系数的平方注意:(1)信度系数有多种。(2)同一种信度系数也会因样本、测查时间不同而有多个。(3)信度系数只是对测量分数一致性的估计,但并没有指出不一致的原因。(4)获得较高的信度只是测验有效的必要条件。三、信度的作用信度是测量过程中所存在的随机误差大小的反映1.信度可以用来解释个人测验分数的意义SE=SX√1-rXX真分数的置信区间(95%)=X±1.96SE2.信度可以帮助进行不同测验分数的比较第二节信度的估计方法一、重测信度1.含义和计算重测信度(test-retestreliability)是指用同一量表对同一组被试施测两次所得结果的一致性程度。皮尔逊积差相关系数误差来源:测量时间不同所带来的随机误差2.使用的前提条件所测量的心理特质必须是稳定的;练习和遗忘的效果基本上相互抵消;在两次施测的间隔时期内,被试在所要测查的心理特质方面没有获得更多的学习和训练。二、复本信度1.含义和计算复本信度(Alternate-formreliability)是指两个平行的测验测量同一批被试所得结果的一致性程度。皮尔逊积差相关系数等值性系数:两个复本测验是同时连续施测的稳定等值系数(重测复本信度):两个复本测验是相距一段时间分两次施测的。2.使用的前提条件

两测验真正平行;

被试要有条件接受两个测验三、分半信度1.含义和计算分半信度(split-halfreliability)是指将一个测验分成对等的两半后,所有被试在这两半上所得分数的一致性程度。校正后的皮尔逊积差相关系数校正公式:斯皮尔曼-布朗公式rxx=2rhh/(1+rhh常见的分半方法是按测题序号奇偶分半:

测验题目按某种顺序(如难度)排列;

如果是随机排列的题目,则必须是所有题目是平等的(要么难度相等,要么性质一致,是测同一个心理特质的);

如果测验有多个分量表,应在分量表内部排好顺序,再把各分量表的两半组合起来求相关。弗朗那根公式:rxx=2[1-(Sa2+Sb2)/Sx2]卢仑公式:rxx=1-Sd2/Sx2

2.使用的前提条件一个测验可以分为对等的两半时四、同质性信度1.含义同质性信度(homogeneityreliability),也叫内部一致性系数,是指测验内部所有题目间的一致性程度。2.计算及适用范围rxx=K/rij[1+(K-1)rij]KR20公式:rxx=[K/(K-1)][1-(Σpiqi)/Sx2]pi为答对第i题的人数的比例;qi为答错第i题的人数的比例。K为题目数,Sx2为测验总分的变异。KR21公式:rxx=[K/(K-1)][1-(Kpq)/Sx2]克龙巴赫α系数:α=[K/(K-1)][1-(ΣSi2)/Sx2]菏伊特信度:rxx=1-MS人×题/MS人因素分析一般用于预测的测验或学绩测验可不考虑同质性。而验证理论构想时必须考虑同质性。因此,同质性不但与信度有关,还与效度有关。五、评分者信度1.含义和计算评分者信度(scorerreliability)是指多个评分者给同一批人的答卷进行评分的一致性程度。2人时:相关系数多人时:肯德尔和谐系数W=12[ΣRi2-(ΣRi)2/N]/[K2(N3-N)](评分者人数K=3~20;被评者人数N=3~7时,查W表检验)RI为第i个被试被评的水平等级之和若N>7,用χ2检验。χ2=K(N-1)W,df=N-1若评分中有相同等级时,需校正:W=12[ΣRi2-(ΣRi)2/N]/[K2(N2-N)-KΣΣ(n3-n)/12]第三节提高测量信度的方法一、影响测量信度的主要因素(一)被试方面被试团体同质性越高(个体差异越小),所得相关系数(信度)就越低。被试团体异质性越高(个体差异越大),所得相关系数(信度)就越高。

(二)主试方面

指导语、态度、期望、评分主观等(三)施测情境四)测量工具测验长度:测验越长,信度越高。测验难度:过难或过易都会使个体间得分差异减小,降低信度。测验内容:试题取样不当,内部一致性低,题意模糊,信度则低。(五)两次施测的间隔时间间隔时间越短,信度越高;间隔时间越长,信度越低。二、提高测量信度的常用方法1.适当增加测验的长度2.使测验中所有试题的难度接近正态分布,并控制在中等水平3.努力提高测验试题的区分度4.选取恰当的被试团体,提高测验在各同质性较强的亚团体上的信度5.主试者严格执行施测规程,评分者严格按照标准给分,施测场地按测验手册的要求进行布置,减少无关因素的干扰第四节信度的特殊问题一、速度测验的信度问题因为速度测验的题目难度都很低,所以不能用奇偶分半求分半信度;可以将测验分两半来施测。因为几乎不可能把题目做完,所以同质性信度不适用。可以用重测信度和复本信度。二、标准参照测验的信度问题总体越同质,相关系数越低。所以,用通常的方法来算标准参照测验的信度是不适当的。可以用复本,通过人数的百分比差别越小,信度越高。三、分测验的信度除整个测验的信度外,各个分测验也应有信度,否则,从分测验得分来做推论就会出问题。四、差异的信度比较两门课成绩的差异,若两门课的信度都不可靠时,二者的差别更不可靠。五、行为改变(变迁)的测量行为改变:要求测验对分数的差异越敏感越好信度:二者的矛盾难以调和信度好坏的判断标准标准化能力或学绩测验:>0.90人格测验:>0.80教师自编学绩测验:>0.60测验使用时的信度标准一般来说,当信度<0.70,测验不能用于对个人作出评价与预测,而且不能作团体间比较;当0.70≤信度<0.85时,可用于团体比较;当信度≥0.85时,才能用来鉴别或预测个人成绩。第七章测量的效度第一节效度概述一、什么是效度效度(validity)是指一个测验或量表实际能测出其所要测的心理特质的程度。(1)效度是一个相对的概念:每个测量工具都有自己的目的;内隐特质是通过外显行为间接测得的。(2)效度是测量的随机误差和系统误差的综合反映。(3)判断一个测量是否有效要从多方面收集证据操作定义:效度=SV2/SX2=rXY2二、效度与信度的关系(一)信度高是效度高的必要而非充分的条件一个测验效度高,其信度也必然高;但一个测验信度高,其效度不一定高。(二)测验的效度受它的信度制约rXY≤rXX一个测验的信度必然比效度高,至少相等。第二节内容效度一、内容效度的性质内容效度(contentvalidity)是指测验题目对有关内容或行为取样的适当程度,即一个测验实际测到的内容与所要测量的内容之间的吻合程度。因此,一个测验要有内容效度必须具备两个条件:(1)要有定义完好的内容范围(2)测验题目应是所界定的内容范围的代表性取样。二、内容效度的确定方法(一)逻辑分析法:专家判断根据自己的知识经验对量表的有效性(逻辑性)作出判断,也称逻辑效度。为使内容效度的判断过程更客观,一般采用下列步骤:①确定测验内容的总体范围;②编制双向细目表;③编制评定量表,从测验内容所测的技能、题目对所定义的范围的覆盖率、各种题目数量和分数的比例以及题目形式的适当性等方面,对测验作出总的评价。(二)统计方法:用两个测验复本来测同一批被试,若相关高,则内容效度可能高,但若相关低,则说明必有一个测验缺乏内容效度。

(三)经验法:再测法前测→教学→后测如果后测成绩优于前测成绩,说明该测验具有一定的内容效度。三、内容效度的特点和评价1.适用范围:内容效度主要应用于成就测验,也适合于某些用于选拔和分类的职业测验。但不适用于能力倾向测验和人格测验。时间性2.缺乏理想的数量指标3.内容效度不是表面效度表面效度(surfacevalidity):外行人对某个测验从表面上看好像是测某种心理特质的程度。并不是一种真正的效度。人格测验要求表面效度不宜过高。第三节结构效度一、构想效度的定义结构效度(structurevalidity)是指一个测验实际测到所要测量的理论结构或特质的程度,或者说测验分数能够说明心理学理论的某种结构或特质的程度。

特点:(1)具有不同理论构思的测验,其结构效度是无法进行比较的;(2)结构效度有时很难获得;(3)结构效度没有单一的指标,是由各方面的证据累积起来进行评价的。二、结构效度的确定方法结构效度确立的一般步骤:(1)提出理论框架;(2)依据理论框架推演出有关测验成绩的假设;(3)用逻辑或实证的方法来证明假设。具体方法:(1)测验内部寻找证据法分析测验的内容效度:若内容效度高,说明其结构效度也高;分析被试对题目反应的特点:有无社会称许性的题目,如“当事情不顺我意时,我时常动怒。”对该题的回答,也许反映不了要测的性格。计算测验的同质性信度:分半信度、α系数、KR20、KR21(2)测验之间寻找证据法

相容效度:新老测验之间的相关(两测验测的是同一心理特质)。若相关高,则说明新测验可能有较高的效度。

区分效度:新老测验之间的相关(两测验测的不是同一心理特质),若相关低,则说明新测验可能有较高的效度。

因素分析法:得出的因素符合理论的构思,说明效度高。(3)考察测验的实证效度法

根据效标把被试分组,考察其得分差异。根据测验得分差异把被试分组,考察其所测特质(行为表现)的差异。(4)多种特质-多种方法矩阵法方法:1、2、3特质:A、B、C(5)搜集某些变异上的证据智力随年龄变化而变化三、对构想效度的评价1.有些构想概念模糊,缺乏一致的定义2.没有明确的操作步骤与程序3.没有单一的数量指标第四节实证效度一、实证效度的定义实证效度是指一个测验对处于特定情境中的个体的行为进行估计的有效性。被估计的行为是检验测验效度的标准,简称效标。所以,实证效度又称效标关联效度(criterion-relatedvalidity)。同时效度(concurrentvalidity):测验分数与效标资料是同时收集的。预测效度(predictivevalidity):先获得测验分数,隔一段时间后,再收集效标资料。二、效标(1)效标与效标测量效标(criterion)就是衡量一个测验是否有效的外在标准。观念效标:理论定义,如“大学的成功”效标测量:操作定义,如大学成绩

常用的效标:学业成就、临床诊断、实际工作表现、特殊训练成绩、不同团体的总体表现、先前有效的测验、等级评定。(2)效标的特性a.多样性:一个测验可能有不同的观念效标,同一个观念效标又可能有不同的效标测量。b.复杂性:几乎每一种效标行为都由多种特质构成,包含复杂的成分。c.特殊性:即使一个普通的效标,在应用时也有特殊性。d.时间性:近期效标与最后效标(3)效标测量的条件a.有效性:效标测量能真正反映观念效标。b.可靠性:有较高的信度c.客观性:效标测量必须能真正反映观念效标,防止效标污染。

效标污染(criterioncontamination)是指评定者知道被试的测验分数,因而影响到对效标的客观评定。d.实用性:经济实用三、实证效度的确定方法(1)相关法测验分数与效标测量之间的相关系数。(2)区分法测验→工作→效标测量(工作成绩)按工作成绩分高低两组,如工作成绩高,测验得分也高;工作成绩低,测验得分也低,说明该测验是有一定效度的。4)功利率对使用测验所需的费用和所得到的收益进行比较,看是否利大于弊。一个测验如果简单易行,省时省钱,不经过特殊训练的人也能掌握,又适合于团体施测,那么,即使效度低一些,也会有人使用。反之,只有效度极高,能给人带来很大好处时,才会使用。第五节提高测量效度的方法一、影响测量效度的因素1.测验的构成测验长度与效度的关系:

r(Kx)y=Krxy/√K(1-rxx+Krxx)2.测验的实施过程3.接受测验的被试常模团体的同质性影响到对被试测验得分的解释,进而影响到测验的效度。测验偏倚(testbias)是指用不适用于被试的标准来解释被试的测验得分,因而造成解释的偏差。4.所选效标的性质测量行为与所选效标的相似性越高,效度越高。测验分数与效标行为之间是否是线性关系,如果不是线性关系,求皮尔逊相关就会低估效度。效标本身的测量越可靠,效度就可能越高。5.测量的信度二、提高测量效度的方法(1)精心编制测验量表,避免出现较大的系统误差(2)妥善组织测验,控制随机误差(3)创设标准的应试情境,让每个被试都能发挥正常的水平(4)选好正确的效标,定好恰当的效标测量,正确地使用有关公式第六节效度资料的概化所谓概化,是指在一定条件下得出的结论能否适用于其他情况。测验的效度和信度一样,都与特定情境有关,只有在具体情境下的效度,而没有笼统谈论某一测验的效度。一、效度概化的几个方面1预测源的概化使用同一测验的不同复本是否同样有效?同一测验对不同分数水平的人的预测是否同样有效?2效标的概化采用不同种类或不同时距的效标,测验是否同样有效?对于效标的不同分数水平是否预测得一样好?3施测情境的概化不同的施测者、不同的施测条件以及在不同的指导语或心向下做测验是否同样有效?4被试团体的概化测验对于取自同一总体的另一样本是否同样有效?测验对于不同性别、不同年龄、不同教育水平、不同社会经济地位、不同地区、不同民族、不同学校、不同职业的被试是否同样有效?5建立效度方法的概化用不同方法得到的效度指标是否一致?不同的效度之间是否有矛盾?二、交叉效度分析交叉效度分析是考察效度概化能力的一种方法,只涉及被试样本的概化。这种方法是对两个独立取自同一总体的样本分别建立预测源-效标关系,看从一个样本中得到的效度资料是否适用于另一样本。计算测验效度所依据的样本必须与选择项目所依据的被试样本不同。如果使用同一样本,则会使效度系数假性的高。实质是循环论证。第八章测验的项目分析项目分析包括定性分析和定量分析。定性分析包括考虑内容效度、题目编写的恰当性和有效性等;定量分析主要是指题目难度和区分度的测量。对项目进行筛选和修订,可以提高测验的信度和效度。第一节测验的难度一、难度(difficulty)的意义难度,指项目的难易程度。在最高作为测验中,称为“难度”,而在典型作为测验中,则指“通俗性”。两者都是指在总体中,能够正确或确切回答某项目的人数。二、难度的计算(一)二分法记分项目的难度1.通过率

P=R/N

2.极端分组法(上下27%)

P=(PH+PL)/2(二)非二分法记分项目的难度

P=X/XmaxX为所有被试在该项目上的平均得分,Xmax为该项目的满分。三、测验难度水平的确定效标参照测验、掌握测验:不考虑难度;选拔测验:难度=录取率;

对于选择题来说,难度一般应大于猜测概率;无论是速度测验,还是难度测验,一般都应防止被试得满分,因为满分的意义是不明确的。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论