心理测量学课件_第1页
心理测量学课件_第2页
心理测量学课件_第3页
心理测量学课件_第4页
心理测量学课件_第5页
已阅读5页,还剩319页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

心理测量学第一节概述

测量与测量量表心理测验的基本概念心理测验的分类纠正错误的测验观心理测验在心理咨询中的应用心理测验的发展史第一单元测量与测量量表元素一、什么是测量对象——工具——结果——事物(属性)法则数字(区分,等级,等距,可加)定义:法则→事物(属性)→数量化确定物理、社会和心理测量共性单位(事物标准量名称)意义明确单位等距参照点(量的计算起点)绝对零点相对零点全无人为二、测量要素

三、测量量表按标准化样本中大量测验结果制定的、有一定单位和参照点的、

标度由低到高排列的连续体。含义种类

基本特征

功能

运算

举例命名属性、类别分类或描述性别、民族职业、⋯顺序无相等单位无绝对零点1+等级不能+-×÷品德、能力、爱好⋯等距有相等单位无绝对零点2+差异决策和比较可+-温度、成绩分数⋯比率有相等单位有绝对零点3+比值决策和比较可+-×÷身高、体重、投资⋯不同水平的量表第二单元心理测验的基本概念一、心理测验的定义法则事物数字心理学理论操作程序代表性行为推论数量化分析二、心理测验的性质间接性外部行为—→心理特质行为样本含义:反映被试行为特征的一组代表性行为相对性——比较而言解释测验分数的参照标准常模客观性——标准化含义:反映被试行为特征的一组代表性行为。标准化含义:编制和实施等所遵循的一套标准程序。目的:测量结果的准确性和客观性。标准化测验材料测验实施评分记分分数解释客观性——试卷试题信度效度难度区分度评价测验的指标第三单元

心理测验的分类

一、测验功能智力测验:一般能力水平特殊能力测验:潜能或发展倾向人格测验:非认知性的特征二、测验材料的性质文字测验操作测验(图形,仪器,工具,实物)三、测验材料的严谨程度客观测验投射测验呈现的刺激词句、图形等意义明确,可直接理解刺激无明确意义被试反应无明确规定四、测验的方式个别测验团体测验五、测验要求最高行为测验认知测验(智力测验,成就测验)典型行为测验人格测验第四单元纠正错误的测验观错误观测验万能论测验无用论正确观重要的研究方法之一——辅助工具尚不完善第五单元

心理测验在心理咨询中的应用

智力测验吴天敏:中国比内智力量表龚耀先韦氏成人智力量表(WAIS-RC)韦氏儿童智力量表(C-WISC)韦氏幼儿智力量表(C-WYCSI)林传鼎:韦氏儿童量表(WISC-CR)张厚粲:瑞文标准型测验(SPM)李丹:联合型瑞文测验(CRT)

人格测验艾森克人格问卷(EPQ)卡特尔16项人格因素问卷(16PF)明尼苏达多项人格调查表(MMPI)

心理评定量表精神病评定量表躁狂状态评定量表抑郁量表,焦虑量表,恐怖量表

案例二明尼苏达多相人格问卷(MMPI)

背景:1942年首发。新版MMPI-2,1989年发行。新版

MMPI-A用于青少年。设计:标准记分键,个人回答模式与已被诊断归入某一临床人群者比较。出自8个临床量表分数加男子气—

女子气和社交内向性及三个效度量表。题目:原版550题,“是”,“否”或“不肯定”回答。新版替换了约100题。计分:分数剖析图。现测验解释按高分模式,产生编码描述不同的剖析图。有电脑测验解释。应用:临床评估,为临床筛选设计。子版本:加州心理问卷从中抽取一半题目,用于正常人;

5000多已发表研究用了MMPI。第六单元心理测验的发展史历史时期先验期时间:20世纪以前特点:重实用,缺理论,主观性强科学期时间:20世纪初~至今阶段经典测验理论:50′前现代测验理论:50′后特点测验理论形成测验工作系统化一、中国古代的心理测验思想1.测验思想

孔子

孟子中人、中人以上、中人以下“中人以上可以语上也、中人以下不可语上也”权,然后知轻重;度,然后知短长。物皆然,心为甚,王者度之。

刘劭“观其感变,以审常度”。“应赞”

刘勰思《人物志》J.K.Shryock《人类能力的研究》使左物画方,右的画圆,无一时俱成《新论·专学篇》由心不两用则物不并运也。

民间七巧板九连环等颜氏家训《风操篇》周岁试儿

描述性,不定量,分类的;心理特点与道德观念相结合;2.科举考试3千年前六艺取士及隋唐科举制起源特点

二、科学心理测验的产生与发展原因社会需要个别差异研究实验心理学鉴别智残和精神障碍专才训练和职业指导早期尝试E.G.Boring(美)19世纪80年代是高尔顿的十年,90年代是卡特尔的十年,20世纪头十年是比奈的十年高尔顿的10年

F.Galton,英,1822测验运动首倡者第1个使用智力测验者;第1个大量系统测量个别差异者;1884-1890,“人类测量实验室”,测9337人。应用评定量表和问卷法的先驱;统计学家、生物学家、业余心理学家;优生学的创始人;首次提出“测验”和“心理测验”术语(《人的能力研究》,1883)反应时间,拉力和拧力,吹气的力量,身高,体重,臂长,呼吸力量,肺活量,视力和听力的灵敏度,色彩分辨能力,判断长度的能力“人体测量研究室”测量内容卡特尔的10年CattellJ.M.,美,1861实验心理与测验运动结合;“心理测验”首次在心理学文献出现(《心理测验与测量》);创立心理测验公司;培养优秀学生:桑代克,佛朗兹等;握力,动作速度,触觉两点阈,重量辨别,声音反应时,痛感受性说出四种混杂颜色名称的速度,时间判断力,平分线段的精确性复述听过一次字母数目的能力卡特尔智力测验内容1891-1901:成绩与人体测验无明显相关,各测验间相关性也极差。二、科学期1.比奈的10年A.Binet,法,1857-19111898年,《个性心理学中的测量》,近代思想1903年,《智力的实验研究》,广义智力概念;1905年,B-S量表;第一个正式智力量表。(一)经典测验理论阶段2.测验的发展特点20’—狂热,40’—顶峰,50’—平稳操作测验的发展团体智力测验发展Otis陆军甲种测验(1917)Otis陆军乙种测验(1927)能力倾向测验标准化成就测验斯坦福成就测验(1923)美国教育测验中心(ETS,1947)成立;人格测验的发展先驱—E.Kraepelin20世纪40年代后三、现代心理测验在我国的发展时间:1914年前后修订:智力测验1979年后修订智力、人格种类测验编制本土化的智力、人格等测验国内参考书目戴忠恒《心理与教育测量》江苏,87《教育测量》余嘉元《教育测量》王孝玲华东师大,88)《心理测量》郑日昌湖南,88凌文辁,滨治世《心理测验法》科学,88凌文辁,方利略.心理与行为的测量.02

常模团体常模的类型常模分数的表示方法第一单元常模团体

一、常模团体的性质

常模团体共同特征的人或总体的代表性样本常模的选择

确定一定总体确定目标总体抽取研究样本大学生湖南大学生文理科大学生常模团体的成员成就测验和能力倾向测验目前的潜在的竞争者广泛的能力测验和人格测验同龄或同等教育水平者此外,性别、年龄、教育水平、职业、社经地位、种族等也可作为常模团体的标准。二、常模团体的条件

群体明确性别、年龄、教育水平、职业、社经地位、种族、地理地域

代表性样本——案例样本大小适当一般标准:最低不少于30或100。全国常模:一般2000~3000。时空性代表性样本抽取——智力测验第1层第2层要求年龄姓别地域民族职业城乡教育各年龄阶段各姓别组各地区各民族各类职业城市和乡村教育水平16~64各年龄组男女人数相等西部、中部、东部…白人、黑人、西班牙…工程师、教师、管理者…5000人以上为城市高中、大学、硕士…三、取样的方法

(一)简单随机抽样随机原则——总体——样本操作方法抽签法——有放回抽样和无放回抽样

随机数字表特点:机会均等,操作简便局限性总体较分散—→样本也较分散总体个体差异较大—→样本容量要大样本容量较小—→分布不均匀(二)系统抽样以某个随机数字为起点,间隔一定单位抽取样本。抽样间隔:特点样本分布均匀,抽样误差较小不足有系统误差,随机性较差改进与简单随机抽样结合使用(三)分层抽样标志—→总体—→若干层次—→样本分层比例抽样

如用50名学生数学推理平均成绩估计500名学生平均成绩。设在数学成就测验中100人为优,320人为中,80人差,求每一层容量。总容量每层总容量样本容量分层非比例抽样特点分布较均匀:各层都有被抽取的机会,抽样误差更小,代表性更强在总体分布不均匀时,该方法效果更好

(四)分组抽样(整群抽样)以“群”抽样单位抽样特点组织形式简便易行,不会打乱学校或单位的正常秩序不足样本分布不均匀,抽样误差较大改进方法适当扩大样本容量,减小抽样误差与分层抽样法或其他方法配合使用常模分数原始分数

导出分数。导出分数用相应数学模型对原始分进行转换所得分数具有一定的参照点和单位——测验量表分四、常模分数与常模

(一)常模分数原始分数转化的目的个体间差异个人的某种心理特质处于常模团体中的相对地位个体内差异提供相同尺度量数使个人在2种以上测验的结果可相互比较案例:WAIS-CR:言语分量表分测验原始分数量表分IQ知识2716城市:137农村:130领悟2818算术1614相似性2013数字广度1817词汇7415合计—93一28岁被试WAIS测验结果(二)常模(norm)常模

解释测验结果的参照依据常模分数构成的分布标准化测验必须有常模一般常模与特殊常模一般常模:测验手册的常模特殊常模:非典型团体的常模二者可结合使用第二单元常模的类型

适用范围全国常模区域常模特殊群体常模解释方式发展常模百分常模标准分数常模…

一、发展常模定义特质按正常途径发展所处的发展水平类型发展顺序常模年级常模年龄常模(一)发展顺序常模定义在婴幼儿行为发展观察中建立的量表发展变化与年龄相联系葛塞尔(1947)婴儿早期行为发展顺序量表特点最早的量表婴幼儿智力发展量表葛塞尔发展量表(1940,4周~5岁)麦利尔-帕尔默量表(1岁半~6岁)卡特尔婴幼儿评定量表(1973,3天~4周)贝利婴儿发展是表(1933,1969,2~30月)麦卡锡儿童能力量表(1972,2岁半~8岁半)考夫曼儿童成套评估测验(1983,2.5~12.5)丹佛发展筛选测验(1967,初生~6岁)中国0~3岁小儿精神检查表(茅于燕)中国3~6岁儿童发展量表(1985,张厚粲)葛塞尔婴儿感觉运动发展顺序周行为表现4控制眼睛运动,能追随一个对象看等16能使头保持平衡28能用手抓握并玩弄东西40能控制躯干、耸立和爬52能控制腿和脚的运动、站立和行走皮亚杰儿童守恒概念发展守恒概念年龄质量守恒5重量长度6容量长度7(二)年龄常模定义个体在某个年龄组的平均操作水平智力年龄mentalage通过率指标确定方法题目年龄水平平均数例如:某儿童6岁在B-S量表中,通过6岁组全部题目,通过7岁组4题,8岁组3题,9岁组1题,则智龄为(三)年级常模定义某年级全体学生典型水平的一个分数年级水平平均数教育成就测验指标应用一刚升入4年级的学生,其阅读水平为4.4,计算水平为3.8.(四)年龄与年级常模的评价年龄常模优点易理解易解释不足不稳定不适于成人年级常模局限性适于一般课程,不适于高中以上解释较难常被误用为标准二、百分位常模

百分等级(perceptilerank)四分位数(quartile)十分位数(deciles)百分位数(perceptile)(一)百分等级方式以X与PR对照表的方式呈现定义一群分数中低于某分数者所占的百分比分析方法个体分数各组分数计算公式个体分数各组分数某团体共100人,试问第15名的百分等级是多少?若团体人数分别为50人,40人,20人时,其百分等级是多少?若团体人数为200,500,1000呢?(二)百分位数(点)例5-3:高考选得分高于15%的被试。已知最高分为695,其PR为100;最低分103,PR为1。求其分数的最低限是多少?求相当于85%的测验分数分析百分等级与百分位数的关系

百分位数:已知_________,求________。

百分等级:已知_________,求________。百分等级分数分数百分等级(三)四分位数和十分位数百分位数任一百分位数值四分位数四分之一或四分之三等位置上的数值十分位数十分之一等位置上的数值(四)百分位常模的评价优点局限易计算易解释不受原始分分布形态影响单位不等距无法比较不同被试间分数差异的数量三、标准分数

(一)标准分数的定义

定义以标准差所表示的原始分数(X)与平均数的偏差公式z分数某研究者得到以下两组成绩:分组测验成绩(X)甲组54637274828899乙组67717376798284

试问:

①两组分数的分布是否一样?为什么?表2-2两组学生测验得分表∑XM5327653276②哪个均数的代表性更好?为什么?数据的基本分布特征及量数集中趋势——集中量数——平均数描述一组数据向中间某一值靠拢的量数离中趋势——差异量数——标准差描述一组数据离中趋势的量数标准差的意义与计算含义表示一组数据的平均距离符号:S或SD(Standarddeviation)公式定义式:计算式:离均差(离差)理解练习试估计49和51分的平均数和标准差。分析结果(二)标准分数的实质把单位不等距和缺乏明确参照点的分数转换成以标准差为单位,以均数为参照点的量表分数。-5

-4

-3

-2

-1

01

2

3

4

5

99.73%(三)常见标准分数z分数Z分数正态化的标准分数T分数标准九分离差智商(IQ)(四)线性转换的标准分数

1、z分数z分数是最典型的线性转换的标准分数特点以M为0点,S为1的量表表示;绝对值表示:X与M的距离正负号表示:X在M上下的位置分布形状与X分布形状相同正态偏态2、Z分数应用普通学科测验普通分类测验美大学入学考试

线性转换标准分(五)正态化的标准分数

1.意义X分布正态,Z与曲线下面积有特定关系直接作正态转换正态化标准分X分布非正态时的正态转换X→PR→Z→T2.T标准分数定义经正态化的一种标准分数转换公式(W.A.McCall,1939)3.标准九分均数:5标准差:2最高分:9最低分:1

除1和9,其余分数包含0.5个σ标准九与S、Pm的对应关系标准九标准差范围百分位数范围9+1.75以上96~998+1.25~+1.7589~957+0.75~+1.7577~886+0.25~+0.7560~765-0.25~+0.2541~594-0.75~-0.2524~403-1.25~-0.7512~232-1.75~-1.255~111-1.75以下1~44.标准十分和标准二十分标准十分平均数:5标准差:1.5标准二十分平均数:10标准差:3量表分:四、智商及其意义

(一)比率智商

斯坦福-比内量表修订者:推孟时间:1916智商计算心理年龄实际年龄一儿童实际年龄7岁,S-B测验的心理年龄为8岁,则其智商为(二)离差智商

韦氏离差智商编制者:韦克斯勒公式:IQ=15Z+100分析从不同测验获得的IQ,其S不同只有当S相同或接近时才可比较S-B离差智商(1960)IQ=16Z+100IQ分组S=12S=14S=16S=18130以上0.71.63.15.1120-1294.36.37.58.5110-11915.216.015.815.4100-10929.826.123.621.090-9929.826.123.621.080-8915.216.015.815.470-794.36.37.58.570以下0.71.63.15.1S不同时:IQ水平的百分比韦氏智力测验构架评估多种认知能力的测验组合分测验的量表分:IQ=3Z+10言语、操作和全量表:IQ=15Z+100量表构成全量表言语操作常识类同算术词汇记忆广度填图积木拼图译码排序理解迷律第三单元常模分数的表示方法转化表由X、导出分数和对常模团体的具体描述等三要素构成的表格。

剖面图

一、转换表或常模表简单转换表把单项测验X转换成一种或几种导分数。复杂转换表多个分测验或各种常模团体的X与导出分数的对应关系。1、简单转换表范例X分组PRT分数75-7999.4(99)7570-7496.6(97)6865-6990.8(91)6360-6481.8(82)5955-5966.6(67)5450-5443.8(44)48某测验X的PR和T转化表2、复杂转化表大学生戈登人格问卷的百分等级分数男性

谨慎独创人际活力女性谨慎独创人际活力38373635343399999899989799989795989796929795999998999897989796999796959896949397分数大学生中学生工人干部383736353433

9998979699989998969389999897959188不同团体戈登问卷“谨慎性”PR常模转化表(二)剖面图

以图形方式表示测验分数的转换关系特点直观性IQ各分量表分的PR及质的描述分量表分百分等级质的描述教育描述1999189817971696159514911384127511631050937825716695542312111强处弱处资质优异优秀中上中等或平均中下愚笨白痴资质优异中等或平均中上中下学习迟缓智能不足信度概念信度的评估方法信度与测验分数的解释影响信度的因素成熟标志20世纪50年代古利科逊《心理测验理论》三大支柱基本假设信度效度第一单元信度的概念一、经典测验理论ClassicalTestTheory(CTT)(一)测量误差1、定义与测量目的无关不准确测量效应测量因素测量结果或不一致2、误差的种类

系统误差随机误差随机误差与系统误差的比较类型产生原因结果表现(结果不一致)特点指标同异随机误差…偶然因素不易控制方向和大小上完全随机稳定性准确性信度系统误差…因素恒定、规律稳定地存在于每次测量中正确性效度3、误差来源三层面模式测量工具测试对象施测过程(二)基本假设与真分数1、分数观测分数误差分数真分数测验所得未加工无误差理论上真正特质水平操作上多个平等测验的平均数2、基本假设例2-1:某一物理测量结果(单位:微)物质编号实测重量X真正重量T误差EA12102B1920-1C2730-3D41401E51501∑1501500

203.22003.2SE--1.8M30300定义T与X关系数学模型X=T+ET=X-E二、信度的概念S2T,S2E

,S2X的关系与信度S2XS2XS2TS2ES2TS2E(一)信度的定义

1、理论定义真分数方差与观测分数方差的比值或2、操作定义两组测验分数之间的相关系数测量工具或结果的一致性(稳定性)程度3、rXX值与测验误差的关系r=0.50r=0.75r=0.90S2ES²TS²TS²TS²ES²E(二)信度的指标

1、信度系数与信度指数信度系数同一群人几次测验结果一致性信度系数的平方根信度指数缘由:rXX只反映X与T的符合程度未反映个体测验分数的变异2、测验标准误测验中个体真分数的指标理论上:一个个体多次测验结果分布的变异实际上:一组个体两次测验结果分布的变异测量标准误测量误差分数分布的标准差用途衡量测量值(X)与测量对象真值(T)的偏离程度的一种指标用来估计个人的真分数个人分数的误差个体测验分数重测时的变化公式实得分数标准差

个人分数的误差

rXX越大:变化的可能性越小

rXX=1:完全不变化第二单元信度评估的方法信度重测信度复本信度内部一致性信度评分者信度分半信度同质性信度重测复本信度一、重测信度含义同一测验同组对象前后测2次相关系数稳定性程序误差时间太短练习效应记忆效应A卷一定时距A卷太长身心变化

优点省力、省时测量属性相同提供随时间变化的资料

不足适用范围异质性运动技能速度时间间隔长短评价二、复本信度含义两等值测验最短时间内对同组对象施测结果r等值性程序误差内容取样A卷最短时距B卷

优点代表性增强,信度更准避免练习、记忆效应

不足编制复本难影响积极性触类旁通评价三、重测复本信度含义两等值测验一定时间内对同组对象施测结果r等值性稳定性程序误差内容取样时间A卷一定时距B卷重测信度与复本信度有何异同?重测复本信度与重测、复本信度谁得估计更严格,为何?小结与问题重测信度复本信度内部一致性跨时间一致性跨形式一致性试题之间有何关系三、内部一致性信度含义测验各题间一致性题目一致性行为变量异质性分半信度类型内容取样同质性信度(一)分半信度1、分半条件与程序分半方法奇偶题分半分析程序两半相关:rhh校正:rnn难易:低

高分半条件两半相似:M、S项目组间相关分布形态内容2、校正方法斯皮尔曼-布朗公式方差相等时弗拉南根公式卢尤公式方差不等时(二)同质信度同质性题目间的内部一致性类型库-理信度克龙巴赫

系数0、1题型K-R20难度不同k-R21难度相近各类题型四、评分者信度(一)含义与方法含义评分者评分的一致性方法2评分者2个以上者rXYrρ肯德尔和谐系数(二)肯德尔和谐系数K个评价者评N个被评者或作品1、应用范围和W系数应用1个评价者先后K次评N个被评者或作品W范围0~1第三单元信度与测验分数的解释真分数与实得分数相关的解释信度系数和信度指数测量标准误信度的评价直接解释一、真分数与实得分数相关的解释rXX间接解释信度系数决定系数∵r2XT=ST²/SX²=rXX∴rXX为各方差的百分比S2X分为各S2E和S2T∵误差源不同信度估计法不同rXX=0.90(一)信度系数和指数

例2-13:设有两平等的创造力测验(A和B)。现:

1)间隔两月施测100人,其信度为0.70;

2)两卷分半信度校正值为0.80;

3)第2个评分者随机抽50份,信度0.92;试问:

1)真分数的方差是多少?

2)各种信度的误差是多少?间接解释范例信度类型rXX重测复本0.70分半信度0.80评分者信度0.92总误差方差真分数方差分析结果

误差源时间、内容内容取样评分者差异

两者之差误差的方差时间取样1-0.70=0.31-0.80=0.20.3-0.2=0.10.2+0.1+0.08=0.381-0.38=0.621-0.92=0.08X与T的接近程度信度指数rXX=0.90(二)测量标准误用途衡量测量值(X)与测量对象真值(T)的偏离程度的一种指标用来估计个人的真分数个人分数的误差

rXX越大:变化的可能性越小

rXX=1:完全不变化

例2-14:某测验信度0.89,S为15,其测量标准误是多少?表2-12用rXX与SX估计测量标准误

信度

S0.950.900.850.800.750.70306.79.511.613.415.016.4286.38.910.812.514.015.8265.88.210.111.613.014.2245.47.89.310.712.013.1224.97.08.59.811.012.0204.56.37.78.910.011.0184.05.77.08.09.09.9163.65.16.27.28.08.8143.14.45.46.37.07.7122.73.84.65.46.06.6102.23.23.94.55.05.581.82.53.13.64.04.461.31.92.32.73.03.340.91.31.51.82.02.220.40.60.80.91.01.1

优点解释个人分数时,可指出其误差的范围不受群体异质性的影响

局限不同测验间的信度无法比较标准误因信度计算法不同而不同“不论高低分,SEe相等”的假设不完全成立二、确定信度可接受水平测验类型最低标准标准化测验人格测验非标准化测验0.900.80-0.850.60-0.85典型测验的一般标准典型测验的信度高低水平测验类型

低中高成套成就测验学术能力测验成套倾向性测验客观人格测验兴趣问卷态度量表.66.92.98.56.90.97.26.88.96.46.85.97.42.84.93.47.79.98三、解释个人分数的意义公式——个体真分数估计例如:某班一次标准化成就测验(rxx=0.80)中的SE为5,某生的测验分80。试问该生测验的真分数是多少?置信度D=.95置信区间

分析结果

表2-9某生测验真分数的信度区间SEe数目置信水平置信区间168.2680±5(75~85)295.4580±10(70~90)399.9380±15(85~95)1.969580±9.8(70.2~89.8)2.589980±12.9(67.1~92.9)四、比较不同测验分数的差异

例如,某生在韦氏成人智测中,语言IQ为102,操作IQ为106。且知言语与操作的分半信度各为0.96和0.93。问该生操作能力是否显著优于言语能力?分析结果结论差异未达1个标准误操作IQ并不高于语言IQ差异显著性:

本例:(106-102=4)第四单元影响信度的因素

测验长度样本特征测验难度时间间隔

一、测验长度含义测验试题的数量特点测验越长,试题取样越恰当,测验越长,猜测性越小长度与信度的关系

例2-16:某测验有40题,信度0.65,若增至120题,信度会是多少?

例2-17:某测验有30题,信度0.75,试问要达到多少题才能使信度达到0.90?特点样本越异质,分数分布越广,S↑,r↑,测验越可靠二、样本特征

(一)样本团体异质性的影响分析信度相关散布图计算散布图整段范围低高

(二)样本团体平均能力水平的影响

例如,S-B量表,不同年龄和难度水平信度值从0.83~0.98。显然,每个信度都要求对建立信度的团体进行描述。选择测验时应注意取样团体的变异性和能力水平建立信度的团体与欲测团体是否一致趋势分别对非常同质团体建立标准化样本。考虑年龄、性别、年级、职业和相似性等,选择适合其所在测验团体性质的信度系数和测验。一般趋势难度分布越广,信度越高难度与题型简答题:P=0.5时,X为0~100,信度最高。选择题的理想难度三、测验难度满分值理论概率

例2-22:在100个正误题测验中,满分为100,其理想难度是多少?例2-23:在100个五择一测验中,满分为100,其理想难度是多少?分析结果例2-22例2-23学绩测验选择题的理想平均难度(洛德)五择一:0.70四择一:0.74三择一:0.77是非题:0.85智力的时间变化

间隔期信度系数同日或次日0.90~0.951年0.852~2.5年0.805年0.75~0.809年0.78四、时间间隔S-B隔六年,rXX的变化年龄的时间变化年龄越低,信度越低

第一次第二次rXX4100.739150.8711170.92理论假设:T=X-E;S²T=S²X

-S²E信度:测量结果的稳定性类型重测、复本、重测复本内部一致性:分半、同质性评分者本章小结

(Validity)效度的概念效度评估的方法效度的功能影响效度的因素第一单元效度的概念效度的定义效度的性质一、效度的定义

(一)理论定义信度S²X=S²T+S²E效度S²X=S²V+S²I+S²E随机误差有效方差S²V系统误差S²I与测验目的有关的有效SV2和实得SX2

的比值效度效度定义测到欲测东西的程度效度效度定义(二)操作定义(三)信度与效度的关系信度是效度的必要条件非充分条件S²E↓,S²T↑,rxx↑信度高,给S²V增加提供可能能否提高效度,再看S²I大小信度高不一定效度高效度要高,S²V须占较大比重,S²T↑效度高,信度必高ST2信效度关系SV2SI2SE2SV2SI2SE2SV2SI2SE2ST2SX2ST2SX2ST2rxyrxx

rxyrxx

rxyrxx

↑↓↑↑↓↓相对性无普遍性:针对某种特殊用途而言只有程度不同,无所谓全有或全无连续性评价上:无“全有”或“全无”二、效度的性质第二单元效度评估的方法

弗兰士(J.W.French)和米希贝尔(W.B.Michbel):1966美国心理学会(1974,1985,1999):StandardsforEducationalandsychologicalTests内容效度结构效度效标关联效度

一、内容效度意义方法特点应用评价(contentvalidity)一、内容效度

(一)意义定义:测验对欲测内容的覆盖程度作用:探讨测题取样的恰当性条件内容范围明确取样有代表性成就测验内容效度的要素教学目标教材内容

测验内容

测验目标知识技能解释(概念)(计算)(其它)方差标准差8257103515合计186022合计4060100表3-1差异量测验的双向细目表含义专家按测题和假设内容范围作出的符合度判断即逻辑效度作法与程序确定总体范围编制双向细目表;制定评定量表;(二)评估方法1、专家判断法局限无良好的数量指标描述这种符合性的程度;不同专家对同一测验内容效度的判断可能不一致;不同专家对内容范围会有不同的理解2、经验推测法检查不同年级被试总分与每题分数变化情况若随年级增高总分和每题通过率也升高,可推论该测验基本测量了教学内容和目标检查不同年龄儿童测验分数的变化情况是否随年龄增长而增加信度指标评分者信度复本信度r高:内容效度r低:至少一个缺乏内容效度再测度度经验法3、统计分析法(三)特性特定性:测验编制者与使用者的关系与表面效度(facevalidity)混淆

一个测验看上去适合欲测目的的程度,而非实际适合欲测目的的程度。

测验在使用者或被试主观上感觉有效的程度。

编制测验应适当考虑表面效度。二、构想效度定义确定步骤估计方法(constructvalidity)二、构想效度

(一)定义构想(理论,结构)解释行为的理论框架或心理特质的抽象概念。结构效度心理学理论所能解释的程度测验在多大程度上测量了所要测的理论构想(二)确定步骤提出理论提出假设检验假设解释被试的测验表现测验成绩的假设逻辑和实证检验方法关于情绪稳定性的假设测验分数和心理学家的评价有某种程度的相关精神病人和正常人的测验分数是有区别的;测验分数和同伴的评价有一定的关系;测验分数与IQ没有什么关系;测验分数和性别没有关系;关于智力的假设智力随年龄而增长;智力与学业成绩有密切关系;智商是相对稳定的;智力受遗传的影响关于创造力的假设测验分数与根据创造力的心理学理论观察被试行为所作出的判断有相关;具有创造力的个体行为与其他人不同;(三)估计方法

1、对测验本身的分析测验内方法测验间方法效标关联效度实验操作概化能力的研究(三)估计方法

1.对测验本身的分析——测验内方法研究测验内部构造分析测验的结构效度。具体方法内容效度法内部一致性法分析解题的心理过程

1)内容效度法确定取样内容范围后,利用这些资料定义测验欲测的结构性质韦氏智力测验言语:常识、理解、算术、相似性、词汇、记忆广度操作:译码、填图、积木图案、图片排列、图形拼凑内容范围的描述见到老师、小朋友是否主动打招呼?愿意自己独自玩,还是与其他孩子一起玩?语言较多还是较少,见生人时是否害羞?是否大方?做游戏时,与人交往时,能与人合得来吗?独生子女合群性测验卡特尔16PF16个特质,187个题目乐群性,聪慧性,稳定性,持续性,兴奋性,有恒性,敢为性,敏感性,怀疑性,幻想性,世故性,忧虑性,实验性,独立性,自律性,紧张性分测验间关系的分析:特质间相互独立分测验内项目关系的分析:项目相互联系2)内部一致性法目的推断测验是否测量单一特质方法极端组比较法(extreme-groupmethod)二列相关法:求题目与总分的相关分测验与总分的相关2.测验间的相互比较——测验间方法含义同时考虑几个测验间的关联,考察是否测同一结构。常用方法相容效度区分效度因素分析其它方法

1)相容效度concurrentvalidity含义测相同结构的各种测验间应有较高的相关。求一个新编测验与另一已知结构测验间的相关。2)区分效度含义某一特定测验的分数与已知测量不同结构的测验分数无关会聚效度某一特定测验的分数与测同一结构的其他测验的分数有关相关高说明新测验的效度有问题3)因素分析意义找出变量间内在本质联系的一种多元统计方法。通过缩减变量的方法,用反映变量本质联系的少数几个基本因素(或公共因素)来说明先前需要用较多变量才能说明的原因或特性。基本原理总变异=共同因素+特殊因素+误差两个变量之间的相关等于它们共同因素负荷的交互乘积之和。

Cronbach对Loger-Thorndike

智力测验的因素分析结果分测验1.图形分类2.数字序列3.图形分析4.句子填充5.词语分析6.算术推理7.词汇特征值总方差%

因素负荷

AB共同性(h²)0.4610.5870.5570.3830.7050.6440.4630.6880.6870.816-0.0500.6680.8430.0970.7200.6200.2570.4500.870-0.0470.7593.0911.3944.485442064语词非语词(美)霍尔津格(Holzinger)和斯温福德(Swineford)的因素分析取样:芝加哥效区被试:145名7~8年级学生内容:实施24个心理测验结果:4个基本因素图——词测验的功能不明显。24个心理测验的因素归类词语速度推理记忆1.一般知识段落理解2.句子填空3.词汇分类4.词义解释5.加法6.编码7.计数8.点子9.直-曲10.算术问题11.视知觉15.数字游戏12.体积16.问题推理13.面积17.系列填空14.打旗18.演绎推理19.词汇识别20.数字识别21.图形识别22.实物-数23.图-词24.数-图3、效标效度的研究证明测验

效标效标效度资料:提供与结构效度有关的信息。考察X能否区分不同团体的人。4、实验法和观察法的证实考察实验变量对X的影响比较实验处理:前后分数的差异搜集某些变异上的证据。三、效标效度criterion-relatedvalidity定义效标估计方法(一)定义测验分与外在独立效标的关系。在特定条件下测验对被试操作行为所作预测的有效性符号:rxy。又称统计效度或实证效度。(二)效标或标准

1.定义衡量测验效度的外在标准。做预测所依据的标准。检验效度的参照标准。测验所要测的或要预测的行为特质。将X与隔一定时期后同组对象的成绩求相关。检查新编测验的效度。2.良好效标的选择依据反映测验的目标较高的信度可客观地测量测量方法简单,省时省力,经济实用各类测验的可用效标测验类型常见效标成就学年平均分,教师评定结果,学习量,知识应用力,评判知识的批判力,自学能力…智力学科成绩,教师评定结果,学生总成绩能力倾向特殊课程或训练成绩,工作或学习成绩职业兴趣从业者的实际成绩或工作表现人格主试主观标准,被试以后行为,临床资料3、效标效度的类型

1.同时效度含义根据测验分区分已有的状态或预测已知的效标表现来评估测验效度的方法。对同组对象求新编测验得分与现有测验得分(效标值)之间的相关。应用:效标分和新编测验分能同时得到。度量指标:测验分与效标分的相关系数2.预测效度定义根据测验分数预测其在效标上将来成绩来考察测验效度的方法。一个测验对被试心理特质或未来绩效所作预测的准确程度。应用:测验分与效标分不能同时得到。度量指标:测验分与效标分的相关系数(三)估计方法

1、相关法效度系数组的分类预期表命中率功利率(三)估计方法

1.相关法效度系数测验分(新编)与效标分的相关系数符号rXY或val.相关方法描述多列数据相关程度与相关方向的统计方法。计算方法积差相关法二列相关、点二列相关,多系列相关等2、区分法——t检验目的:比较高低分组的差异高分组和低分组25%-33%,特别是27%例如:团体高分组的平均数为6.05,标准差为2.02;低分组的平均数为4.25,标准差为1.3。试问两组的平均数有无显著差异?评价缺点组间均数差异显著性取决于团体大小。处理方法求两组分布的重叠量:指标一组内均数超过另一组均数的百分率;两组分数分布共同区域的百分率;结果报告:均数、标准差、重迭量、检验值3.命中率法含义:正确决策的比例用途人才选拔方法正确决策的结果正确接受正确拒绝

业绩Y012345678910能力倾向测验分(X)12345678910112152231469211352412633212524151211213373822错误接受正确拒绝正确接受错误拒绝结果正确决策正确接受正确拒绝383371第三单元效度的功能预测误差预测效标分数预测效率指数一、预测误差

(一)决定系数效度系数决定系数:r2正确预测或解释效标的方差占总方差的比例。(二)估计标准误含义效度分数(Y)分布的标准差:预测误差大小的估计值。公式:误差为0,预测完全准确:全为误差,预测完全不准

二、预测效标分数线性回归方程变量X和Y呈现直线相关方程预测的效标分数测验分数截距:纠正平均数的差异斜率:回归系数三、预测效率指数预测标准误无关系数(K)预测效率指数例如,某测验的效度系数为0.80,其预测效率指数是多少?第四单元影响效度的因素

测验组成测验实施样本团体的性质效标的性质一、测验本身的因素

(一)影响因素试题性质测验取材、测验长度、试题难度和鉴别力及编排方式。增加新试题对信度的影响大于效度;测验长度与信度和效度的关系题数与原测验题数之比信度效度1010.3000.4002020.4620.4963030.5620.5486060.7200.619120120.8370.688240240.9110.697480480.9540.713(二)提高方法取材代表性避免易引起误差的题型(如是非题)难度适中长度恰当先易后难排序二、测验实施

(一)主试的影响主试测验情境的控制按测验手册各项规定实施测验。施测过程场地布置材料准备作答方式说明时间的限制等二、测验实施

(一)主试的影响主试是否按测验手册各项规定实施测验指导语是否统一正确时限是否一致评分是否合理测验情境的控制场地布置材料准备作答方式说明时间的限制等(二)被试影响因素人格兴趣、动机、情绪、态度身心健康状况作答真实性是否充分合作与尽力三、样本团体的性质

(一)异质性特点越异质,分数分布越广,效度越高;越同质,分数分布越窄,效度越低;影响因素只以选拔上的被试为样本进行效度研究选拔标准太高(二)干涉变量

1、干涉变量的含义相同测验对不同团体的测量功能不同;干涉变量因性质不同(性别、兴趣、职业、年龄等)使不同团体具有不同的预测能力。2、对干涉变量的确定提出者吉塞利(E.E.Ghiselli,美)测量学家具体方法确定是否存在干涉变量D=个人预测效标分-实际效标分找出干涉变量选择不同对照组分别计算效度对亚团体的进一步分析四、效标的性质效标本身的性质——效标可靠性相同条件下:测量行为与效标行为相似,效度越高。效标与测验分的关系——关系线性两变量不呈线性关系两变量呈线性关系,但分布不均匀效标的性质效标本身的性质相同条件下:测量行为与效标行为相似,效度越高。效标与测验分数的关系类型两变量不呈线性关系;两变量呈线性关系,但分布不均匀;第一单元难度分析通过率或正答率试题的难易程度以全体被试答对或通过该题百分比表示对知识和能力水平的适合程度的指标。与测验效率的关系难度适当是构成优良测验的必要条件。

一、定义1、定义式二、计算方法(一)0、1记分的项目通过人数参测人数含义以高低分组平均通过率表示的难度2、极端分组法步骤高、低分组通过率平均通过率例4-1:200人参加某项测验,在一填空题上高分组48人通过,低分组23人通过。试问该题的难度值是多少?例4-2:在100名学生中,高分组与低分组各有27人。其中高分组答对第一题的有20人,低分组答对第一题的有10人。试问该题的难度是多少?3、选择题的校正原通过率备选答案数目例4-3:某题有5个选项,该题通过的人数为0.75,试问校正后的通过率是多少?(二)非0、1记分项目某题的平均得分该题的满分值例4-4:某试卷中一论述题为20分,10名参加测验者得分为10、18、14、8、18、3、14、10、9、8。试问该题的难度是多少?三、难度水平的确定依据测验目的性质试题形式内容试题难度水平测验难度水平(一)测题的难度

1、基本要求一般原则

各种测验的难度标准化测验:0.30~0.70;一般测验:

极难(P﹤.1)→极易P﹥.9)选拔和诊断测验:接近录取率效标参照测验:有时不考虑难度

2.选择题难度的确定一般:>概率水平P=概率水平:过难或题意不清,猜测性;P﹤概率水平:无意义,质量问题;概率水平正误试题:P=0.75四择一题:P=0.63(二)测验的难度依据取决于构成测验的试题难度一般原则标准化测验:正态分布效标参照测验:允许偏态分布

低高

图4-1正偏态分布图难度大低高

图4-2

负偏态分布图

难度大第二单元项目的区分度

一、定义目的区分优劣(Good-Poor)定义测题对所测心理特质的区分程度或鉴别能力二、计算方法

(一)鉴别指数含义高、低分组通过率之差:步骤按测验总分高低排序试卷确定高低分组:每组占27%分别计算各组的通过率代入鉴别指数公式

例4-7:100人参加某项测验,对其中四道题做对的人数分布如表所求,试问这些试题的区分度分别是多少?题做对人数

目高分组低分组12724212136842212结果题做对人数

目高分组低分组12724212136842212

通过百分比高分组低分组1.000.890.440.040.220.300.810.44D0.110.40-0.080.37测题鉴别指数与评价标准区分度(D)评价0.40以上0.30-0.390.20-0.290.19以下非常良好良好,如能改进则更佳尚可,仍需再改进劣,必须淘汰或加以修改提出者美国测验学家:伊贝尔(L.Ebel)(二)相关法某一测题分与效标成绩或测验总分的相关具体方法点二列相关——客观题二列相关——主观题Φ相关变量点二列相关二列相关Φ相关一列连续变量二分名称一列二分名称二分名称(人为的)二分名称点二列相关、二列相关和Φ相关三、区分度与难度的关系难度是区分度的必要条件难度愈接近.50,试题区别作用愈大。较难项目,对高水平被试区分能力高较易项目,对低水平被试区分能力高中等项目,对中等水平被试区分能力高P与D最大值的关系P最大鉴别值1.000.00.900.20.800.40.700.60.600.80.501.00.400.80.300.60.200.40.100.20.000.00P、D与答案分析实例例4-12:有人计划编制一套上海市中学几何学科测验,按预定题数加倍制定测题再以项目分析法选择最适当的测题。现从上海初三全域抽取代表性样本370人为预测对象接受测验。按学生总分高低顺序排列,抽取最高和最低的试卷各27%为高低分组。现从中选出4个选择题,经过项目分析获得以下结果。题组选答人数号别ABCD未答1高分组592120

低分组2250121602高分组581015161

低分组2621153623高分组1715282812

低分组25111934114高分组14414365

低分组15610285正确答案BADC抽取代表性样本(370人),预测;按总分高低排序,确定高低分组(27%)求两组的通过率及平均通过率;求鉴别力指数和相关系数;比较高低分组的难度和区分度及不同答案的反应;根据分析结果,筛选试题或修改试题;分析程序题组选答人数号别ABCD未答1高分组592120

低分组225012160

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论