教育统计与测评导论_第1页
教育统计与测评导论_第2页
教育统计与测评导论_第3页
教育统计与测评导论_第4页
教育统计与测评导论_第5页
已阅读5页,还剩248页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、教育统计、测量与评价1教育统计与测评导论 刘新平 刘存侠编著概率论基础推断性统计教育测量教育评价2名词解释 1、统计:就是“统而计之”对所考察事物的量的取值在其出现的全部范围内作总体的把握,全局性的认识。教育统计:对教育领域各种现象量的取值从总体上的把握与认识,它是为教育工作的良好进行,科学管理、革新发展服务的。教育统计学:社会科学中的一门应用统计,是数理统计跟教育学、心理学交叉结合的产物。3测量:按一定规则给对象在某种性质的量尺上指定值。教育测量:就是给所考察研究的教育现象,按一定的规则在某种性质量尺上指定值数据:用数量或数字形式表示的资料事实称为数据。计数数据:是以计算个数或次数获得的,多

2、表现为整数。测量评估数据:借助测量工具或评估方法对事物的某种属性指派给数字后所获数据。4 内容简介 一 教育统计 描述性统计,概率论基础,推断性统计, 方差分析, 回归分析 二 教育测量 教育测量概述, 测验的质量分析, 考试设计与试题编制, 测验分数的转化与组合, 项目反应理论 三 教育评价 教育评价概论, 教学评价, 学校、教师和学生的评价, 教育评价中的多元分析方法5第一章 描述性统计 统计学是一门研究数据的搜集、整理、分析与推理方法的科学,单纯对一组数据的面貌特征进行分析研究称为描述性统计。 在统计学中,通过对样本的描述来推断整体的特征,称为推断性统计,简称为统计推断。 根据样本信息进

3、行统计推断时,势必要冒导致错误结论的风险。 教育统计学是应用数理统计方法去研究教育现象的一门应用学科。 数理统计是指应用概率论来研究统计学的学科。 教育学与心理学中的许多问题借助于统计学都可以量化,从而揭示教育规律和心理规律。6数据也称为资料,我们把搜集记录下来的数量依据称为数据。在实际工作中,一般采用调查的方法来取得数据。 把所考虑对象的全体称为总体或母体,其中每一个对象称为个体;而从总体中抽取的一部分个体称为样本或子样,样本中所含个体的数目称为样本容量。 样本分为大样本(n30)和小样本(n30);样本容量的选择取决于实验的条件和精度;样本越大,反映总体的信息越充足,但计算量也越大,因此样

4、本容量最好适当。 1.1 怎样获取数据7抽样调查中对样本的基本要求:1)能充分反映总体的信息,即每个个体被抽到的可能 性相同,个体与个体之间互不影响,也就是个体互相独立。2)每个个体具有和总体相同的本质特征,即样本具有某种代表性,数学上称此为与总体同分布。满足以上两条的样本称为随机样本,从样本中抽出一个随机样本,统计学上称为随机抽样。随机抽样常用的有: 一 . 简单随机抽样(随机数表法 ;抽签法) 二. 分层抽样 三. 等距抽样(个体排列后,以确定的相等距离抽取随机样本)8一.数据的基本类型(离散型数据, 连续性数据)二.频数分布表 三.累积频数分布表四.频数分布图 五.累积频数分布曲线图 1

5、.2 频数分布9描述统计 补充:常用统计表、统计图及统计量 (一)常用统计表 1、统计表的结构:由标题、项目(标目)、数据、线条、表注(数据来源)组成 1983年我国普通中学教师学历统计表 学 历 人 数 百分比(%) 大学本科以上 300887 11.6 大专毕业 566863 21.8 中专毕业以下 1729750 66.6 合 计 2596900 100.0 注:引自中国教育成就统计资料,1984年人民教育出版社标题 项目 线条 数据 表注10(二)常用统计图1、统计图结构:图题、图目、图尺、图例、图形、图注人数 70 60 50 40 30 20 10 1980年 1985年 1991

6、年某校近十年教师人数及性别变化图示男 女年份图例图形常用统计表、统计图及统计量图目图尺(制图的尺度线。点、单位的总称)图题112、统计图的类型及绘制要求绘制统计图的要求A、根据数据和目的选择合适的图形B、图形所表示的面积或距离要比例适当C、表示不同的事物要用不同的颜色与线条类型:1 直条图 2 圆形图 3 曲线图 4直方图 讲师42.9%助教28.8% 教授0.4%某大学教师职称图副教授21.9%某市7至18岁男女生身高比较图1.751.701.651.601.551.501.451.40岁7 8 9 10 11 12 13 14 15 16 17 18米某校某班50名学生家庭背景情况比较 2

7、0 15 10 5人数其他农工商企业职员公务与科教人员141615 5 20 15 10 5人数其他农工商企业职员公务与科教人员141615 5(二)常用统计图12 3、次数分布表与直方图 对一批数据按一定次序排列并加以分组、编成反映这群数据在各组上出现次数的统计表和图,就是次数分布表和直方图。例:一次考试之后,某班48名学生的成绩如下: 86,77,63,78,92,72,66,87,75,83,74,47,83,81,76,82,97,69,82,88,71,67,65,75,70,82,77,86,60,93,71,80,76,78,57,95,78,64,79,82,68,74,73,

8、84,76,79,86,68 将该组数据整理成次数分布表与直方图(二)常用统计图13 1求全距:R=maxxi-minxi用该组数据最大数减最小数 2定组数和组距 :数据划分组数、每组上下限之间距离(全距除以组数) 3列组限:从最高分至最低分以组距为单位依次分组 4归组划记:计算数据出现次数,并计算累积次数及相对次数 步骤:例:一次考试之后,某班48名学生的成绩如下:86,77,63,78,92,72,66,87,75,83,74,47,83,81,76,82,97,69,82,88,71,67,65,75,70,82,77,86,60,93,71,80,76,78,57,95,78,64,7

9、9,82,68,74,73,84,76,79,86,68 组限 组中值 划记 次数 f 累积次数f 相对次数Rf 累积相对次数Rf95 90 85 80 75 70 65 60 55 50 4599 94 89 84 79 74 69 64 59 54 49 2 2 5 9 12 7 6 3 1 0 1 2 4 9 18 30 37 43 46 47 47 48 0.040.040.100.190.250.150.130.060.0200.020.040.080.180.370.620.770.900.960.980.981.00正 正 正 正 正正合计 48 48 1.00次 数 分 布 表

10、 97 92 87 82 77 72 67 62 57 52 47K=1.87(n-1)2/51414 12 10 8 6 4 245 50 55 60 65 70 75 80 85 90 95 100次数分数 直方图15一.平均数 表示一组数据集中的位置,又称为均数. 1.算术平均数, 2.加权平均数, 3.几何平均数, 4.调和平均数 1.3 集中量数16 3. 几何平均数 常用来计算平均增长率 例 某学校1999年至2001年招生人数如表所示, 求该校平均每年招生的增长速度。 年份招生人数1999900200011002001120017 4、调和平均数例2甲每小时解6题,乙每小时解3题

11、,两人各解12题,求平均解题速度。18 4. 调 和 平 均 数 一般用于计算平均速度 例3 甲每小时解4题,乙每小时解6题,丙每小时解5题,三人解题数分别为 20,24,21, 求平均解题速度。19二.众数 ; 三 . 中数(中位数).例 表中给出了25个数据的频数分布,求平均数、众数与中数.组区间组中值频数758077.51707572.53657067.55606562.510556057.54505552.5220 1.4 差异量数 用来衡量一组数据分散程度的量数称为差异量数。 常见的差异量数有:极差,四分位差,平均差,标准差。 一.极差 极差=最大值最小值 二.四分位差 四分位差指

12、之差的一半,用来描述频数 分布中间数值的分散程度,用Q表示.21例1 求20名学生一次语文测验成绩的四分位差.66,67,67,69,70, 71, 72,73,74,76,85,86,88,88,90, 90, 92,94,97,98。四.三种集中量数的比较22 三. 平均差 平均差是一个相对平均数来衡量一组数据分散程度的差异量,用 表示.四.标准差方差标准差23 标准差是衡量一组数据分散程度最有效的量数。它给出了一组数据偏离平均数程度的大小,标准差越小,这组数据偏离平均数的程度越小,即分布的差异越小.五.变异系数 差异量数用来衡量一组数据的分散程度都带有计量单位,不能比较不同单位的两组数据

13、。差异量数都是绝对差异量;而变异系数是相对差异量。1)极差系数 极差系数=最大值/最小值2)标准差 系数 24例1 甲射击三枪击中8,7,6 乙射击三枪击中5,6,10;问谁的射击水平高?例2 某学前班6岁男童平均体重为20.50公斤,平均身高为118.20厘米,体重的标准差为1.80公斤,身高的标准差为4.20厘米,试比较体重与身高的差异程度.例3 某班学生第一次数学测验平均分为74.2,标准差为18.5分;第二次测验平均分为72.5分,标准差为12.5分,试比较两次数学测验成绩的差异程度。25 第二章 概率论基础 2.1 事件与概率一.事件随机试验 ; 随机事件 ;事件的关系.二.概率1.

14、概率的统计定义事件A的频率Q(A)=m/n 事件A的概率P(A)2.概率的古典定义3.概率的数学定义n很大26例 一、二、三班的男女生的人数如表所示,从中随机抽取1人,求该学生是一班学生或男生的概率是多少?一班二班三班总计男23222469女25242271总计484646140272.2 随机变量及常见分布一.随机变量1.离散型随机变量及概率分布例 某学生参加一项智力竞赛,共回答3个问题,求该生答对题目数的概率分布列。282.连续型随机变量及概率密度函数29例 3路公共汽车每5分钟来一趟,其乘客候车时间X为一随机变量,求(1)概率密度函数p(x);(2)候车时间不超过3分钟的概率。 一 般地

15、,若随机变量X在区间(a,b)服从均分布,则概率密度为303.随机变量的分布函数31324.随机变量的数字特征(1)数学期望(期望值)数学期望是描述随机变量取值集中位置的一个数。333435(2)标准差3637(4)协方差与相关系数38二.二项分布1.伯努利(Bernouli)概型只有两个结果的试验为伯努利试验,伯努利试验服从(0-1)分布。n重伯努利概型具有以下两个特点:3940三.正态分布1.正态概率密度函数4142例1 设随机变量 XN(0,1),求P(X1.65), P(1.65X-1.5) 例2设随机变量 XN(60,25),求(1)P(X75), P(65X80), P(X60)

16、(2)若=0.05,F(x)是X的分布函数, 求F(x)的百分位数, 及F(x)的上百分位数.43例3 已知某车间工人完成某道工序的时间服从正态分布N(10,9),问(1)从该车间工人中任选一人,其完成该道工序的时间不到7分钟的概率;(2)为了保证生产连续进行,要求以95%的概率保证该道工序上工人完成工作时间不多于15分钟,这一要求能否得到保证?442.正态分布及标准正态分布函数值表45.标准正态分布函数及其应用例1 某地2002年全国普通高校统考文科数学成绩服从正态分布,已知期望为42分,标准差为6分,如果某考生得48分,问有多少考生名列该考生之后?(确定超前百分位数,排定名次.所谓超前百分

17、位数,是指列于一个数值之后的人在全体中所占的百分数。)例2 学生的学习能力一般是服从正态分布的;如果某校200名初中一年级学生按能力分成5组参加某项测验,问各组分别应该有多少人? (按能力分组,确定各组人数)46.应用于标准分数()线性标准分数科目原始分数全体考生标准分数甲乙甲乙 甲乙语文-0.25 0.2547.5 52.5数学0.75 -0.2557.5 47.5外语-0.33 046.7 50.0总和0.17 0151.7 150.047()正态化标准分数(也称为分数) 先对原始分数依大小排序,求出每一分数以下的考生占考生总数的百分比,再利用标准正态分布函数值表(附表)查出对应的值,即为

18、正态化标准分数.48回顾与提高49回顾与提高50正态随机变量的性质定理1 设 , 则 (1) ;(2) 定理2 设 , ,X与Y 独立 则 ;从而 51 3.2抽样分布定理一.总体和样本 二.样本分布函数三.统计量 统计学中称不含总体未知参数的样本的函数为统计量,主要包括样本均值,样本方差和距.在统计推断中,我们将用这些统计量来对总体的某些特征作出估计和检验。 统计量是统计推断中一个非常重要的概念,当我们要了解一个总体的分布或总体中的某个参数时,往往要构造一个统计量,然后依据样本所遵从的总体分布,找到统计量所应遵从的分布,以此对总体的分布或总体中的某个参数作出合理的推断或检验。 为了方便,不妨

19、把某统计量的观察值简称为该统计量.525354例1 设总体服从正态分布,已知总体的方差为16,从总体中抽取容量为9的样本,求样本均值与总体均值之差的绝对值小于2的概率?5556四.三种重要的理论分布定理 若 , 则 57在对总体方差进行检验和区间估计时,必须用到以上两个统计量.58592. T 分布60例1 设总体服从正态分布,从总体中抽取容量为9的样本,求样本均值与总体均值之差的绝对值小于2的概率?如果(1)已知总体的方差为16。 (2)总体方差未知,但样本方差为18.45。61应用此定理,推断两个独立正态总体的方差是否一致。6263补充习题6465对总体方差进行推断.在总体方差未知的条件下

20、对总体均值进行推断。 五.统计量的分布1.样本均值的分布666768关于正态随机变量的线性函数的分布69单个正态总体的统计量的分布70两个正态总体的统计量的分布71 第三章 推断性统计 推断性统计的核心是由样本所提供的信息,对总体的分布及分布的参数作出具有一定可信程度的推断;推断性统计有两种:一种是参数估计,另一种是假设检验。 3.1参数估计 参数估计即根据样本估计出总体的参数;把总体待估参数记为,把用来估计总体参数的统计量称为估计量,记为 . 参数估计分为两类:第一类是点估计,用一个统计量 作为总体未知参数的 估计量;第二类是区间估计,用两个统计量 对总体未知参数所在范围进行估计,使位于 之

21、间的可能性尽量大。在估计过程中,我们力求以较大的把握保证估计的准确性;抽样分布定理为进行这项工作提供了理论工具。72 点估计点估计有两种方法:距法和最大似然法.1.距法定义 以样本的r 阶距作为相应总体r阶距的估计量,以样本距的函数作为总体距的同类函数的估计量称为距法.73例1 求总体均值和方差 的估计量。2.无偏估计量定义 设 为总体未知参数的一个估计量,如果 E =,则称 为的一个无偏估计量有效性:743.最大似然法 最大似然法由于总体分布已知,从而抽出的样本能充分利用总体分布提供的信息,因而避免了距法的缺陷,应用较广。例1 设总体X服从正态分布,其中期望 和标准差 都是未知参数,如果取得

22、观察值为 ,求参数 及 的最大似然估计量。75二.区间估计76下面讨论正态总体的参数区间估计问题例 1 由以往资料,某校一年级男生100m跑成绩的标准差为2.1s,现从入学新生中抽出20名男生,测得100m跑平均成绩为13.5s,求该校一年级男生100米跑平均成绩的95%的置信区间(假定百米跑成绩X服从正态分布).771.总体均值的区间估计782)大样本,总体方差 未知,求的置信区间 例3 从某校高一男生中抽取9人,其身高(米)分别为1.70,1.63,1.78,1.55,1.59,1.74,1.72,1.64,1.60.试估计该校高一男生平均身高所在的范围。(=0.05,假定身高服从正态分布

23、)例2 从某区高中入学考试学生中抽取150份语文试卷,算得平均成绩为81.5分,方差16.0分,试对全区高中入学考生的平均语文成绩进行区间估计(=0.01). 793)小样本,总体方差未知,求的置信区间802.总体方差 的估计区间1)已知总体均值,求 的置信区间81例4 某校数学系入学新生的高考数学成绩一直稳定在75分左右,现从一年级新生中抽取10名,其入学高考数学成绩分别为71,68,75,90,84,60,90,72试估计该校数学系新生高考数学成绩的标准差在何范围?82例5 从某区随机抽取7名7岁的男童,其体重的标准差为2.25公斤,试求某区7岁男童的体重标准差的95%的置信区间。83归纳

24、 正态总体X的参数区间估计1.总体均值的区间估计2.总体标准差的区间估计84习题1.某射击队员射击十枪的成绩是8,9,10,10,8,9,7,8,9,8,试估计他射击的总体期望与方差的90%的置信区间。2.测某班学生身高5人,测得的值为(米)108.5,109.5,110.0,110.5,112.0,假定总体服从正态分布,且方差为2.5,求总体均值的置信度为0.95的置信区间。853.二项分布总体参数p的区间估计即总体Xb(n,k,p),对比率P进行估计。(1)小样本p的置信区间例 某班20人参加一项测验,有15人通过;求p的0.95置信区间.86(2)大样本p的置信区间87例6 某地区抽查1

25、00名中学教师,其中具有本科以上的有62人,试估计该地区具有本科以上学历教师所占比例的范围(=0.05)88设总体X服从某一分布(不是正态分布),它的概率函数或概率密度中含有未知参数,则总体均值与方差显然都依赖于.四、非正态总体参数的区间估计89 3.2参数假设检验一.假设检验的概念1.假设 参数假设 指总体分布已知,关于未知参数的假设,教育研究中用得最多的是已知总体服从正态分布,对总体均值和总体方差作出假设。 非参数假设 包括的范围很广,可以说,一个假设如果不是参数假设,就称为非参数假设. 非参数假设一般指关于总体分布的假设.2.假设检验 判断假设成立与否的方法叫做假设检验,最简单的检验是显

26、著性检验。 所谓显著性检验是只对一个假设进行检验.903.小概率原理(实际推断原理) 概率很小的事件叫做小概率事件。在统计学中,概率如低于0.01,0.05或0.10则认为小;把这些值统一记为,称为显著性水平。小概率原理是指:小概率事件在一次试验中是实际上不可能发生的;同样,大概率事件在一次试验中是实际上必然会发生的. 这个原理在实际推断中的应用:如果小概率事件在一次试验中发生,那么,这是不切合实际的。4.两类错误 第一类错误:称为“弃真”,记其概率为 第二类错误:称为“取伪”,记其概率为91犯这两类错误的后果通常是不一样的。对一定样本容量n,一般来说,减少,则增大;减少,则增大;同时,对于固

27、定的,适当增加样本容量n可以减小。5.检验的一般步骤92 二.总体均值的检验(*)双边检验(*)单边检验即检验总体均值是大于样本均值,或小于样本均值。例1 某校五年级学生语文期未成绩XN(82,16),采用新教学法后,抽测10名学生其平均成绩为85分,问采用新教学法后平均成绩与原来有无显著差异?93原假设在显著水平下关于原假设的拒绝域总体方差已知总体方差未知1.单正态总体均值的假设检验表94例2 资料显示,某区6岁儿童平均体重为19.2千克。现在从某幼儿园抽测10名6岁儿童身高,其体重为:20.1,19.0,19. 4,20.5,18.5,19.0,21.0,19.5,19.0,18.0.问该

28、幼儿园6岁儿童平均体重与本区6岁儿童平均体重有无显著差异?例3 某中学初中二年级实验班30名学生和普通班40名学生解应用题测验结果为实验班平均成绩为69分,普通班平均成绩为64分,而实验班的成绩服从正态分布,且总体方差为11;普通班的成绩也服从正态分布,总体方差为9.问实验班与普通班学生解应用题能力有无显著差异?样本均值为19. 4,样本方差为0.76,t=0.69,显著水平=0.05 给定=0.05,计算得 u=6.49953.双正态总体,方差未知但相等,独立样本,比较两总体均值2.双正态总体,方差已知,独立样本,比较两总体均值96原假设在显著水平下关于原假设的拒绝域两总体方差已知 方差未知

29、,但相等双正态总体均值的假设检验表(独立样本)给定=0.05.经计算知 t=15.497例6 某大学检查40名大一男生平均体重为58.5千克,方差为8.1千克;30名大一女生的平均体重为48.0千克,方差为7.4千克;假定男女总体的方差相等,问大一男女学生的体重有无显著差异?对此假定进行检验:给定=0.05.984、双正态总体,复查未知,相关样本,比较两总体均值例7某小学数学组为了提高学生是能力,后半学期常用新的教学法在10名学生中进行试验,其成绩见表。问此教学法与原教学法是否有显著性差异?学号前后170742829036068462645859267575774708909595862107

30、27899五.二项分布 总体参数假设检验(大样本)原假设构造统计量在显著水平下的拒绝区域100例 3 设某种仪器的成功率为p,规定成功率要到达0.8才合格.现在抽取40人试用这种仪器,其中30人有效,问这种仪器是否合格?例8 某地城区100人中升入高中的有80人,郊区80人中升入高中的有58人;问城区和郊区毕业生升入高中的比率有无显著差异?101三.总体方差的检验 1.单正态总体方差的假设检验表原假设 在显著水平下关于原假设的拒绝域 总体均值已知 总体均值未知102例5 某大学外语系新生高考外语成绩服从正态分布,已知总体标准差为18.经一学期学习,随机抽测10名学生,其外语成绩分别为 70,7

31、8,85,90,69,84,92,88,86,75.(1)问标准差与入学前相比有无显著差异(=0.05)?(2)若已知总体均值为76,问标准差与入学前相比有无显著差异(=0.05)?1032.双正态总体方差的假设检验表原假设 在显著水平下关于原假设的拒绝域 已知两总体均值 未知总体均值104 3.3非参数假设检验一.总体分布的统计检验 1051)基本想法2)理论依据1063)具体做法107例1 某区6岁男童的身高 x 是一总体,现从该区抽取50名6岁男童,其身高数据如表。试作总体 x 服从正态分布的拟合检验.组别组区间组频数1108.5以下12108.5110.533110.5112.5141

32、12.5114.525114.5116.566116.5118.577118.5120.5118120.5122.599122.5124.5510124.5126.5311126.5以上2总计50组区间实际频数理论频数114.5以下77.800.640.08114.5116.566.450.200.03116.5118.578.251.560.19118.5120.5118.655.520.64120.5122.597.651.820.24122.5124.555.350.120.02124.5以上54.700.090.02总计501.22108 2. K检验109110例 某地区6岁男童身高

33、是一总体 ,现在从该区抽取50名6岁男童,其身高(公分)数据如表。试作总体服从正态分布的拟合试验。组别组区间组频数1108.5以下12108.5110.533110.5112.514112.5114.525114.5116.566116.5118.577118.5120.5118120.5122.599122.5124.5510124.5126.5311126.5以上250组中值107.5-2.560.00500.005109.5-2.110.0170.020.003111.5-1.670.0480.080.032113.5-1.220.1110.100.011115.5-0.780.2180

34、.140.078117.5-0.330.3710.260.111119.50.110.5440.400.144121.50.560.7120.620.092123.51.000.8410.800.041125.51.440.9250.900.025127.51.890.9710.960.011111 二.两个样本是否来自同一总体的检验 总体分布未知时,双总体参数的检验1.秩和检验秩表示排列的次序,表示样本数据在次序统计中的地位.秩和检验选取 为统计量。(1)单样本问题的检验 (2)双独立样本问题的检验112例 1 甲:91,88,68,83,65,74,73,90 乙:96,63,75,81,

35、72,64.问两种教学法结果有无显著差异?(=0.05)秩1234567891011121314甲6568737483889091乙636372758196例2 甲:104,110,106,113,115,111,102,128,110,117. 乙:94,95,103,114,126,95,102,100,98,103,116,105,107113例5 分别测量10名视力有障碍和12名视力正常的四年级学生的IQ得分为A 104,110,106,113,115,111,102,128,110,117.B 94,103,114,126,95,102,100,98,103,116,105,107试

36、作有视力障碍学生IQ得分高于视力正常学生IQ得分的检验(=0.05).T=143.5,U=2.66.1142.独立性检验 独立性检验是利用分布统计量研究总体的两种分类指标是否独立的一种非参数检验方法.例 赞成 反对 和中年教师6436100青年教师5624 80 和12060180115116 第五章 回归分析 5.1 一元线性回归 设 x,y为随机变量,如果 x与 y具有线性相关关系,我们的目的是要通过样本找出 x与 y之间的近似直线的表达式 一、如何配直线 假定 X、y之间存在线性相关关系,要配直线,关键在于找出回归系数。117118例1 从某大学数学系一年级抽出15名学生,统计出他们的数

37、学分析成绩和高考数学成绩,如下表。试建立回归直线方程。高考成绩分析成绩161722707038390455625777468085765818757696467107278116862127480138583146467159093总和10831120372143924900490068897470795158208351844900810085070119 二、相关系数类似于总体相关系数 r 的定义,样本相关系数定义为1202、平方和分解式121三、相关性检验 由样本相关系数来判断 x 与 y 之间线性相关密切 程度时,的绝对值到底要多大才可以用回归直线来表示 x 与 y 之间的关系?也就是

38、说,的绝对值要大到什么界限, x 与 y 之间的线性相关性才算显著?122例4 某小学在10名学生中进行教学改革实验,其成绩统计如下,问学生速算能力在实验后有无显著差异?使用前x使用后y7074829060686264859275757470909558627278总和401304.双正态总体,总体方差未知,相关样本,比较两总体均值123 第六章 教 育 测 量 概 述 6.1 教育测量的概念 1918年桑代克: “凡客观存在的事物都有其数量”, 1949年麦柯尔:“凡有数量的事物都可以测量”。 一.测量的定义 测量是指按照某种法则对测量对象的某种属性给出数字表达的过程;即人们对客观事物的某种

39、属性进行某种数量化的测定。 124测量的三要素数字具有区分性、顺序性、等距性和可加性.125 二. 教育测量的含义 教育测量属于心理测量的范畴. 教育测量指,与人的受教育活动直接相关的某些心理属性为对象的数字指派过程。它是心理测量的原理和方法在教育领域的应用。 教育测量有广义和狭义之分。广义的教育测量几乎包括心理测量的所有方面。狭义的教育测量只包括学业成绩测量,也就是对学习结果即知识和技能的测量。 教育测量就是对学生的学习能力、学业成绩、兴趣爱好、思想品德以及教育措施上许多问题的数量化测定。 126 2. 参照点 任何测量都需要有一个计算的起点,这个起点叫做参照点.参照点有两种:1)绝对的零点

40、;例如长度的起点,质量的起点等; 2)人定的参照点;例如温度的起点,陆地的起点等。 最好的起点是绝对的起点,人定的参照点越接近零点越好 教育测量有各种参照点: 百分制以零分为参照点; 标准分采用团体的平均分为参照点; T分数以平均分以下三至五个标准差为参照点 3. 量距 量距是测量工具的量程;测量范围的大小要受到测量工具量程的限制。 4.量表 量表是测量的工具,是表示量数的方法。例 尺子,天平等. 教育测量所使用的的量表有四种:类别量表;等距量表;等级量表;比率量表。 1.单位 单位用来表示测量数字的多少,它必须有明确的意义和相同的价值,即每一单位只有一种解释且不随测量数字的改变而不同。百分制

41、单位,标准分单位,等级分单位等。三 .测量法则的要素 127 四、 教育测量的有关量表简介 要测量某种事物,就需要先要有一个具有单位和参照点的连续体,然后用这个连续体去测量某种事物,以表示该事物的数量,这个连续体就叫做量表。即 所谓量表,是指依据事物属性的特性以及所设的法则,使一组数字能够达到用于描述事物属性特征的程度水平的标准。 1.类别量表(或称名量表):如学号,班级的编号等。 它依据法则指派给事物及其属性类别的数字仅仅是一种代表符号或称呼,没有数量大小的含义,亦即仅仅具有区别性而不具有序列性、等距性、可加性、不能进行运算。 1282.等级量表(或顺序量表):如名次,等级等。等级量表本质上

42、也是对事物进行分类,但所得数值在每一类别中具有有序性或等级性,却不具有差距相等和测量的绝对零点,也不可以进行运算。3.等距量表(或区间量表):如百分制分数等。等距量表除具有类别、等级量表的性质外,还要求一定的数量差距在整个量表的阶梯上都相等,亦即量表各部分的单位相等,而且单位可以细分、测值可用实数表示。等距量表没有绝对零点,只有相对零点;因此,只能进行加减运算,不能进行乘除运算,它具有区别性、等级性及可加性。4.比率量表:理想量表它除了具有类别、等级、等距量表的特征外,还具有一个实际意义上的绝对零点。129五、教育测量的特点1.教育测量一般是间接测量2.教育测量的度量单位的相对性3.教育测量的

43、复杂性130一.以测量的对象来分类,教育测量有:1. 学业成绩测验:测量学生的知识、技能,如数学测验、语文测验、读法测验等。2. 智力测量:用于测验学生的观察、识记、分析、判断、推理等思维活动的能力。如词汇测验、填图测验、辨别测验、类推测验、演题测验等。 3. 人格测验:如意志测验、性格测验、兴趣测验、情感测验等。 4. 特殊能力测验:如绘画能力,舞蹈能力等。六.教育测量的种类131二. 以测验的目的来分类,教育测量有:1.预测测验(安置测验) 2.形成性测验3.总结性测验 4.诊断性测验5.难度测验 6.速度测验三 以测量的方式来分类,教育测量有1.个人测验 2.团体测验四以试题的形式来分类

44、,教育测量有1.客观性测验 2.论文式测验3.实践性测验 4.情景测验1326.2教育测量的工具测验一.测验的定义 “测验是一个或一群标准的刺激,用以引起人们的行为,根据此行为以估计其智力、品德、兴趣、学业等。” “心理测验实质上是行为样组的客观的和标准化的测量”。 测验是教育测量的工具,而且是主要的工具;调查、观察、评定、实验等方法也可以作为教育测量的工具。二.测验的分类 教育测量的分类也实用于测验的分类。1.依据测验的使用规模分类学校教育中的测验又分为(1)配置性测验(摸底性测验) (2)形成性测验(诊断进步测验) (3)总结性测验1332、依据测验分数解释的参照标准分类1)目标参照性测验

45、:以某种目标为依据来进行命题和分数解释的考试.2)常模参照性测验:依据测验群体的常模来解释分数的考试,其目的在于把个人成绩与他人成绩作初比较。3、依据测验功能分类1)能力倾向测验;2)学业参加测验;3)人格品德测验134 三、教育测验的作用1)辨别智愚、因材施教、2)选拔人才、指导就业3)判定成就、实验分组4、诊断困难、预测发展135四、教育测验的实施方法学业成就测验的实施方法有口试、笔试和实践考核等。1、口试提问灵活机动,能考察学生的能力品质,对知识理解的深度、广度。2、笔试是一种高效率的考核方法,考试结果具有可比性。3、实践考核多用于需要实际操作的学科,如体育运动技能,艺术学科的表演技巧等

46、。136 6.3教育测验的误差 一.误差及其种类 误差是测量值与真实值之差。它反映了测量值偏离真实值的大小和方向,也称为绝对误差。 在教育测量中,把测验数据与学生真实水平之间的差距称为测验误差.误差有两种形式: 一种是由偶然因素引起的不稳定的误差,称为随机误差;它使得多次测量结果不一致,误差大小和方向是随机变化的。 另一种是系统误差,它是与测验目的无关的稳定因素引起的,它存在于每次测验中,使得测验结果恒定而有规律的偏离正确值。 系统误差是由测验方法和测验条件决定的,它只影响测验结果的准确性;而随机误差既影响测验结果的准确性,又影响测验结果的一致性。137 二. 真分数与相对误差 真分数指的是测

47、验在没有误差时所得的真值。 任何测验都不可能没有误差;从理论上来说,无限次测验结果的平均值便是真分数。某考生在考试中所得的分数称为实得分数或观察分数,根据误差的定义知,某考生测验所得成绩课看作是真分数和误差分数之和。即138 三.测验误差的来源1.测验本身引起的误差2.实施过程引起的误差3.被试本身引起的误差1396.4经典测验理论的基本假设一.心理特质的可测性假设心理特质指表现在一个人身上所特有的相对稳定的那种行为方式. “凡客观存在的事物都有其数量”, “凡有数量的事物都可以测量”。140 二.CTT的数学模型及其假设公理 X = T + E CTT数学模型,E(0,?)根据这一模型,Gu

48、lliksen于1950年提出了三个相关的假设公理:(1)若一个人的某种心理特质可以用平行的测验反复测量足够多次,则其实得分数的平均值会接近真分数,或误差的平均值会为零,即(2)误差与真分数相互独立,即两者之间的相关系数为零;(3)各平行测验上的误差分数相互独立,或个试题之间的真分数相互独立,即141三.方差分数的关系142 第七章 教育测验的质量分析 测验作为教育测量的工具,必须有良好的质量,才能达到实际应用的目的。测验的质量标准,总起来说,就是正确可靠、确实有效、难易适当和鉴别力强;这就是衡量教育测量质量的四个指标:信度、效度、难度和区分度;前两个指标主要是对整个测量而言的,后两个指标则主

49、要是对测量的项目而言的。.测验的信度信度的概念 测验的信度是指测验结果的稳定性或可靠的程度,亦即测量的结果是否真实、客观地反映了考生的实际水平。 所谓可靠性是指对同一对象进行两次相同测验所得结果的一致性和稳定性程度。143测量学中,信度可定义为真分数方差与实得分数方差的比率,即 这表明,真分数方差在实得分数方差中所占的比值越大,则信度就越高。具体而言,可以从以下三个方面来理解测量的信度。.信度指实测值和真值相差的程度(实测值)(真值)(误差)144.信度指统计量与参数之间的接近程度 统计量是指样本上的各种数字特征,参数是指总体上的各种数字特征。统计量越接近参数,这个统计量的可靠性便越高.信度指

50、两次重复测量或等值测量之间的关联程度如果对同一对象进行两次重复测量或等值测量后,计算两次测量的相关系数,相关系数越高,说明测量的信度就越高;反之,就越低。信度的值在()之间,称为信度系数.当信度系数为.时,测验可靠性很高;当信度系数为.时,是通常能得到的最好结果;当信度系数为.时,也比较好;当信度系数为.以下,表明误差太大,该测验不能使用.145 信度是测验的必要条件,它是衡量测验分数一致性或可靠性的一个重要指标,即用一个或一组测验对同一被试群体实测多次,所得结果的一致性程度,以及测验分数所反映被试真实水平(即真分数)的可靠性程度。 影响信度的主要因素是测量中的误差。一般情况下,测量资料存在三

51、种误差:一是抽样误差,它的估计值是样本标准差S与样本容量n的算术平方根之比。二是随机误差,它是由偶然因素引起的无规律的误差,是由心理属性的行为反应所造成的 ,它即影响测验的一致性,又影响测验的准确性。三是系统误差,它是由与测验目标无关的某种常定的因素所引起的恒定的、有规律性变化的误差。它不影响测验结果的一致性或可靠性,只影响测量的准确性。 测验的稳定性主要的研究如何控制随机误差问题。真分数理论的三个假设:146二.信度系数的计算(信度的类型)信度是指测验的可靠性,亦即多次测验结果的一致性.在实际工作中,就是通过对测验结果的一致性程度来计算信度的;主要有三种)稳定性系数:是估计测验中跨时间的一致

52、性;)等值性系数:是估计测验中跨形式的一致性;)内在一致性系数:是估计测验中跨项目的一致性;.稳定性系数(再测信度)稳定性系数又称为再测系数,它是指用同一测验试卷,在先后两个时间内对同一组被试进行测验,两次测验实得分数的相关系数。稳定性系数是估计信度最简单的方法,只需用同一份试卷对同一组考生测验两次即可。147稳定性信度的计算公式为使用再测法计算稳定性系数时,要注意以下问题:(1)两次测验之间的时间间隔要适宜。稳定性系数的大小,常常受两次测验的时间间隔的影响。(2)再测法只适用于速度测验,而不适用于难度测验.(3)应注意提高被试者的积极性。或148 2. 等值性系数(复本信度) 等值性系数是以

53、两个等值(题型、题量、难度、区分度等相等)但具体内容不同的量表,在最短的时距内,对相同的应试者先后施测两次测验所获得的两组对应分数的相关系数。 等值性的信息除了有助于判断某种测验信度的高低外,对于评价应试者对某种教材掌握的范围程度,也具有重要意义。常用等值性信度作追踪研究或探讨某些影响测验成绩的因素。复本信度不仅适用于难度测验,也适用于速度测验。1493.内部一致性系数指同一测验量表的两个部分得分的相关系数。计算内部一致性系数的方法有以下两种:(1)分半信度 分半法是按正常的程序实施测验,然后将全部试题分成相等的两半(通常采用奇偶分半法),根据各人在这两半测验的分数计算其相关系数;最后用斯皮尔

54、曼布朗公式校正,校正公式为其中为两半测验的相关系数, 为整个测验的相关系数.150半分法例1有一个由100题构成的量表施行于10名学生。怎样评价测验结果的信度? 得分被试奇数题总分偶数题总分0102030405060708091038373841403638394135373736393934383939 36144413691444168116001296144415211600122513691269129615211521115614441521152112961406136913681599156012241444152115601260382374146241401414311151

55、例1 若10名学生奇数题得分 x与偶数题得分 y如下表所示。试求这份整体试卷的分半信度。(135) 采用斯布朗公式计算分半信度时,须要假定两半之间的平均数、标准差、测题的难度、区分度、分布形态上以及内容上都相同;否则,信度估计就会有误差。学生01020304050607080910偶数3835212742141428287奇数303281825152221179152弗拉南根(Flanagan)公式与卢龙(Rulon)公式而弗拉南根(Flanagan)公式与卢龙(Rulon)公式无须上述假定即可用来求全卷的信度。弗拉南根公式卢龙公式153(2). 库理信度系数公式(客观题试卷)适用于客观题试卷

56、的一序列公式较为常用的是154例2 有一个包含6个问题的测验,10个应试者得分如下(答对得1分,答错得0分),试估计应试者反应的一致性程度.一二三四.五六和011000001021001002030000112041110003050100113061110003071111004081111004091101115101111116和875544N=61.35S*=2.01平3.30.39155(3).论文式测验的信度克朗巴赫公式156 被 试题号A B C D E 12345611 8 11 11 9 7 8 96 10 6 8 911 6 8 311 8 11 117 11 8 11 1

57、1 41 63 43 57 53 48 39 39 36 48 48 系数公式的应用例2 有一个包含6个论文式题目的测验,对5个应试者施行,得分列入下表,试求该测验的信度。157(4). 评分者的信度 当测验是论文式试题时,不同评分者对同一试卷的评分结果不同,有时差异很大.这时不宜用系数计算其信度,必须对评分者评分的一致性进行估计.(2)三个以上评分者评N份试卷158Kendall和谐系数的应用例 有六位教师各自评阅五篇作文,每位教师给每一篇作文都评了等级(共五等),并列入下表.问六位教师所评的等级的一致性如何? 作文编号评分者12345赵35241钱35241孙34152李35142周352

58、41吴3524118 29 10 25 8159(5).目标参照性测验的信度系数1)利文斯顿法(Livingston)2)决策一致性系数160A测验合格B测验合格(40)A测验合格B测验不合(15)A 测验不合格 B测验合格(5)A测验不合格B测验不合格(20) B测验A 测 验R=(40*20-12*8)/40*20+5*(40+20+15)=0.62161信度的应用 信度是主要用途就是判断测验的优劣:一般能力与学业测验的信度应在0.90以上;性格、兴趣、态度等人格测验的信度应在0.800.85之间;信度在0.7以下的测验不能采用。 信度还可以用来对分数作解释,主要有以下两方面的应用:个人测

59、验分数的误差 信度系数表明的是一组测量的实测值与真实值的符合程度,并没有给出个人测验分数的变异情况。 在实践中,经常用一组考生两次考试的结果来估计误差的差异。这时个人在两次考试中分数的差异就是测量的误差,由此可得出一个误差分数的分布,该分布的标准差就是测量的标准误差,它是测量误差大小的指标,其公式为:162163例5 1642.两种考试分数的比较 个人在两次考试上的差异,可以用差异标准误 来检验其差异的显著性.其公式为:例 某学生数学考试得52分,物理51分,转换成标准分数后,数学0.332,物理-1.2035,数学考题的信度为0.8227,物理考题的信度为0.86;问数学与物理成绩有无显著差

60、异?165信度的应用(归纳与整理)2.两种考试分数的比较1.个人测验分数的误差166测题数目信度系数50.20100.33200.55400.67800.801600.893200.946400.97 测验长度与信度的关系167提高信度的途径适当增加题量 例 原来由6题组成的测验,其信度为0.56,现要求把信度提高到0.8,需要加长到多少试题?用标准化试题,难度要适中。测验的内容应尽量同质.测验的时间要充分,程序要统一。评分要客观.168 7.2 测验的效度 效度的定义 效度是指测验结果的有效性或准确性.所谓有效性,是指一测验能够正确地测量出它所要测量的特性或功能的程度. 在实际测量中,影响效

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论