教育统计与测量学原理_第1页
教育统计与测量学原理_第2页
教育统计与测量学原理_第3页
教育统计与测量学原理_第4页
教育统计与测量学原理_第5页
已阅读5页,还剩74页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

教育统计与测量学原理第一页,共七十九页,2022年,8月28日教育统计与测量学原理学习教育统计与教育测量的重要意义1、教育统计和测量是认识教育本质的有力武器;2、是分析处理教育工作中各种数据资料、进行教育督导与评价的有效工具;3、对教育管理科学化具有重要意义;4、是教育科学研究中,发现探索教育教学规律、指导教育教学实践、为教育行政部门决策提供依据的重要思想方法;5、是党和政府制定教育方针、政策以及认清教育事业和整个国民经济发展关系的重要工具。第二页,共七十九页,2022年,8月28日

第一部分:教育统计学一、概述

1、什么是教育统计学

2、教育统计学的历史

3、教育统计学的内容二、描述统计

1、常用的统计表、图与统计量

2、相关分析

3、正态分布三、推断统计

1、相关概念

2、总体平均数估计

3、平均数差异的显著性检验四、实验设计简介第三页,共七十九页,2022年,8月28日一、概述教育统计学概念、发展历史、内容

1、概念:教育统计学就是运用数理统计的原理和方法研究教育问题的一门应用科学。它是研究如何收集、整理、分析和解释教育方面的数据,从而表明教育上某些现象的特征及规律的一门科学,它是处理教育实际工作和进行教育研究以及提高管理质量的科学水平、提高教育质量的重要工具。

教育统计学的主要任务:对教育现象进行调查和实验,在占有充分数据资料的基础上,经过对数据的整理计算、统计分析和统计检验等方法,对研究结果予以科学说明。即从数量方面的研究,来探索教育和心理现象的发展变化的特征和规律,或根据研究结果的数据处理、统计推断,做出正确决策。

第四页,共七十九页,2022年,8月28日教育统计学概念、发展历史、内容

2、教育统计学发展史:教育统计学产生于上个世纪初,发展于五、六十年代,广泛应用于八十年代以后。(1)国外:20世纪初统计学传入美国,桑代克()为了达到“极力以心理学与统计学为工具研究教育学,使教育科学化”的目的,1904年出版世界上第一本有关教育统计学的专著《心理与社会测量导论》。(2)国内:我国的教育统计学是在辛亥革命以后,随着西方科学技术成就一起被引入。当时的大学教育系和中等师范学校,都把教育统计学作为必修课程,很多学者撰写专著,如薛鸿志《教育统计方法》(1925)、王书林《教育测验与统计》(1935)等。1979年随着全国教育科学规划会议的召开,教育统计学恢复了新生,各师范大学又都开设了教育统计学课程。教育部组织叶佩华、万梅亭、郝德元、陈一百等教授编写《教育统计学》作为全国通用教材。

经过100多年的发展,各种教育统计方法已相当丰富。但每一种方法的运用在我国还处于推广和适用阶段,因此不少人对它的作用缺乏足够的认识,特别是对复杂的教育问题,由于统计方法本身的限制,还有十分重要的实验设计和统计推断的问题不能在理论上得到有力解决,还有待于教育学家亲自动手来推进统计理论和改进统计工具。第五页,共七十九页,2022年,8月28日教育统计学概念、发展历史、内容

3、教育统计学的内容:教育统计学按应用分为描述统计、推断统计、实验设计(多元统计)三部分内容。

(1)描述统计的主要作用就在于就所关心的教育现象进行全面调查和观测,然后将所得的大量数据加以整理、简缩、制成图表;或就这些数据的分布特征(如集中趋势、离散趋势、相关度等等)计算出具有概括性的数字作为标志。借助这些概括性的数字,我们就可以从杂乱无章的数据中取得有意义的信息。

(2)推断统计也叫抽样统计,它是在描述统计的基础上发展起来的。是用抽样的方法,根据部分数据来推断一般情况,即通过局部对全局的情况加以推断的一种方法。它可以帮我们透过现象看到本质,对客观现象作出本质性的判断,它是从样本的研究中得出统计量。来推断总体的有关特征,以便作出具体的措施和决策。常用的方法有:u检验、t检验、卡方检验和非参数检验,还有多元分析中的主成份分析和因素分析等。(3)实验设计通常指实验程序的计划和安排。而实验程序的计划和安排离不开统计和检验。

第六页,共七十九页,2022年,8月28日二、描述统计

第一章常用统计表、统计图及统计量(一)常用统计表

1、统计表的结构:由标题、项目(标目)、数据、线条、表注(数据来源)组成

1983年我国普通中学教师学历统计表

学历人数百分比(%)

大学本科以上30088711.6

大专毕业56686321.8

中专毕业以下172975066.6

合计2596900100.0

注:引自《中国教育成就统计资料》,1984年人民教育出版社标题项目线条

数据表注第七页,共七十九页,2022年,8月28日二、描述统计

第一章常用统计表、图及统计量数2、制表的一般要求A、统计表的内容要简要,最好一个表说明一个中心内容。标题的措词要简明扼要,正确说明内容,使人一望便知。B、分项要准确,以能说明问题为主,分项的好坏是决定统计表质量的关键,切忌分项太细。C、数据是统计表的语言,说明内容,要求准确,书写整齐,一律用阿拉伯数字,单位要统一,位数对齐,有效数字要一致,表格内不能有空白。D、线条不要太多,表的上下端有顶线与底线,左右两边不要用线封死,纵项目用细线格开,横项目一律不画线条,合计项目用粗线条或双线与其它项目分开。第八页,共七十九页,2022年,8月28日(二)常用统计图1、统计图结构:图题、图目、图尺、图例、图形、图注人数

706050403020101980年1985年1991年某校近十年教师人数及性别变化图示男女年份图例图形第一章常用统计表、统计图及统计量图目图尺(制图的尺度线。点、单位的总称)图题第九页,共七十九页,2022年,8月28日2、统计图的类型及绘制要求绘制统计图的要求A、根据数据和目的选择合适的图形B、图形所表示的面积或距离要比例适当C、表示不同的事物要用不同的颜色与线条类型:1直条图2圆形图3曲线图4直方图讲师42.9%助教28.8%教授0.4%某大学教师职称图副教授21.9%某市7至18岁男女生身高比较图1.751.701.651.601.551.501.451.40岁789101112131415161718米某校某班50名学生家庭背景情况比较

2015105人数其他农工商企业职员公务与科教人员141615

5

2015105人数其他农工商企业职员公务与科教人员141615

5(二)常用统计图第十页,共七十九页,2022年,8月28日

3、次数分布表与直方图

对一批数据按一定次序排列并加以分组、编成反映这群数据在各组上出现次数的统计表和图,就是次数分布表和直方图。例:一次考试之后,某班48名学生的成绩如下:

86,77,63,78,92,72,66,87,75,83,74,47,83,81,76,82,97,69,82,88,71,67,65,75,70,82,77,86,60,93,71,80,76,78,57,95,78,64,79,82,68,74,73,84,76,79,86,68

将该组数据整理成次数分布表与直方图(二)常用统计图*第十一页,共七十九页,2022年,8月28日

1求全距:R=max{xi}-min{xi}用该组数据最大数减最小数

2定组数和组距:数据划分组数、每组上下限之间距离(全距除以组数)

3列组限:从最高分至最低分以组距为单位依次分组

4归组划记:计算数据出现次数,并计算累积次数及相对次数

步骤:例:一次考试之后,某班48名学生的成绩如下:86,77,63,78,92,72,66,87,75,83,74,47,83,81,76,82,97,69,82,88,71,67,65,75,70,82,77,86,60,93,71,80,76,78,57,95,78,64,79,82,68,74,73,84,76,79,86,68组限组中值划记次数f累积次数∑f相对次数Rf累积相对次数∑Rf95908580757065605550459994898479746964595449225912763101

2491830374346474748

0.040.040.100.190.250.150.130.060.0200.020.040.080.180.370.620.770.900.960.980.981.00正正正正正正合计48481.00次数分布表

9792878277726762575247K=1.87(n-1)2/5第十二页,共七十九页,2022年,8月28日14121086424550556065707580859095100次数分数

直方图第十三页,共七十九页,2022年,8月28日(三)常用统计量-集中量数1、集中量数:代表一组数据的集中趋势和典型特征常用的有:平均数中数众数第一章常用统计表、统计图及统计量

(1)

平均数(算数平均数)X1、X=(X1+X2+---+Xn)/n=(1/n)∑Xi

(原始数据公式)2、X=∑fxc/n(分组数据公式)xc:组中值f:次数3、X=(n1x1+n2x2+---+nkxk)/(n1+n2+---nk)(加权平均数公式)第十四页,共七十九页,2022年,8月28日(2)中数(中位数):用Md表示,是在一组按大小顺序排列的数据中位置居中的那个数。数据是奇数个时,正好是中间位置的数,即第(N+1)/2个那个数;数据是偶数个时,求中间位置两个数的平均数。如:13679

Md=6;36792021Md=(7+9)/2=8(3)众数:用M0表示,是一组数据中次数出现最多的那个数。在众数不明显的情况下,一般可看众数段,即哪个分数段的次数多,就以该段中点值作众数。一般用观察法求得。众中平众中平平中众

正态分布正偏态分布负偏态分布平均数、中数、众数在数据常态分布中的相对位置第十五页,共七十九页,2022年,8月28日2、差异量数:全距平均差标准差

差异量数是描述次数分布中“离中趋势”这一特征的统计量,简称“差异量”。一组数据,若离中趋势小,则集中量的代表性就大;反之,若离中趋势大,则集中量的代表性就小。但是,仅考虑集中量数是不够的。要了解两组学生成绩分布的全貌,还必须研究两个组的差异量数。最常用的差异量有全距、平均差和标准差。

(1)全距(符号为“R”),指一组数据中由最大量数到最小量数的距离。R小说明离散程度小,比较整齐。

(2)平均差,指一组数据内的每个数与均数差的绝对值的算术平均数,通常用AD表示。平均差的计算公式为:

常用统计量-差异量数AD=(1/n)∑Xi-X或AD=(1/n)∑Xi-Md第十六页,共七十九页,2022年,8月28日差异量数-方差与标准差

(3)、标准差:指一组数据中每一个数值与它们的平均数之差的平方的算术平均数的平方根,其符号为S(样本标准差)、总体标准差用σ表示。S的计算公式为:

S越大表明离散程度越大,数据不均匀,集中量的代表性小。

方差与标准差除具有平均差的优点之外,还具有受抽样影响小和适于代数运算等优点,是最优良的差异量数。()()()()nxxxxxxxxSn2232221-++-+-+-=…

X

X1X22S2σ表示样本方差表示总体方差第十七页,共七十九页,2022年,8月28日标准差的应用:变异系数、标准分数标准差的应用-变异系数变异系数计算公式:主要用于:①同一团体不同观测值离散程度的比较;②对于水平相差较大,但进行的是同一种观测的各种团体离散程度的比较。例:已知某小学一年级学生的平均体重为25千克,标准差是3.7千克,平均身高110厘米,标准差为6.2厘米,问体重与身高的离散程度那个大?解:CV体重=3.7/25=14.8%

CV身高=6.2/110=5.64%答:通过比较差异系数可知,体重的分散程度比身高的分散程度大(14.8>5.64)。变异系数是一种相对差异量,常用cv表示第十八页,共七十九页,2022年,8月28日标准差的应用-标准分

标准分数(又称Z分数)。它是一种以平均数为参照点,以标准差为单位的,表示一个分数在团体分数中所处位置的量数,其计算方法为:由原始分数与平均分数的差除以标准差所得的量数,其符号为“Z”,计算公式是:标准分是以标准差为单位的,故称为标准分。它是一种相对地位分。标准分有正负之分,一般在[-3,3]中(几率为99.74%),平均值为零。标准分可比性根据在于标准正态分布。

T分数:T=10Z+50(一般20≤T≤80)

E分数:E=20Z+90(一般30≤E≤150)第十九页,共七十九页,2022年,8月28日例:有某生三次数学考试的成绩分别为70、57、45,三次考试的班平均分为70、55、42,标准差分别为8、4、5。如何看待该生的三次考试成绩?

答:如果仅从原始分数看,肯定认为第一次最好,其实不然,要计算出各次的标准分数,才能说明问题。根据公式得出:Z1=(70-70)/8=0Z2=(57-55)/4=0.5Z3=(45-42)/5=0.6这说明,原始分数为70,其位置正在平均线上,而原始分数为57的,其位置在平均线上0.5处,而原始分数为45的,其位置在平均线上0.6处。很显然第三次成绩最好,第一次最差。标准差的应用-标准分第二十页,共七十九页,2022年,8月28日标准分数:

运用标准分比较不同教育测验成绩总分的优劣,更为合理。例:甲乙两学生五科考试成绩如下,试分析哪名学生成绩好些?语文数学地理历史政治合计70.014.080850.711.0785.03.590881.430.8655.04.057510.50-1.0042.05.045400.60-0.4070.08.0709002.503423543.243.03两考生总成绩标准分数计算表甲生乙生甲生乙生

科目XSXZ

如果按原始分数乙生总分是354分优于甲生的342分总分,但按标准分数则甲生的3.24分优于乙生的3.03分。标准差的应用-标准分第二十一页,共七十九页,2022年,8月28日二、描述统计相关分析:研究两自变量之间的关系紧密程度的过程,统计学上称为相关分析。事物的变化总是伴随着一定的量的变化,有些是单变量,有些是双变量或多变量,也有些是复变量。集中量数和差异量数反映的是单变量数据特征,相关分析主要研究双变量数据特征。我们都知道事物现象间的相互关系,如果从数量关系的角度考察,可分为函数关系和相关关系两种类型。相关关系可分为正相关、负相关、直线相关、曲线相关、完全相关(函数关系)、高度相关、低相关和零相关。如:教育经费的投入与教育事业发展规模和速度之间的关系是正相关;复习次数与遗忘量之间的关系是负相关。相关分析的方法有二:一是图示法,一为计算法。第二章相关分析图示法:将两组观测值标在坐标系中●●●●●●●●●●●●●●●●曲线相关●●●●●●●●●●●直线相关第二十二页,共七十九页,2022年,8月28日二、描述统计相关系数:是描述两组数据之间相关程度的量数种类有:积差相关系数、等级相关、点二列相关和φ相关积差相关系数(皮尔逊系数):是描述来自正态总体两个连续变量之间线性相关程度的一种相关量数r=[n∑xy-(∑x)(∑y)]/√[n∑X2-(∑X)2][n∑y2-(∑y)2]

相关系数的范围:-1≤r≤1

当r是正值时为正相关;当r是负值时为负相关;r=0为零相关。通常1r≥0.70为高度相关;0.70r≥0.40为较显著相关

0.40≥r0为低相关。当然在下结论时还要进行显著性检验第二章相关分析对相关系数的解释注意以下问题:

A在小样本中要做显著性检验;B相关系数大小差异不是绝对的;C相关系数不是等距的不能进行大小比较;D相关关系不一定是因果关系第二十三页,共七十九页,2022年,8月28日第二章相关分析数学物理英语物理70757675606360638275657544605660525570559097859780894889r=0.91r=0.26例:数学与物理、物理与英语相关性比较第二十四页,共七十九页,2022年,8月28日第三章正态分布

在社会、教育现象中大多数随机变量都呈现是或近似正态分布的情形。正态分布是统计理论与统计应用中最重要应用最广泛的一种分布。正态曲线的特点11.52.534.56X

Y0.80.60.40.20σ=0.8,μ=1.5、2.5、4.5二、描述统计

一个正态分布是由总体的平均数和总体的方差所决定的。1、正态曲线及其特点正态分布x~(μ,σ)的密度函数曲线2①正态曲线位于x轴上方,以x=μ

为对称轴,以x轴为渐近线②曲线的位置和形状取决于μ

值和σ值

,μ决定位置,σ决定形状。σ越大曲线越矮胖,σ越小曲线越陡峭

③x=μ时曲线处于最高点,即当x=μ时f(μ)=1/

√2σ为最大值

,曲线呈中间高两边低的形态。p正态曲线方程:f(x)=【1/(√2

●σ)】e-(x-μ)/2σ22其中:是园周率;e是自然对数的底;x为随机变量的取值;μ为正态分布的均值;

σ为正态分布的方差。2pp第二十五页,共七十九页,2022年,8月28日第三章正态分布2、正态分布曲线的重要性质:

-3σ-2σ-σ0σ2σ3σ

68.26%95.46%99.73%

从概率的角度而言:观测数据落在(μ+1σ)内的概率为68.26%;落在(μ+2σ)内的概率为95.46%;落在(μ+3σ)内的概率为99.73%。z=(x-μ)/σ标准正态分布x~(0,1)z、P的意义如:z=1时P=0.3413

z=2时P=0.4772

z=2.5时P=0.4938

z=3时P=0.4987第二十六页,共七十九页,2022年,8月28日3、正态曲线理论的应用(1)推求学生成绩中某些分数的人数

例:假定500个学生某科成绩近似正态分布,其X=70,σ=10,试问(1)75分以下有多少人(2)85分以上有多少人(3)75-85分之间有多少人。解:(1)z=(75-70)/10=0.5,查正态分布表中值为0.6915,因此75分以下的学生占69.15%,75分以下的人数是500X69.15%=346(人)

(2)z=(85-70)/10=1.5,查正态分布表中值为0.93319,85分以下的学生占93.319%,因此85分以上的学生占100%-93.319%=6.681%,所以85分以上的人数是500X6.681%=33(人)(3)75分至85分之间,实际上是75分以上至85分以下的范围,因此85分的百分率减去75分以下的百分率即为所求93.319%-69.15%=24.169%500x24.169%=121(人)

-3σ-2σ-σ0σ2σ3σ

第二十七页,共七十九页,2022年,8月28日正态曲线理论的应用(2)推求某一特定百分率的成绩界限

例:某县对初一年级学生1000名学生进行能力测验,其结果为X=75,σ=10,现拟根据此次结果选取25名学生作为“尖子班”培养,假定测验成绩近似正态分布,问多少分以上才能被选到“尖子班”学习。97.5%2.5%X1.96σ7594.6在正态分布表中查表中值0.975所对应的标准分数,z=1.96,既是说1000名学生中有97.5%的人数在标准分数1.96以下,因此有2.5%的人数在标准分1.96以上,再将标准分数1.96化为原始分数得:

1.96X10+75=94.6(分)答:分数在94.6分以上才能进“尖子班”。分析:“尖子班”的人数占全年级的百分比为:25/1000=2.5%用标准分计算更容易理解:σxxZ-=Z=1.96=(x-75)/10X=1.96X10+75=94.6(分)第二十八页,共七十九页,2022年,8月28日正态曲线理论的应用(3)分析测验试题的难度例:某校学生在一次测验中,第一题的答对率为15%,第二题的答对率为25%,第三题的答对率为35%,假设这三题所测量的能力近似正态分布,问1、2、3题的难度值各为多少?各题之间的难度差异怎样?解:试题难度值比较表题号答对率答错率难度值难度差异

115%85%1.04225%75%0.670.37335%65%0.390.28在正态分布中,通常是根据答错率找出所对应的标准分数界限值,此值即为该题的难度比值。由左表可知虽然三题的答对率都相差10%,但第二题与第三题的难度差异却比第一题与第二题的难度差异要小。x0

0.650.750.85

0.390.671.04第二十九页,共七十九页,2022年,8月28日三、推断统计

教育现象和一切客观物质世界中的现象一样,不仅存在质的方面,同时也存在量的方面,而且这两方面是辩证统一的。教育统计学就是在教育现象的质与量中,专门研究其数量方面特征的重要工具。在建立了以概率论和抽样方法为主要依据后,教育统计学便具有了以局部推知全体,以样本资料推知总体性质的科学推断功能。根据样本信息对总体参数状况的推断有两种不同形式,既总体参数估计和假设检验,二者既有区别也有联系。第三十页,共七十九页,2022年,8月28日三、推断统计

1、总体和样本

所要研究对象的全体叫做总体。其中每一个研究对象叫做个体。从总体中抽取的一部分叫做总体的一个样本,样本中个体的数目叫做样本容量。

例1:对家用电器质量抽查,确定次品率。不能采用全部检测的方法。例2:全市要检查初中学生体育锻炼达标情况,对每名学生一一测试工作量很大,不仅耗费人力、物力和时间,而且没有必要。有没有一种科学的方法只抽测一少部分学生,然后根据这部分学生的测试成绩去推知全市中学生的体育达标情况?

2、参数与统计量

总体参数是指一切由观察测定总体的全部个体而得到的统计量数(μ,σ);样本统计量是指为估计总体参数从样本所得的统计(,s)。第一章相关概念第三十一页,共七十九页,2022年,8月28日推断统计4、抽样方法3、随机误差样本统计量与总体参数之间的差距。从某市参加高考的1200名学生中抽取200名试卷组成一个样本,计算这200份试卷的平均分和标准差,这200份试卷的平均分和标准差与1200名考生的平均分和标准差是有差距的,不同的抽取带来不同的差距,这种差距称之为随机误差。A、随机抽样(抽签法、随机数字法)B、机械抽样C、分层抽样D、整群抽样抽取样本应遵循的原则。第一总体中每一个个体被抽中的机会均等,即抽中与抽不中纯属偶然;第二任一个体与其它个体在抽取时无联带关系,即抽中的个体与抽不中的个体无关;第三在条件允许的情况下,尽量使样本容量大一些。

5.小概率事

在随机事件中,概率很小的事件被称为小概率事件,习惯上约定在0.05以下,即当P(A)<5%时,则称A为小概率事件。在统计推断中认为,小概率事件在一次试验或观察中是不可能发生的。第三十二页,共七十九页,2022年,8月28日

第二章

总体平均数的区间估计

(总体平均数的置信区间)

推断统计的基本理论之一就是抽样理论,而推断统计的任务则是根据样本资料来推断总体的特征,从而揭示总体的本质和规律。抽样分布的几个重要定理(统计推断的理论依据)

1.从总体中随机抽出容量为n的一切可能样本的平均数的平均数等于总体的平均数。E(x)=μ

2.容量为n的平均数在抽样分布上的标准差,等于总体标准差除以n的方根。

σx=σn√

3、从正态总体中,随机抽取的容量为n的一切可能的样本平均数的分布也呈正态分布。

4、虽然总体不呈正态分布,如果样本容量较大,反映总体μ和σ的样本平均数的抽样分布,也接近于正态分布。多个样本平均数呈正态分布~N(μ,)xσn√第三十三页,共七十九页,2022年,8月28日

第二章

总体平均数的区间估计

(总体平均数的置信区间)(一)、原总体的方差已知

样本平均数的总体分布,在样本容量很大时其分布近似于正态分布,样本平均数分布的标准差为σ/√n,根据正态分布的性质U=(X-μ)/σX

服从正态分布。对于给定的α值(0<α<1),则称(1-α)为置信度,可求出满足P(U>Uα)=1-α。一般取α=0.01或α=0.05,对应的U0.05=1.96U0.01=2.58。置信区间:α=0.05(x-1.96σ/√n,x+1.96σ/√n)为总体平均数95%的置信区间

α=0.01(x-2.58σ/√n,x+2.58σ/√n)为总体平均数99%的置信区间根据样本平均数估计总体平均数的所在区间,称为总体平均数的区间估计。基本原理:按一定概率要求,根据样本平均数估计总体平均数的所在区间。01-αα/2

α/2区间估计示意图x-1.96σ/√nx+1.96σ/√n

x+1.96σ/√n

01-αα/2

α/2区间估计示意图x-1.96σ/√nx+1.96σ/√n

01-αα/2

α/2区间估计示意图x-1.96σ/√nx+1.96σ/√n

第三十四页,共七十九页,2022年,8月28日(二)、原总体的方差未知

对于总体方差未知且容量n﹥30,则用S代σ相应的有置信区间为:α=0.05(x-1.96S/√n,x+1.96S/√n)为总体平均数95%的置信区间

α=0.01(x-2.58S/√n,x+2.58S/√n)为总体平均数99%的置信区间例:从某地区高考初试的数学试卷中,随机抽取40份,分析后得到如下数据,平均成绩为51.2,标准差为3.8,问这一地区初试数学平均成绩在怎样的范围内?答:已知X=51.2S=3.8n=40,本题属于总体方差未知且大样本n>30,

因此:置信区间的下限=51.2-1.96x3.8/√40=50

置信区间的上限√40=52

这一地区初试数学平均成绩有95%的可能性在(50,52)范围内。同理也可以计算出有99%的可能性在(49.6,52.7)范围内。第三十五页,共七十九页,2022年,8月28日

三、推断统计第三章显著性检验

平均数差异的显著性检验(Z检验与t检验)一、显著性检验的基本思想显著性检验是统计推断的一种方法,它是确定一个具有已知统计量的样本是不是从已知对应参数的总体中抽出来的或是两样本的统计量是来自同一总体还是来自不同的总体。或从另外的角度说,样本统计量与总体参数的差异或两个样本统计量的差异究竟是由于抽样所引起的随机误差,还是本质上的误差,这需要检验才能加以确定。判断这种差异是否显著,要用概率来回答。如果差异是由于抽样误差而引起的可能性大,那末两者的差异就不显著,反之两者的差异就显著。抽样误差的概率大小是由显著性水平来衡量的。通常采用的显著性水平为0.05或0.01,如果P>0.05为差异不显著;如果0.05≥P>0.01差异显著;如果P<0.01则特别显著。需要注意的是,显著性检验是以随机样本为前提的,以概率论原理为基础的,所以进行检验时应注意样本的随机性,以及样本的可比性,观测指标的所有条件应尽可能相同或基本相同。0

0.0250.025接受假设区域

0.95拒绝假设区域拒绝假设区域第三十六页,共七十九页,2022年,8月28日

二、显著性检验的一般方法一般来说,统计检验先对总体的分布规律作出某种假说,然后,根据样本提供的信息,对假说作出肯定或否定的决策。具体步骤为:①提出假设。如“假设两个群体平均数没有差别”,其数学符号为:“H0:μ1=μ2”,这种对群体所作的“无差别”的假设,称为“零假设”或称虚无假设,用符号“H0”表示。与此同时实际上存在第二种假设,“两个总体平均数有差别”,其符号为:“H1:μ1≠μ2”,称为备择假设。显然,“零假设”与“备择假设”是两个对立的假设,肯定是此否定彼。②根据不同条件和样本提供的信息即数据,从零假设出发,代入相应的公式,计算出零假设的概率。③作出统计决断,根据“小概率事件实际上不可能性”原理,研究H0成立的概率。如果H0的概率P>

0.05,表示零假设不是一个小概率事件,则H0成立,便否定被择假设H1从而确定“μ1=μ2”。如果H0的概率p≤0.05,表明是个小概率事件H0不成立,就肯定备择假设H1的成立,从而确定“μ1≠μ2”。

④结论:当P>0.05时差异不显著;当0.01≤p≤0.05时差异显著;当P≤0.01时差异特别显著。

三、推断统计第三章显著性检验第三十七页,共七十九页,2022年,8月28日推断统计(显著性检验)三、显著性检验的一般步骤:1、建立检验假设(H0:=μ或μ1=μ2)2、选择和计算统计量(z值或t值)3、确定P值4、判断结果:当P>0.05为差异不显著接受检验假设当0.05≥P>0.01差异显著拒绝检验假设当P≤0.01差异特别显著拒绝检验假设第三十八页,共七十九页,2022年,8月28日平均数差异的显著性检验(Z检验)1、两个独立大样本平均数差异的显著性检验

Z检验是一般用于大样本(即样本容量大于30)平均值差异性检验的方法。它是用标准正态分布的理论来推断差异发生的概率,从而比较两个平均数的差异是否显著。

Z检验公式:例1987年上海市初中三年级语文教学调查中,对男女生语文测试成绩作如下统计,试检验男女生语文成绩是否存在显著差异,性别人数总分阅读写作平均分标准差平均分标准差平均分标准差男167113.7420.9571.6415.1142.129.73女159118.5219.0974.8714.0144.438.83差值|Z|2.152.002.27抽取的两个样本均大于30,属两个独立大样本平均数差异的显著性检验,用Z检验。差异异常显著p≤0.01Z≥2.58差异显著0.05>p>0.011.96≤Z<2.58差异不显著P>0.05Z<1.96检验pz第三十九页,共七十九页,2022年,8月28日平均数差异的显著性检验(Z检验)检验步骤:①提出零假设z:H0:μ1=μ2即假定男女写作、阅读及读写总分均无显著差异,现在的差异是抽样误差所致。②计算统计量,代人Z值公式0

0.0250.025接受假设区域

0.95拒绝假设区域拒绝假设区域差异异常显著p≤0.01Z≥2.58差异显著0.05>p>0.011.96≤Z<2.58差异不显著P>0.05Z<1.96检验pz第四十页,共七十九页,2022年,8月28日平均数差异的显著性检验(Z检验)③计算出的Z值与下表进行对照,作出判断:|Z|P差异显著性>1.96<0.05差异显著>1.96<0.05差异显著>1.96<0.05差异显著

因为|Z写|=2.27,显然,|Z写|>1.96,表明概率P≤0.05,男女生写作成绩差异显著。因为|Z读|=2.00,显然,|Z读|>1.96,表明概率P≤0.05,男女生阅读成绩差异显著。因为|Z总|=2.15,显然,|Z总|>1.96,表明概率P≤0.05,男女生语文成绩差异显著。④结论:当P≤0.05时,拒斥H0,肯定H1,1987年调查说明上海市初三语文成绩男女生存在显著差异,女生高于男生。0

0.0250.025接受假设区域

0.95拒绝假设区域拒绝假设区域-1.961.96第四十一页,共七十九页,2022年,8月28日平均数差异的显著性检验(t检验)2、小样本与总体均数的差异检验

t检验是用于小样本(样本容量小于30)时的平均值差异程度检验方法。它是用t分布理论来推断差异发生的概率,从而比较两个平均数的差异是否显著。例某校初一年级抽出一组20人,对数学自学辅导教材进行试验,期末全年级测试平均成绩为70分,而这20人的平均分为=77.7,标准差为15,试检验实验效果。本例随机抽样样本容量为20人,属小样本,因此适用t检验。所谓检验实验效果,就是以样本(20人)的平均数与某已知总体平均数μ之间的差异程度的显著性检验,既检验样本所取自(所代表)的总体的平均数μ与μ0,是否有差异。t检验公式:第四十二页,共七十九页,2022年,8月28日平均数差异的显著性检验(t检验)检验步骤:①提出零假设:H0:μ=μ0,即假定样本所代表的总体平均数与已知平均数无显著差异,如有差异仅是抽样误差所致。本题μ0=70分②计算检验统计量t值。用如下公式式中,=样本平均数77.7;μ0=已知总体平均数70;

s=样本标准差15;n=样本容量20,代人公式得第四十三页,共七十九页,2022年,8月28日平均数差异的显著性检验(t检验)

③作出判断。与正态分布曲线不同,t分布的曲线形式随自由度大小而不同。“自由度”记作“df”。作总体平均数的假设检验时,统计量t的自由度df=n-1。据此,本题的df=20-1=19。查t值表,得出理论t值为:

t(19)0.05=2.093再与计算所得t值比较可得:t=2.24>t(19)0.05=2.093依据《t值与差异显著性关系》表,推断H0发生的概率,作出结论。

t值与差异显著性关系tP差异显著性<t(df)0.05>0.05差异不显著≥t(df)0.05≤0.05差异显著≥t(df)0.01≤

0.01差异十分显著因为t=2.31>t(df)0.05,从上表可知,概率P≤0.05时,μ和μ0之间的差异显著。因此可下结论为:拒斥H0:μ=μ0,而肯定H1:μ≠μ0,又因μ>μ0,故结论表明新教材实验有成效。第四十四页,共七十九页,2022年,8月28日平均数差异的显著性检验(t检验)

3、其它检验公式

如果是按同一组样本不同情况的测试所得的平均值1和2来检验平均值的差异程度,其计算公式为:式中,D为两次测试中每对分数之差即D=X2-X1。对于两个独立的正态总体,如果已知两总体方差相等但未知总体方差具体数值,从中各抽取一随机样本,两样本平均数之差将服从自由度为

的t

分布。其检验统计量的计算公式

第四十五页,共七十九页,2022年,8月28日实验设计简述实验设计:实验者为了揭示实验中的自变量与因变量的关系,在实验之前所作的实验计划,通常指实验程序的计划和安排。而实验程序的计划和安排离不开统计、检验。实验设计的内容:包括怎样选择被试(实验对象),控制那些因素,指出什么假设,观察那些内容,如何安排实验步骤,采取何种统计方法来处理和分析实验结果等等。第四十六页,共七十九页,2022年,8月28日例:控制变量指示语(一)目的:通过把指示语作为自变量,观察被试对反应变量的不同影响,从而了解到不是以指示语为自变量的实验中控制指示语的重要性。(二)材料:数学试卷一份,马表。(三)程序:1按全班被试的数学程度,分为数学能力相同的甲、乙两组。

2主试仅向甲组被试着重指出:你们在运算时必须注意试题中数字之间的关系,余内容两者相同。

3主试说明实验要求,发给各被试试题一张,覆置桌上。主试发“预备”口令时,被试把题纸翻转正面,写好姓名等项,主试发“开始”口令时,同时开动马表,被试答题。

4被试做完题目,立即停笔并问得答题时间,记录在试题纸上。

5全组做完,主试宣布答案,被试加以核对,并记录成绩,以便整理全组结果。(四)结果:1统计甲乙两组的平均成绩(做对题数和做题的时间)

2检验两组时间(或成绩)差异的显著性(五)讨论:1在本实验中,你是怎样发现题目的规律的

2指导语在解题中所起作用如何第四十七页,共七十九页,2022年,8月28日实验设计简述附:数学试题如下姓名——组别——时间——在下列各数列后的横线上,填写你认为应该填写的数字(1)26101418————(2)31248192768————(3)8421————(4)31/4833/4————(5)455667————(6)38131823————(7)134679————(8)72503-2————(9)1346101222————(10)1222428————第四十八页,共七十九页,2022年,8月28日第二部分教育测量学原理简介第一章教育测量概述一教育测量的含义与特点二教育测量发展的历史三教育测量的要素和种类四教育测量的功能及对教育测量应持的态度第二章测验的信度、效度、难度与区分度一、测验的信度二、测验的效度三、测验的难度四、测验的区分度第三章测验的编制与实施一、确定测验目的二、教育目标分类

三、编制测验双向细目表四、试题的编制五、试题评分六、试卷的编辑与测验实施七、试卷分析第四章题型编制的一般原理与方法第四十九页,共七十九页,2022年,8月28日第一章教育测量概述

一、教育测量的含义与特点

1、教育测量的含义测量(Measurement):通常指人们对客观事物进行某种数量化的测定。测量是以数量来表述结果的,没有数量来表述的结果不能称为测量。

教育测量(EducationalMcasufement):就是对学生的学习能力、学业成绩、兴趣爱好、思想品德以及教育措施上许多问题的数量化测定。

教育测量主要对学生精神特性的测定。凡物之存在必有其数量,凡有数量的东西都可以测量,测不准原理。第五十页,共七十九页,2022年,8月28日一、教育测量的含义与特点测量、测验、考试、评价的联系与区别

测量与测验:测验(Test)是引起某种行为的工具,通常是指运用某些仪器、试题来引起人们的某种行为,从而测定人们的某种特性。它是进行数量化分析和科学推断的前提和手段。测量比测验的含义要广泛,测量不仅包括着运用仪器、试题来进行测定事物的质量与特性,而且还包括着运用调查、观察等方法来测量事物的质量与特性,测量既包括对事物的测验,又包含对事物进行数量化的分析,并对测验结果进行一定的解释和评价。

测验与考试(Examination)也不尽相同。我们平时所说的考试,通常只凭教师自己的经验去出试题和评分,带有主观随意性。测验是经过较细致的科学分析才编制出测验的题目,在测验的程序和评分方面也有较严格的要求。考试一般用于考核学生的学业成绩,测验不仅用于考核学生的学业成绩,还用于心理特性的测量。

测量与评价(Evalution)既有联系,也有区别。测量强调的是数量化,评价则是突出价值观,充分重视对问题的分析与评断。第五十一页,共七十九页,2022年,8月28日一、教育测量的含义与特点2、教育测量的特点

(1)教育测量一般是间接测量我们只能通过学生对测验题目的反应和一些行为表现运用推理、判断的方法,来间接的测量出他们的知识水平、智力高低和品德好坏。(2)教育测量的度量单位是相对的学生的学业成绩好坏、智力高低和能力大小等,都是就其在所在团体的整个分数序列、行为序列中的地位来说的,其测量的分数单位,并非绝对的。

(3)教育测量是为实现教育目的服务的是为改进教育工作,提高教育质量,更好地实现教育目的服务的。不能脱离教育目的和教材的要求,随意地制定测验量表,任意地进行测量。对各种教育测量结果的评价,也都应依据教育目的的要求来进行。第五十二页,共七十九页,2022年,8月28日第一章教育测量概述

二、教育测量发展的历史主观经验性考试阶段(1864年以前)

教育测量起源于我国的科举考试制度。

客观标准化测验阶段(1864一1940年)

法国的比纳、西蒙,美国的推孟、桑戴克、麦柯尔比纳被称为智力测量的鼻祖,桑戴克被称为教育测量学的鼻祖客观测验的深入发展阶段(1940年-)

过去教育测量多为对学生知识的测量,很少测量学生的心理和品德。现在的教育测量,不仅重视测量学生的知识,而且重视学生的智力和思想品德的测量。过去教育测量的量表编制多为单一答案的求同式思维,缺乏多种答案的求异式思维,现在教育测量的量表中,也包括有多种答案的求异式思维题和论文题。过去教育测量多用于对学生的学习成绩的测量,很少涉及课程设置、教材、教育改革方案等效益方面的测量,现在在教育工作的各个方面都运用教育测量。过去教育工作中的客观测验,一般是常模参照测验,现在教育工作中的客观测验,不仅有“常模参照性测验”,而且有“目标参照性测验”。第五十三页,共七十九页,2022年,8月28日

第一章教育测量概述

三、教育测量的要素和种类单位

教育测量中的单位不是绝对等价值的

参照点

教育测量的参照点都属于人为设定,从参照点起计算的分数不能以“倍数”的方式解释

量表

具有单位和参照点的连续体。

教育测量所使用的量表有四种:百分量表、年龄量表、等级量表、T量表

2、教育测量的种类

以测量的对象来分:学业成绩测验、智力测验、人格测验、特殊能力测验

以测量的目的来分:预测测验、形成性测验、总结性测验、诊断性测验、难度测验、速度测验

以测量的方式来分:个人测验、团体测验以试题的形式来分:客观性测验、论文式测验、投射测验、情景测验

1、教育测量的要素第五十四页,共七十九页,2022年,8月28日第一章教育测量概述

四、教育测量的功能及对教育测量的认识态度1、教育测量的功能教育测量是改进教学的良好工具教育测量是教育管理的重要手段教育测量是教育研究的重要方法2、对教育测量应有的认识态度教育测量是一种工具教育测量尚需完善对教育测量应持严肃的态度第五十五页,共七十九页,2022年,8月28日教育测量学原理第二章测验的信度、效度、难度与区分度

测验的信度、效度、难度与区分度是衡量测量质量的基本标准作为教育测量的工具——测验,它的编制是一项十分复杂的工作,它需要懂得一些教育测量基本知识和基本方法的人来完成。一个连信度、效度、难度和区分度等教育测量基本概念都不甚了解的人是难以编出高质量的测验的。从教育测量的理论上来讲,一个良好的测验应该具备以下条件:

测验的试题与测量的目标吻合测验的试题应具有代表性测验的试题有恰当的难度和区分度测验的试题的语言陈述简单、明确测验的结果有效和可靠(即效度、信度高)测验的实施符合经济性原则其中测验的信度、效度、难度和区分度是衡量测验质量的基本指标。第五十六页,共七十九页,2022年,8月28日测验的信度、效度、难度与区分度

一、信度(reliability)

所谓测验的信度是指测验的可靠性或者可靠程度。具体地说,测验的信度是指同一组学生用同一测验实施两次后所得分数的一致性,或者同一组学生经过一次测验后,用另一个同质的测验再测一次,这两次测验所得分数的一致性。根据统计学的基本原理,刻划测验的信度有三种方法:

①稳定性系数稳定性系数的求法是:先对某个测验实施一次,过了一段时间后。再用这个测验实施一次,然后计算学生在前后再次测验中所得分数的相关系数。这个相关系数就是稳定性系数。

②等值性系数等值性系数的求法是:等值性系数是以两个等值(题型、题数、难度、区分度相等)但具体内容不同的量表,在最短时距内,对相同应试者先后施测两次的两组对应分数的相关系数。

③内部一致性系数

内部一致性系数的求法是:将一个测验分数分为两个相等而独立的部分(例如奇数题和偶数题),然后求两者的相关系数。对于这个相关系数,再用斯皮尔曼-布朗公式r信=2r/1+r来校正。其中r是相关系数,r信就是内部一致性系数。第五十七页,共七十九页,2022年,8月28日测验的信度、效度、难度与区分度

在前述三种类型的信度系数中,前两个都要学生接受同一(或同质)内容的两次测验,这在实际的中小学教育过程中是不现实的。因此,在中小学教育或从事教育科学研究的过程中,信度系数的计算一般以内部一致系数为主。测验的信度是十分重要的,不可靠的测验是没有什么意义的,如用一杆秤去称肉,第一次称的的重量是1500克,第二次称得的重量是1000克,那么这种秤还有什么用呢?教育测量也是如此,如用一次去测量学生的数学学业水平,第一次测验的成绩是92分,第二次测验的成绩却只有61分,这样就无法确定这个学生的数学学业水平。当然,这个测验是根本不可靠的。就测验的内容而言,学业成绩测验要求信度系数在0.9以上,常达到0.95;智力测验应达到0.85以上;个性测验和兴趣测验稍低,应在0.7~0.8.第五十八页,共七十九页,2022年,8月28日测验的信度、效度、难度与区分度

提高测验信度的方法:①延长测验的长度。量表题目越少,得分越容易受试题抽样的偶然因素影响,当然测验的信度也越低。新增加的试题必须与原试题同质(平均难度一样)且不使被试感到厌倦。②测验的难度要适中,同一测验中的试题难度水平接近。③施测内容尽量单一。不要妄图在一次测验中测量被试的所有能力,信度很低。④测验的时间要充分,使被试从容回答问题。⑤测验的程序要统一。进行多次测验,开始时的指导语、回答问题方式、分发收回试卷的办法、时间掌握都要尽量一致。⑥评分要客观。客观性测验,评分标准明确有助于提高测验的信度。主观性试题,受偶然因素影响大,往往评分者的“量尺”不统一,信度差。⑦加大应试者之间的差异。因为信度系数的大小与实得分数成正比,加大被试能力的差异可提高信度。2σ第五十九页,共七十九页,2022年,8月28日测验的信度、效度、难度与区分度

二、效度(Validity)

所谓测验的效度是指一个测验真正能确实测量到它所要测量的东西的程度。它是针对测量的目的和结果而言的。根据测量的目的,可以把测验的效度分为内容效度、结构效度和效标关联效度三种。

①内容效度

内容效度是指测验目的代表准备测验的内容和引起的预期反应所达到的程度。如在教育实验研究的测量中,“准备测量的内容”是指实验自变量的变化,“预期反应”是指实验因变量的变化。目前,对测验的内容效度没有恰当的计算方法,尚不能用一个简单数字来刻划它。现在判断测验的内容效度一般是用逻辑分析法或内容分析法。

②结构效度测验的结构效度是指测验结果能够说明教育学和心理学理论的某种结构或特征的程度。它可以理解为测验实际上测量了准备测量的结构特征所达到的程度。测验的结构效度问题比较复杂。一般在中小学教育和教育科学研究中所使用的自编测验是不考虑这个问题的。

③效标关联效度

测验的效标关联效度是指测验结果与作为效标的另一个独立的测验结果之间的一致性程度。这种一致性程度一般是用本测验结果与另一个独立的测验结果之间的相关系数来描述的。那个独立的测验结果是用来估计本测验效度的标准,所以叫做效标。实际上,效标在一定程度上用另一个独立测验结果反映本测验准备测量的某些特征。由于效标是计算测验的效标关联效度的主要依据。因此,效标必须确实能反映某个方面的特征。只有这样才能成计算测验效标关联效度的依据。第六十页,共七十九页,2022年,8月28日测验的信度、效度、难度与区分度效度的统计定义:提高效度的方法

①控制系统误差。

②精心编制量表。

③妥善组织测验

④扩充样本的容量和代表性。

⑤合理处理信度和效度的关系。从某种意义上讲效度比信度更重要第六十一页,共七十九页,2022年,8月28日

三、难度:被试完成题目(item)任务时所遇到的困难程度。

在教育测量中,某测验的难度一般是用正确解答该测验题的人数与参与测验的学生数的比值来刻划的。用公式表示即P=R/N其中,P表示某测验题的难度,R表示答对该测验题的人数,N表示参加测验的人数。难度对测验有很大的影响。这种影响主要体现在影响测验成绩的分布,影响测验成绩的离散程度;影响测验的区分能力等三个方面。难度计算,常用的以下几个公式:①P=X/W

其中P表示某测验题的难度,X表示接受测验的学生在该测验题上的平均分数,W表示该测验题的最高得分。②P=PH+PL/2

其中P表示某测验题的难度,PH表示接受测验的高分组学生(占总数的27%)在该测验题的通过率,PL表示接受测验的低分组学生(占总数的27%)在该测验题的通过率。③P=XH+XL-2NL/2N(H-L)该公式只适宜计算论文式测验题的难度。其中P表示某测验题的难度,XH表示接受测验的高分级学生的得分总数,XL表示接受测验的低分级学生的得分总数,N表示接受测验的学生总数。H表示该测验题的最高可能得分,L表示该测验题的最低可能得分。测验的信度、效度、难度与区分度第六十二页,共七十九页,2022年,8月28日

四、区分度

区分度又叫鉴别力,它是测验对学生实际水平的区分程度的指标。一个具有良好区分度的测验题,实际水平高的学生应该得高分,实际水平低的学生应该得低分。测验的区分度有积极区分度和消极区分度两种。积极区分是指区分的方向与测验总分的方向一致的区分,区分的方向与测验部分的方向不一致的区分是消极区分。测验题的区分度的取值范围在-100至100之间。如果区分度是负值,则表示该区分是消极区分;如果区分度为0,则表示该测验题没有区分;如果区分度是正值,则表示该区分是积极区分。测验的信度、效度、难度与区分度第六十三页,共七十九页,2022年,8月28日

四、区分度

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论