教育统计与测量_第1页
教育统计与测量_第2页
教育统计与测量_第3页
教育统计与测量_第4页
教育统计与测量_第5页
已阅读5页,还剩397页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、刘经兰刘经兰赣南师范学院教育科学学院赣南师范学院教育科学学院(学前教育1101、1102)三教407周二1、2节,周五双1、2节n教育统计与测量是一门应用性的学科,学习的过程也是应用的过程,从而提高本门课程的学习效果,更好实现课程的功能。n准备的学习用具:统计功能的计算器,练习本两本 教育统计篇教育测量篇教育统计篇教育统计篇n 第一讲第一讲 教育统计绪论教育统计绪论第一节第一节 教育统计学概述教育统计学概述研究对象研究对象研究方法研究方法研究内容研究内容研究对象研究对象教育统计学: 应用数理统计学的原理和方法研究教育问题。 主要研究如何收集、整理、分析由教育调查和教育实验所获得的数据资料,并以

2、此为依据进行科学推断,揭示教育现象所蕴涵的客观规律。研究方法n研究过程(三阶段)资料的收集资料的整理资料的分析研究方法调查实验全面调查重点调查典型调查抽样调查单组实验等组实验轮组实验一组对象,若干处理相同条件对象,不同处理一组或多组对象,轮换处理抽样调查n单纯随机抽样从调查总体中完全随机地抽取调查单位或个人。n分层抽样将总体中每一个个体按照一定的规则分为不同的类型或层次,然后从各层次中按一定规则随机抽取若干样本。n整群抽样是抽取的对象以整群为单位而不是以个体不单位的抽样方法n 机械抽样P4随机数的产生随机数的产生n大小为N的总体中产生样本量为n的随机样本的一个常用的方法是利用随机数(rando

3、m number)。 n利用随机数步骤为:(1) 把总体的所有个体编号;(2) 产生n个在0到N之间的随机数;(3)与如此产生的随机数中的数目相同的个体则形成了样本量为n的简单随机样本。n最原始的办法是掷一种正20面体的均匀材料制成的骰子,标有两套0到9的数字。每次产生一个0到9的数字。n另一种是查阅随机数表。在一些传统的统计教科书后可以找到随机数表;也有专门的随机数表的册子。n今天,多用计算机产生的伪随机数(pseudo-random number)来代替真正的随机数。研究内容n描述统计统计图表统计特征量n推断统计正态分布总体均数的估计假设检验方差分析n描述统计研究如何对客观现象的数量特征进

4、行计量、观察、概括和表述。n用表和图表示,计算特征量(如平均值)等,所论不超出已有数据。n推断统计(统计推断)据数据所提供信息对数据所来自的总体(母体)的性质作推断,推断会有错误、误差,用概率论的术语和方法来描述和论证。误差的产生源于数据有误差。怎样尽可能减少推断的错误和误差,是统计推断的中心问题。描述统计与推断统计描述统计与推断统计n 目的描述数据特征找出数据的基本规律n内容确定要研究的数量特征设计统计指标(说明这些数量特征的)搜集数据整理数据计算并显示指标数据描述统计描述统计的主要方法集中量数集中量数: : 描述集中趋势描述集中趋势差异量数差异量数: : 描述离散程度描述离散程度相关系数相

5、关系数: : 描述关系程度描述关系程度偏态系数偏态系数峰态系数峰态系数次数分布图次数分布图, 如如直方图直方图发展趋势折线图发展趋势折线图相关散点图相关散点图描述数据的正态程度n目的:目的:对总体特征作出推断。n内容:内容:推断统计均数差异显著性检验均数差异显著性检验次数分布差异显著性检验次数分布差异显著性检验比例数差异显著性检验比例数差异显著性检验变量间关系显著性检验变量间关系显著性检验描述统计与推断统计的关系推断统计推断统计(利用样本信息对(利用样本信息对总体的数量特征进总体的数量特征进行估计和检验等)行估计和检验等)概率论概率论(包括分布理论、大数(包括分布理论、大数定律和中心极限定理等

6、定律和中心极限定理等)描述统计描述统计(统计数据的搜集、整(统计数据的搜集、整理、显示和分析等)理、显示和分析等)总体数据总体数据样本数据样本数据第二节 教育统计学的初步概念n被试n数据与变量n随机n误差n抽样与样本n定性研究和定量研究n统计量与参数n(一) 随机变量n(二)总体、样本和个体n(三)次数、频率和概率n(四)误差n(五) 统计量与参数n(六)定性研究与定量研究(一) 随机变量随机变量n1、在相同条件下进行的实验或观察,其可能结果不止一个,事先无法确定,这类现象称为随机现象。具备以下三个条件:n第一,一次试验有多种可能结果,其所有可能结果是已知的;n第二,试验之前不能预料哪一种结果

7、会出现;n第三,在相同的条件可以重复试验。n2、随机现象的每一种结果叫做一个随机事件。n3、我们把能表示随机现象各种结果的变量称为随机变量。用X、Y、X1、X24、随机变量的分类:n实验数据按由什么观测方法得来,可划分为两大类,n一类是计数数据计数数据,是指计算个数的数据,一般属性的调查获得的是此类数据,它具有独立的分类单位,如人口数、学校数等等,一般都取整数的形式。n另一类测量数据测量数据,是借助于一定的测量工具或一定的测量标准而获得的,如身高、体重、分数、各种感觉阈等等。 4、随机变量的分类:n测量数据按其是否等距和有无绝对零点,又可细分为下述四种测量水平:(1)有相等单位又有绝对零点的数

8、据称为比率变量,如身高、体重、反应时、各种感觉阈值的物理量。(2)有相等单位但无绝对零点的数据,称为等距变量,如温度、各种能力分数、智商等。(3)既无相等单位,也无绝对零点,仅表示顺序,不能指出其间的差别大小的数据,称为顺序变量。如等级评定、品质等级等等。(4)既无相等单位,也无绝对零点,仅表示其名称的变量,称为称名变量。如名字、学号等等。4、随机变量的分类:n测量数据按其是否具有连续性可划分为n连续变量与离散变量(二)总体、样本和个体n总体是指具有某种特征的一类事物的全体又称母体。构成总体的每个基本单元称为个体。从总体中抽取一部分个体,称为总体的一个样本。 (三)次数、频率和概率 n1、次数

9、 次数是指某一事件在某一类别中出现的数目,又称为频数,一般用符号f表示。n2、频率 又称相对次数,即某一事件的次数被总的事件数目除,亦即某一数据出现的次数被这一组数据数目的总数除。频率常用比例来表达,有时也用百分数表示。f/Nn3、概率又称机率或然率,常用符号P表示。是指某事件在无限的观测中所能预料的相对出现的次数。概率常用比例表示。 (四)误差n测定的观测值与真值之差称为误差.误差可分为随机误差、系统误差和抽样误差三种类别。n随机误差指由与研究目的无关的难以控制的偶然因素所引起的误差。n系统误差指由与研究目的无关的因素所引起的有规律性的误差。n抽样误差指由于抽样而产生的误差。抽样误差属于随机

10、误差的范畴,由于它在统计中的重要地位,所以人们专门列条陈述。(五)(五) 统计量与参数统计量与参数n统计量又称统计特征数,是根据科研实验所获得的一组观测值计算出来的一些量数,又称为样本统计量。n参数又称总体参数,是指描述一个总体情况的一些统计指标。n统计量和参数所用的名称基本相同,但符号是不一样的。 (六)定性研究与定量研究n定性研究是对教育的研究内容进行质的分析,通过分类选取典型例证的方式对信息重新组织和在描述性的基础上得出结论。n定量研究是指对教育中所包含的信息采用一定的方法、技术进行量的分析。思考与练习题n1、何谓教育统计学?学习它有何意义?n2、什么是随机变量?教育科学实验所获得的数据

11、是否属于随机变量?n3、怎样理解总体、样本与个体?n4、何谓次数、频率及概率?n5、统计量与参数之间有何区别和关系?6、下述一些数据,哪些是测量数据?哪些是计数数据?其数值意味什么?称名变量,顺序变量,等级变量,比率变量n(1)17.0千克 (2)89.85厘米n (3)199.2秒 (4)17人n (5)25本 (6)93.5分n(6)35号 (7)第一名,第二名n(8)3第二讲 描述统计n第一节第一节 统计表与统计图统计表与统计图n第二节第二节 教育统计的特征量教育统计的特征量SCORE95.092.590.087.585.082.580.077.575.072.570.067.5SCOR

12、EFrequency3020100Std. Dev = 5.83 Mean = 85.5N = 80.00第一节 统计表与统计图n统计表n构成:统计表一般由标题、表号、标目、表注等构成。横标目的总标目(亦可空白)纵标目(一般设谓语)横标目数字表的标题 ? ? ? 注脚:说明资料来源等 X X X (顶线)(底线)统计表基本格式编制统计表的要求 n ()表的结构要简单明了,层次清楚。n ()表的标题要简明扼要地、确切地反映表的内容,写在表的上端的中央位置。n ()表的标目有横、纵标目之分。 一般将统计表所要叙述的主要对象放在横标目n上,而将用以叙述的统计指标在纵标目上。n ()表内数据排列要整齐

13、,小数点位置要对齐,缺数据格或无数据格要划斜线。n ()表的标题、标目或数字有未尽之意的地方,应加脚注说明,表中资料的来源应在底线下加以注明。简单表表2 重庆2中各年高考录取人数年份1993 19941995 1996 1997 合计高考录取人数101109110150190560复合表表2。4 某高级中学各年级文理科男女学生人数科别文科理科总计男女男女男女高一12085180110305195高二11090170105280195高三14011019095340205总计3702855453109155954、频数分布表n对于一组大小不同的数据划出等距的分组区间称为组距(i),然后将数据按其

14、数值大小列入各个相应的组别内,便可以出现一个有规律的表式。这种统计表又称之为次数分布表。 编制次数分布表的步骤 n(1)求全距。全距指最大数与最小数之间的差距。 n(2)决定组数与组距。组距是指每一组的间距,用符号i表示 n(3)列出分组区间。分组区间又称为分组阶段。n列分组区间要注意以下几点:最高组区间内应能包含最大值的数据,最低组区间应能含最小值的数据。最高组或最低组的下限最好是组距的整数倍。分组区间可写为10一,20一,30一,40一等,但我们l必须明确,实际上各组的精确界限应是9.5一19.499。 n(4)登记次数。依次将数据登记到各个相应的组别内,一般用划线记数或写正字的方法。n(

15、5)计算次数(f)。各组的次数计算好后,还要计算总和即总次数。一是为了以后计算的需要,二是为了核对各组总和与数据总数(N)是否相等。n(5)抄录新表。登记核实后,重新制表。5.累积频数分布表及累积百分比分布表 表一表一 三(三(2 2)班)班3030名学生语文、数学、英语期末考试成绩名学生语文、数学、英语期末考试成绩 (三科成绩均服从正态分布) 学号语数英学号语数英学号语数英018793851180727621676571026567741276818222807883037372801366707323848795049486821453576024867775058078761544525

16、325616264067875651649504526687274077580761774818027726966086360581869707328788688095866671973747229828178107074742052435430767585表二:三(2)班30名学生语文成绩频数分布表分组区间组中值xc简单频数f相对次数f/N%累积频数FbFa累积百分比%90-9513.333013.3380-85723.3329826.6770-751033.3422186060-65723.33122583.3350-5531052893.3340-4526.67230100 x30n课堂

17、练习:n三(2)班30名学生英语成绩频数分布表n利用计算机制表常用的计算机软件:Excel,SPSS制表n用Excel软件制表语文语文数学数学英语英语物理物理化学化学政治政治体育体育高三(1)75698976798384高三(2)82659065778976高三(3)72888789856789高三(4)67817981896963二、统计图n(一)统计图的功用(一)统计图的功用n所谓统计图就是依据数字资料,应用点、线、面、体、色彩导的描绘制成整齐而又规律,简明而又知其数量的图形。统计图一般采用直角坐标系,横坐标用来表示事物的组别或自变量X,纵坐标常用来表示事物出现的次数或因变量Y.(二)统计

18、图的结构与制图要点(二)统计图的结构与制图要点n图号及图题 n图目n图形图形 n图注图注(三)统计图的种类(三)统计图的种类n统计图可按形状、数字性质、图的用途等标志分为多种类别。教育统计中常用的统计图可按形状划分为直条图、直方图、曲线图、圆形图、散点图等等。 n统计图:由标题、图号标目、图注等项构成。单式条形图0204060优良及格不及格图2 。 3 某 中 学考核结果人数第一节 统计表与统计图n复式条形图020406080100高三(1 )高三(2 )高三(3 )高三(4 )语文数学英语物理圆形图(饼图)图2 。 2 某中 学考核成绩人数优23%良47%及格18%不及格12%优良及格不及格

19、圆形图(饼图)折线图图2 。 5 某 市 教育系统1 9 9 5 - 2 0 0 0年 人 员 平 均 工 资和经费投入变化情况(1 9 9 5 年= 1 )01231995 1996 1997 1998 1999 2000平均工资经费投入4. 线条图5. 频数颁布直方图图.4中考化学统计成绩直方图6. 累积频数图图.5 2004年中考化学抽样得分情况累积频数图 10 20 30 40 50 60 70 80 90 100图2.6:高一语文7、面积图面积图北京、四川城镇居民消费性支出比较0.001000.002000.003000.004000.005000.006000.00 食 品 衣 着

20、 家庭设备 医疗保健 交通和通讯 文化教育 居 住 杂项商品 四 川 北 京 n三(2)班30名学生语文成绩简单直方图、折线图、累积次数直方图、累积次数曲线表二:三(2)班30名学生语文成绩频数分布表分组区间组中值xc简单频数f相对次数f/N%累积频数FbFa累积百分比%90-9513.333013.3380-85723.3329826.6770-751033.3422186060-65723.33122583.3350-5531052893.3340-4526.67230100 x30n课堂练习:n三(2)班数学和英语成绩的次数分布表.相对次数分布表,累积次数分布表和次数直方图,次数多边图和

21、累积次数曲线.n利用计算机制图常用的计算机软件:Excel,SPSS制图n用Excel软件制图级 别2001级2000级Count121086420去 向高 校研 究 所企 业国 家 机 关读 博中 小 学第二节 教育统计的特征量n最常用的统计量有三类:n一类是代表一组数据典型水平或集中趋势的量,即集中量;n另一类是反映一组数据的变异程度或离散程度的量,即差异量n第三类是反映数据的相关程度的量,即相关量。一、集中量n定义:代表一组数据典型水平或集中趋势的量。平均数n算术平均数原始数据法:频数分布表法n加权平均数原始数据法频数分布表法n集中量是代表一组数据典型水平或集中趋势的量。n常用的集中量有

22、平均数、中位数和众数。一、平均数n1、算术平均数n2、加权平均数n1、算术平均数n简称为平均数或均数(Mean)。,X Ym1、算术平均数n(1)未分组数据平均数的计算方法n(2)数据分组后计算平均数的方法n(3)平均数特点n(4)平均数的意义与应用(1)未分组数据平均数的计算方法(原始数据)n当一组数据未进行统计分类时,若想描述其典型情况,找出其代表值,可计算算术平均数,公式为:n n公式中Xi表示所有数据的和,即Xi=XI+X2+XNnN为数据的个数。. 1niiXXNn例如,求某小组10个学生的数学测验分数78,79,62,84,90,71,76,83,98,77的平均数。表一表一 三(

23、三(2)班)班30名学生语文、数学、英语期末考试成绩名学生语文、数学、英语期末考试成绩 (三科成绩均服从正态分布) 学号语数 英学号语数英学号语数英0187938511807276216765710265677412768182228078830373728013667073238487950494868214535760248677750580787615445253256162640678756516495045266872740775807617748180277269660863605818697073287886880958666719737472298281781070747420

24、52435430767585(2)数据分组后计算平均数的方法(频数分布表)n公式为:ncxfXN表二:三(2)班30名学生语文成绩频数分布表分组区间组中值xc简单频数f相对次数f/N%累积频数FbFa累积百分比%90-9513.333013.3380-85723.3329826.6770-751033.3422186060-65723.33122583.3350-5531052893.3340-4526.67230100 x30(3)(3)平均数的特点平均数的特点111()nnniiiiixCxCX Cnnn在一组数据中,每一个数据加上一个常数在一组数据中,每一个数据加上一个常数C C,则所得

25、的平均数为原来的平均数加上常数则所得的平均数为原来的平均数加上常数C C。即:。即:()0ixX在一组数据中,每一个数据乘上一个常数在一组数据中,每一个数据乘上一个常数C C,则,则所得的平均数为原来的平均数乘上常数所得的平均数为原来的平均数乘上常数C C。即:。即: 离均差的和等于离均差的和等于0 0。即:。即:11()nniiiixCCxCXnn(4)平均数的意义与应用n算术平均数具备一个良好的集中量数应具备的一些条件:n反应灵敏。n确定严密。n简明易解。n计算简单。n符合代数方法进一步演算。n较少受抽变动的影响。n缺点:n 易受极端数据的影响。n 若出现模糊不清数据时,无法计算平均数。n

26、此外,必要注意,凡不同质的数据不能计算平均数。2、加权平均数n(1)加权平均数的概念n加权平均数是不同比重数据(平均数),nW表示各观察值的权数;nX表示具有不同比重的观察值。iiWiW XMW(2)加权平均数的计算方法n例如,某年级各班的一次数学考试成绩如下:一班45人平均分为80;二班50人平均分为70;三班40人平均分为65;四班50人平均分为80;五班60人平均分为65,求全年级的总平均分。iiTin XXnn例2 :某校初一共有3个班,某次语文测验中,一班50人均分为68,二班45人均分为75,三班40人均分为80,问全校初一语文的平均成绩?89.734045508040754568

27、50WX不能用:(不能用:(68+75+80)/3=74.33二、中位数n中数,中数,又称中点数,中位数。符号为Md中数是指位于一组数据中较大一半与较小一半中间位置的那个数。n中数的求法根据数据是 否分组,而有不同的方法。(一)未分组数据求中数的方法n例1有下列9个数,依大小排列为4、7、8、9、10、11、12、13、14(N=9)n(N+1)/2=5,序列第五的数据是10,则该组数据的中数是10。n例2有下列8个数,依大小排列为:n2、3、5、7、8、10、15、19(N=8)序列为N/2=4者是7,序列为N/2+1=5者为8,则其中数为(7+8)/2=7.5。n从以上两例可以看出,求中数

28、不受极大值与极小值的影响,而决定中数的关键是居中的那几个数据的数值大小。.(二)次数分布表求中数的方法(了解)n其具体步骤如下:n第一步求N/2,并找到N/2所在的分组区间;n第二步求含有中数那一区间以下各区间的次数和记作Fb;n第三步求N/2与 Fb之差;n第四步求序列为第N/2那一点的值。求中数的公式如下:22,bbm dam dNFM dLifNF aM dLifbbaam d其中F为中数所在组的精确下限L为该组以下各组次数的累加次数F为中数所在组的精确上限L为该组以上各组次数的累加次数f为中数所在组的简单次数i 为组距, N 为总次数表二:三(2)班30名学生语文成绩频数分布表分组区间

29、组中值xc简单频数f相对次数f/N%累积频数FbFa累积百分比%90-9513.333013.3380-85723.3329826.6770-751033.3422186060-65723.33122583.3350-5531052893.3340-4526.67230100 x30中数的意义与应用n优点:计算简单,容易理解,中数的概念简单明了。n缺点:它反应不够表敏;n计算中数时,受抽样的影响较大,不如平均数稳定;n中数乘以总数与数据的总和不相等;n中数不能作进一步代数运算等等。n在一些特殊情况下,它的应用受到重视。这些特殊情况是:当一组观测结果中出现两极端数目时。当次数分布的两端数据或个别

30、数据不清楚时,只能取中数作为集中趋势的代表值。当需要快速估计一组数据的代表值是,也常用中数。三、众数的概念与求法三、众数的概念与求法 n众数(Mode)又称为范数,密集数,通常数等,常用符号M0表示。众数是指在次数分布中出现次数最多的那个数的数值。 n(一)直接观察求众数n(二)用公式法求众数n(三)众数的意义与应用n(一)直接观察求众数n只凭观察找出出现次数最多的数据就是众数。n5、8、9、8、4、3、8、1、8、4(二)用公式法求众数n1、皮尔逊的经验法(分数分布为正态分布)nMo=3Md-2M2、金氏插补法(了解)式中Lb为含众数这一区间的精确下限;fa不高于众数所在组一个组距那一分组区

31、间的次数;fb不低于众数所在组一个组距那一分组区间的次数;I为组距 若fa=fb ,则Mo不次数最多那一区间的组中值。 这个公式适合次数分布比较偏斜的情况,当然,比较接近正态分布的出适用。aObabfMLiff众数的意义与应用n众数的概念简单明了,容易理解;n但它不稳定,受分组的影响,亦受样本变动的影响;n反应不够灵敏,观察众数,不严格计算而来,用计算方法所得众数亦是一个估计值。同时不能作进一步代数运算。n众数也不是一个优良的集中量数,应用也不广泛。n但在下述情况下也常有应用:当需要快速而粗略地寻求一组数据的典型情况时;当一组数据出现同质的情况时,可用众数表示;3、当次数分布中有两极端的数目时

32、,有时也用众数(一般用中数);当粗略估计次数分布的形态时,有时用平均数与众数之差,表示次数分布是否偏态的指标。平均数、中数、众数之间的关系平均数、中数、众数之间的关系n在一个正态分布中,平均数、中数、众数三者相等,因此在数轴上三点重合。n在正偏态分布中MMdM。n在负偏态分布中MMdM。n平均数为一个平衡点,是一组数据的重心。它使数轴保持平衡,即支点两侧的力矩是相等的。n中数:只使其两侧的数据个数相同。n众数:是指次数出现最多的,即重量较大的那个数据。思考与练习题1、应用算术平均数表示集中趋势要注意什么问题?2、对于下列数据,使用何种集中量数表示集中趋势其代表性更好?并计算它们的值。(1)4

33、5 6 6 7 29(2)3 4 5 5 7 5(3)2 3 5 6 7 8 9 3、求下列次数分布的平均数、中数和众数分组f分组f65-135-3460-430-2155-625-1650-820-1145-1615-940-2410-74、求下列四个年级的总平均成绩年级一二三四90.5919294 n236318215200X第二节 教育统计的特征量n二、差异量:代表一组数据离散程度、变异程度的量。(一)全距(R)n最大值与最小值之差maxminRXX(三) 方差与标准差方差与标准差n方差(Varance)也称变异数、均方。作为统计量,常用符号S2,x2表示,作为总体参数,常用符号2表示。

34、n标准差(Srandard deviation)即方差的平方根,常用S或SDx表示。若用表示,则是指总体的标准差。1、方差与标准差的计算、方差与标准差的计算2212122121()()()1()1niiniiniiniiXXNXXNXXSnXXSnn问题1: 某班甲乙两组在一次测验中的成绩分别为65,68,71,72,74(均分为70分)和 30,50,86,90,94(均分为70分)。如何评价两组的学习情况?又如:某某研究者对实验班用计算机辅助教又如:某某研究者对实验班用计算机辅助教学,而对照班仍用传统的讲授方式进行教学,期学,而对照班仍用传统的讲授方式进行教学,期末进行统一测试,两班学生的

35、成绩如下,试比较末进行统一测试,两班学生的成绩如下,试比较两种授课方式产生的效果有何不同?两种授课方式产生的效果有何不同? 实实验验班班 对对照照班班 8 83 3 8 86 6 8 87 7 7 78 8 7 72 2 7 75 5 7 76 6 9 92 2 8 87 7 7 78 8 9 90 0 8 88 8 7 76 6 8 89 9 8 84 4 8 87 7 8 82 2 9 95 5 7 79 9 7 77 7 8 86 6 8 84 4 8 83 3 8 81 1 9 91 1 9 90 0 8 89 9 8 87 7 8 86 6 8 85 5 8 88 8 8 87 7

36、8 85 5 7 79 9 7 78 8 9 91 1 8 89 9 8 84 4 9 92 2 7 79 9 8 85 5 8 82 2 7 76 6 7 74 4 8 80 0 8 81 1 7 75 5 8 84 4 8 87 7 8 83 3 7 78 8 8 83 3 7 79 9 6 68 8 7 74 4 8 83 3 7 77 7 6 69 9 7 76 6 8 87 7 8 84 4 7 78 8 8 87 7 9 90 0 8 83 3 8 85 5 8 88 8 7 76 6 7 78 8 7 73 3 8 87 7 8 80 0 8 84 4 7 76 6 7 75 5

37、 7 79 9 8 84 4 8 89 9 8 87 7 7 75 5 7 71 1 7 72 2 7 76 6 8 85 5 8 88 8 8 85 5 8 83 3 8 82 2 7 78 8 6 66 6 6 65 5 总平均数=81.81平均分标准差D方差和平方和实验班(45)83.76 5.471.9529.92 3853324107对照班(46)79.82 6.361.9940.45 3592288544表1:30名学生英语成绩频数分布表分数组中值XC fFb70-7223065-6752860-5292355-5781450-526630求平均数、标准差和方差 2、方差与标准差的

38、意义方差与标准差的意义n方差与标准差是表示一组数据离散程度的最好指标,其值越大,说明离散程度大,其值小,说明数据比较集中,它是统计描述与统计分析中最常应用的差异量数。n它基本具备一个良好的差异量数应具备的条件:(1)反应灵敏;(2)有一定的计算公式严密确定;(3)容易计算;(4)适合代数运算;(5)受抽样变动的影响小,即不同样本的标准差或方差比较稳定;(6)简单明了;(7)具有可加性。四、差异系数n当所观测的样本水平比较接近,而且是对同一个特质使用同一种测量工具进行测量时,要比较不同样本之间离散程度的大小,一般可直接比较标准差或方庆功的大小。标准差的单位与原数据的单位相同,有时称它为绝对差异量

39、。n差异系数,又称变异系数、相对标准差等,通常用符号CV表示,其计算公式如下:n(1)同一团体不同观测值的离散程度的比较;(2)对于水平相差较大,但进行的是同一观测的各种团体,进行观测值离散程度的比较。%100XCVn例题:某校期末考试语文平均成绩为69.3分,标准差为11.2分;英语平均成绩为94.8,标准差为13.8分。问哪一学科离散程度大?%2 .16%1003 .692 .11)(语文CV%6 .14%1008 .948 .13)(英语CVn例题:设某考区已录取高中学生语文平均分为69分,标准差为12.5分,而未录取高中的学生语文平均分为40分,标准差为12.5分。比较他们语文成绩的离

40、散程度。 CV1=12.5/69 *100%=18.12%; CV2=12.5/40 *100%=31.25%。 未录取学生的离散程度大。n某市区入学男童(7岁组)体重的平均值为20.37kg,标准差为2.16kg;身高的平均值为113.64cm,标准差为4.04cm。问身高与体重那个差异大?由公式%100XCV课堂练习:练习练习n1、分别用定义公式及原始数据计算、分别用定义公式及原始数据计算3,5,8,9,10的方差和标准的方差和标准差。差。n2、计算下列资料的方差和标准差。、计算下列资料的方差和标准差。分数分数50-55-60-65-70-75-80-85-90-95-总和总和频数频数24

41、6112437191294128n3、2002年测得我国年测得我国17岁学生岁学生400M跑成绩,男学生平均数为跑成绩,男学生平均数为92.5秒,秒,标准差为标准差为6.72秒,女学生平均数为秒,女学生平均数为117.0秒,标准差为秒,标准差为10.6秒,试比秒,试比较较17男女学生男女学生400M跑成绩的离散程度。跑成绩的离散程度。第二节 教育统计的特征量n相关量:用于描述两个或多个变量间关联程度的量。相关关系相关系数相关系数:用来描述两个变量相互之间变化方向及密切程度的数字特征量称为相关系数。积差相关等级相关点二列相关 相关数学与物理、物理与英语相关性比较数学物理英语物理170757675

42、260636063382756575444605660552557055690978597780894889r0.91 0.26 相关系数与相关程度表一览表相关系数与相关程度表一览表| r | 00.30.3|r| 0.50.50.81.0 相关程度零相关微相关切实相关密切相关高度相关完全相关相关关系正相关相关关系零相关负相关积差相关系数n积差相关两组(N30)的正态、且呈线性关系的连续变量之间的相关。积差相关系数的定义公式:积差相关系数的定义公式:YXNYYXXXYr)(积差相关系数的定义n用原始数据计算:用特征量计算:例:P46 backNYYNXXNYXXYr/)(/)(/)(2222Y

43、XNYXNXYr等级相关系数n等级相关系数以等级次序排列或以等级次序表示的变量之间的相关Spearman 二列等级相关:N不一定必须大于30)1(6122NNDrR数学d1物理d2D1704753.50.5260563503822753.5-1.5444760615526557-16901971078038921902.0)17(75.561)1(615.52222NNDrDR由计算器算得例:10个学生数学和物理成绩的等级相关分析序号序号数学分数数学分数X X物理分数物理分数Y YX X等级等级Y Y等级等级D DD D2 21949311002909222.5-0.50.25386923.5

44、2.511486703.57-3.512.255728254116707665.50.50.257686579-248667685.52.56.25964689811106160101000N=10N=102684.099102661)1(6122NNDrR点二列相关n在来自总体的两个变量中,一个变量是连续变量,另一个变量是两分变量(男、女;对、错;及格、不及格),点二列相关研究这样两个变量之间的相关关系。pqXXrtqppb相关系数p、q两类变量的平均值连续变量的标准差另一类别频数的比例一类别频数的比例性别男 男 男 男 女 男 男 女 女 女 男 女 女 男 男成绩86 91 90 66

45、58 99 74 88 72 89 62 65 78 67 858098566909186PX756788858qX例:某班期末语文考试,从全体考生中随机抽取15名学生的考试成绩,见下表。问该次考试成绩是否与性别有关? P48201. 04 . 06 . 019.127580pqXXrtqppq6 . 0159p4 . 0156q19.12t例题:下表为某一测验中10名考生的卷面总分和一道选择题的得分,试求该选择题的区分度.(与部分的相关)考生ABCDEFGHIJ选择题得分1111001001卷面总分75 57 73 65 67 56 63 61 65 6766.667,62.25,5.804

46、66.667 62.250.6 0.45.8040.373pqtpqpqtXXXXrpq由计算器算得:p=0.6,q=0.4, 相关n两个变量都是二分变量,或者可以人为地分为二分变量时,使用 相关分析其相关程度。另一类数据合计及格不及格一类数据是aba+b否cdc+d合计a+cb+d)()()(dbcadcbabcadr例:从体育达标测验的学生中随机抽取60人,其中男、女达标情况见下表,问本次达标测验是否与性别有关?另一类数据合计达标未达标一类数据男201232女111728合计312960)()()(dbcadcbabcadr232. 02829313211121720254.005.0)5

47、8(r例题:从研究生入学考试中,随机抽取100人,其大学应届与历届毕业生录取情况如下表,问应届与历届大学毕业生同研究生录取与否的相关情况如何?0.23应届录取未录取历届录取301848未录取2032525050100练习练习n1、求以下几何(、求以下几何(X)与代数()与代数(Y)的积差相关系数。)的积差相关系数。X 79 75 77 73 79 78 81 76 72 70Y 80 82 76 77 77 84 81 72 70 75 n2、校方寻某一个年级、校方寻某一个年级8位物理教师课堂教学效果位物理教师课堂教学效果所排列的名次所排列的名次(由低到高排),和这由低到高排),和这8个班级学

48、生个班级学生物理统一测验的平均分数如下表,问教师课堂教物理统一测验的平均分数如下表,问教师课堂教学效果与学生测验成绩是否存在相关?学效果与学生测验成绩是否存在相关?课堂教师效果得分课堂教师效果得分 4 2 8 7 3 6 1 5各班平均分数各班平均分数 72 54 80 72 63 69 51 69n3、高等教育自学考试已婚与未婚学员的高等数学成绩如下、高等教育自学考试已婚与未婚学员的高等数学成绩如下表,问婚否与成绩是否存在相关?表,问婚否与成绩是否存在相关?成绩成绩72 81 64 93 67 70 78 83 79 71 77 82 80 76 58 66 72 67 74 78 已婚已婚

49、1未婚未婚01 0 0 0 0 1 0 1 1 1 0 0 1 1 1 1 1 1 1 04、从研究生入学考试的学生中,随机抽取60人,其大学应届与历届毕业生录取情况如下表,问应届与历届大学毕业生同研究生录取与否的相关情况如何?应届合计 录取未录取历届录取 a20 b1232未录取C11 d1728合计302960n1、553. 02 . 4317. 3104 .7776105890110, 2 . 4, 4 .77317. 3,76,58901:YXNYXNXYYxxyrNYx得由计算器算第三节 利用计算机求特征量n利用计算机求集中量n利用计算机求差异量n利用计算机求相关量利用计算机求集中量

50、(一)n计算算术平均值(AVERAGE)步骤:1.建立Excel工作表、点击fx、选择常用函数或点击统计、选择AVERAGE(算术平均值)、点击确定。2.点击数据组表格框、拖动表格、点击表格框、点击确定。例:利用计算机求集中量(二)n计算中值(MEDIAN)步骤:1.建立Excel工作表、点击fx、选择常用函数或点击统计、选择MEDIAN (中值)、点击确定。2.点击数据组表格框、拖动表格、点击表格框、点击确定。例: Back MODE(众数)的求法与MEDIAN的求法相似利用计算机求标准差n步骤:1.建立Excel工作表、点击fx、选择常用函数或点击统计、选择STDEV (标准偏差)、点击确

51、定。2.点击数据组表格框、拖动表格、点击表格框、点击确定。例: back利用Excel求积差相关系数1.建立Excel工作表、点击fx、选择常用函数或点击统计、选择CORREL(积差相关系数)、点击确定。2.点击数据组表格框(1)、拖动所选数据表格、点击表格框(1),点击数据组表格框(2)、拖动所选数据表格、点击表格框(2)、点击确定。例:利用问卷收集数据正态负偏态正偏态第三讲 推断统计n第一节 正态分布n第二节 总体平均数的估计n第三节 几种常用统计检验方法n第四节 方差分析概概 率率n频率:随机事件频率:随机事件A在在n次试验中出现次试验中出现m次,次,m与与n的比值就是的比值就是随机事件

52、随机事件A发生的频率。发生的频率。n公式:公式:P(A)= m / nn概率:随着试验次数概率:随着试验次数n的无限增大,随机事件的无限增大,随机事件A的频率稳定于的频率稳定于一个常数一个常数P,这个,这个P就是随机事件就是随机事件A出现的概率。可表示为:出现的概率。可表示为:n P(A) m / nn概率的性质:概率的性质:(1)0 P(A) 1(2)不可能事件的概率等于零。即)不可能事件的概率等于零。即P(v)= 0(3)必然事件的概率等于)必然事件的概率等于1。即。即P(u)= 1第一节 正态分布和正态曲线n最为常见一种概率分布形态,在理论和实践中均有广泛的应用。n(一)密度函数n简记n

53、特征:单峰、对称2222xenY2,N决定峰高和宽窄。决定分布的中心位置, 标准正态分布 (standard normal distribution)的两个参数为:=0,=1 记为 N(0,1) XeAXzNNuXz,21);1 , 0(),(222其中标准正态分布被转化为变换:一般正态分布标准正态变量经一般正态分布为一个分布族:N(m,s2) ;标准正态分布只有一个 N(0,1) ;这样简化了应用 dXeXFXX)2()(2221)(221( )2zZ ue u-0.00.10.20.30.40.5-4-3-2-101234zf(X)正态曲线( normal curve )图形特点:1. 钟

54、型2. 中间高3. 两头低4. 左右对称5. 最高处对应于X轴的值就是均数6. 曲线下面积为17. 标准差决定曲线的形状正态分布的特征n1、正态分布的形式是对称的,(但对称的不一定是正态分布),它的对称轴是过平均数点的垂线。正态分布中,平均数、中数、众数三者相等,此点y值最大(0.3989)。n2、正态分布的中央点(即平均数点)最高,然后逐渐向两侧下降,曲线的形式是先向内弯,然后向外弯,拐点位于正负1个标准差处,曲线两端向靠近基线处无限延伸,但终不能与基线相交。012-1-2xy-33=0=1n3、正态曲线下的面积为1,由于它在平均数处左右对称,故过平均数点的垂线将正态曲线下的面积划分为相等的

55、两部分,即各为0.50。0.00.10.20.30.40.5-4-3-2-101234Xf(X)0.5二、正态分布表的编制与使用n依据正态分布的密度函数,编制方法:从Z=O开始,逐渐变化Z分数,计算从Z=0至某一定值之间的概率。012-1-2zy-33=0P=1zYn正态表一般包括以下三栏:n第一栏表明Z分数单位, 在平均数这一点上Z=0,在平均数以上(即曲线右侧)Z分数为正值,在平均数以下(即曲线左侧)Z分数为负值。一般正态表上z分数列到3.99,更详细的列到5.00。n第二栏为y(即密度函数或比率数)值,即某一Z分数点上的曲线纵坐标的高度,标准正态曲线下y=0.3989,它是Z=0。这一点

56、上曲线纵坐标具有的最大值或说概率密度值。n第三栏为概率值(常标以P)即不同z分数点与平均数之间的面积与总面积之比。(一)依据Z分数求概率。即已知差度(Z),求面积(P)n1.某Z分数值与平均数(Z=0)之间的概率。nP(0z1)=0.34134=p(-1z0)nP(0z2)=0.47725=p(-2z0)nP(0z3)=0.49865=p(-3z3)=0.5-0.49865=0.00135nP(z1)=0.5+0.34134=0.84134012-1-2zy-33=0P?z3.求两个Z分数之间的概率。n1 1夹中间面积为夹中间面积为68.26%68.26%,n 即即 P P(1 1Z Z1 1

57、)= 68.26%= 68.26%;n2 2夹中间面积为夹中间面积为95.46%95.46%,n 即即 P P(2 2Z Z2 2)= 95.46%= 95.46%;n3 3夹中间面积为夹中间面积为99.73%99.73%,n 即即 P P(3 3Z Z3 3)= 99.73%= 99.73%;012-1-2zy-33=0P=1z2?z1n(二)从概率(P)求Z分数,即从面积求差度值。这种计算的查表方法有以下几种情况:n 1、从平均数开始的概率值已知,求Z值。n p(0z1)=0.34134nP(0z2)=0.47725nP(0z1.645)=0.05, Z.05=1.645nP(z 2.33

58、)=0.01, Z.01=2.33nP(z-1.645)=0.05, nP(z-2.33)= 0.01,012-1-2zy-33=0PZ?3、若已知正态曲线下中央部分的概率,求Z分数是多少n中间面积为中间面积为90%90%,nZ Z.1/2.1/2= =1.645n 即即 P P( 1.645 1.645 Z Z 1.645 1.645 )= 90%= 90%;n中间面积为中间面积为95%95%, nZ Z.05/2.05/2= =1.96n 即即 P P( 1.96 1.96 Z Z 1.96 1.96 )= 95%= 95%;n中间面积为中间面积为99%99%,n Z Z.01/2.01/

59、2= =2.58n 即即 P P( 2.58 2.58 Z Z 2.58 2.58 )= 99%= 99%。012-1-2zy-33=0PZ?n(三)求概率的密度Y,即正态曲线的高。n 不论已知概率,还是已知Z值,都可从表的第一或第三栏查对应的第二栏。所知的概率是位于正态曲线的中间部分,还是两尾端部分。这一点要注意区分,才能通过P值查表求得正确的概率密度Y。012-1-2zy-33=0PY?记住以下数据:n1夹中间面积为夹中间面积为68.26%,n 即即 P(1Z1)= 68.26%;n2夹中间面积为夹中间面积为95.46%,n 即即 P(2Z2)= 95.46%;n3夹中间面积为夹中间面积为

60、99.73%,n 即即 P(3Z3)= 99.73%;n1.645夹中间面积为夹中间面积为90%,n 即即 P( 1.645 Z 1.645 )= 90%;n1.96夹中间面积为夹中间面积为95%,n 即即 P( 1.96 Z 1.96 )= 95%;n2.58夹中间面积为夹中间面积为99%,n 即即 P( 2.58 Z 2.58 )= 99%。三、正态分布在测验记分方面的应三、正态分布在测验记分方面的应用用n1、将原始分数转换成标准分数。n2、确定录取分数线n3、确定等级评定人数n4、确定在正态分布下特定分数界限内的考生人数1 1、将原始分数转换成标准分数。、将原始分数转换成标准分数。XXZ

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论