教育统计与测量_第1页
教育统计与测量_第2页
教育统计与测量_第3页
教育统计与测量_第4页
教育统计与测量_第5页
已阅读5页,还剩397页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

教育统计与测量刘经兰(学前教育1101、1102)三教407——周二1、2节,周五双1、2节2021/5/91教育统计与测量是一门应用性的学科,学习的过程也是应用的过程,从而提高本门课程的学习效果,更好实现课程的功能。准备的学习用具:统计功能的计算器,练习本两本2021/5/92

教育统计篇教育测量篇2021/5/93教育统计篇

第一讲教育统计绪论第一节教育统计学概述研究对象研究方法研究内容2021/5/94研究对象教育统计学:应用数理统计学的原理和方法研究教育问题。主要研究如何收集、整理、分析由教育调查和教育实验所获得的数据资料,并以此为依据进行科学推断,揭示教育现象所蕴涵的客观规律。2021/5/95研究方法研究过程(三阶段)资料的收集资料的整理资料的分析2021/5/96研究方法调查实验全面调查重点调查典型调查抽样调查单组实验等组实验轮组实验一组对象,若干处理相同条件对象,不同处理一组或多组对象,轮换处理2021/5/97抽样调查单纯随机抽样从调查总体中完全随机地抽取调查单位或个人。分层抽样将总体中每一个个体按照一定的规则分为不同的类型或层次,然后从各层次中按一定规则随机抽取若干样本。整群抽样是抽取的对象以整群为单位而不是以个体不单位的抽样方法机械抽样P42021/5/98随机数的产生大小为N的总体中产生样本量为n的随机样本的一个常用的方法是利用随机数(randomnumber)。

利用随机数步骤为:(1)把总体的所有个体编号;(2)产生n个在0到N之间的随机数;(3)与如此产生的随机数中的数目相同的个体则形成了样本量为n的简单随机样本。最原始的办法是掷一种正20面体的均匀材料制成的骰子,标有两套0到9的数字。每次产生一个0到9的数字。另一种是查阅随机数表。在一些传统的统计教科书后可以找到随机数表;也有专门的随机数表的册子。今天,多用计算机产生的伪随机数(pseudo-randomnumber)来代替真正的随机数。2021/5/99研究内容描述统计统计图表统计特征量推断统计正态分布总体均数的估计假设检验方差分析2021/5/910描述统计——研究如何对客观现象的数量特征进行计量、观察、概括和表述。用表和图表示,计算特征量(如平均值)等,所论不超出已有数据。推断统计(统计推断)——据数据所提供信息对数据所来自的总体(母体)的性质作推断,推断会有错误、误差,用概率论的术语和方法来描述和论证。误差的产生源于数据有误差。怎样尽可能减少推断的错误和误差,是统计推断的中心问题。描述统计与推断统计2021/5/911

目的描述数据特征找出数据的基本规律内容确定要研究的数量特征设计统计指标(说明这些数量特征的)搜集数据整理数据计算并显示指标数据描述统计02550Q1Q2Q3Q4x

=30s2=1052021/5/912描述统计的主要方法描述统计方法集中量数:描述集中趋势差异量数:描述离散程度相关系数:描述关系程度偏态系数峰态系数特征值单向次数分布表双向次数分布表列联表(交叉表)统计图次数分布图,如直方图发展趋势折线图相关散点图描述数据的正态程度2021/5/913目的:对总体特征作出推断。内容:样本总体推断统计推断统计参数估计假设检验点估计区间估计均数差异显著性检验次数分布差异显著性检验比例数差异显著性检验变量间关系显著性检验2021/5/914描述统计与推断统计的关系反映客观现象的数据总体内在的数量规律性推断统计(利用样本信息对总体的数量特征进行估计和检验等)概率论(包括分布理论、大数定律和中心极限定理等)描述统计(统计数据的搜集、整理、显示和分析等)总体数据样本数据图1-1统计学探索现象数量规律性的过程2021/5/915第二节教育统计学的初步概念被试数据与变量随机误差抽样与样本定性研究和定量研究统计量与参数2021/5/916(一)

随机变量(二)总体、样本和个体(三)次数、频率和概率(四)误差(五)

统计量与参数(六)定性研究与定量研究2021/5/917(一)

随机变量1、在相同条件下进行的实验或观察,其可能结果不止一个,事先无法确定,这类现象称为随机现象。具备以下三个条件:第一,一次试验有多种可能结果,其所有可能结果是已知的;第二,试验之前不能预料哪一种结果会出现;第三,在相同的条件可以重复试验。2021/5/9182、随机现象的每一种结果叫做一个随机事件。3、我们把能表示随机现象各种结果的变量称为随机变量。用X、Y、X1、X2……2021/5/9194、随机变量的分类:实验数据按由什么观测方法得来,可划分为两大类,一类是计数数据,是指计算个数的数据,一般属性的调查获得的是此类数据,它具有独立的分类单位,如人口数、学校数等等,一般都取整数的形式。另一类测量数据,是借助于一定的测量工具或一定的测量标准而获得的,如身高、体重、分数、各种感觉阈等等。2021/5/9204、随机变量的分类:测量数据按其是否等距和有无绝对零点,又可细分为下述四种测量水平:(1)有相等单位又有绝对零点的数据称为比率变量,如身高、体重、反应时、各种感觉阈值的物理量。(2)有相等单位但无绝对零点的数据,称为等距变量,如温度、各种能力分数、智商等。(3)既无相等单位,也无绝对零点,仅表示顺序,不能指出其间的差别大小的数据,称为顺序变量。如等级评定、品质等级等等。(4)既无相等单位,也无绝对零点,仅表示其名称的变量,称为称名变量。如名字、学号等等。2021/5/9214、随机变量的分类:测量数据按其是否具有连续性可划分为连续变量与离散变量2021/5/922(二)总体、样本和个体总体是指具有某种特征的一类事物的全体又称母体。构成总体的每个基本单元称为个体。从总体中抽取一部分个体,称为总体的一个样本。样本总体2021/5/923(三)次数、频率和概率

1、次数次数是指某一事件在某一类别中出现的数目,又称为频数,一般用符号f表示。2、频率又称相对次数,即某一事件的次数被总的事件数目除,亦即某一数据出现的次数被这一组数据数目的总数除。频率常用比例来表达,有时也用百分数表示。f/N3、概率又称机率或然率,常用符号P表示。是指某事件在无限的观测中所能预料的相对出现的次数。概率常用比例表示。2021/5/924(四)误差测定的观测值与真值之差称为误差.误差可分为随机误差、系统误差和抽样误差三种类别。随机误差指由与研究目的无关的难以控制的偶然因素所引起的误差。系统误差指由与研究目的无关的因素所引起的有规律性的误差。抽样误差指由于抽样而产生的误差。抽样误差属于随机误差的范畴,由于它在统计中的重要地位,所以人们专门列条陈述。2021/5/925(五)

统计量与参数统计量又称统计特征数,是根据科研实验所获得的一组观测值计算出来的一些量数,又称为样本统计量。参数又称总体参数,是指描述一个总体情况的一些统计指标。统计量和参数所用的名称基本相同,但符号是不一样的。2021/5/926(六)定性研究与定量研究定性研究是对教育的研究内容进行质的分析,通过分类选取典型例证的方式对信息重新组织和在描述性的基础上得出结论。定量研究是指对教育中所包含的信息采用一定的方法、技术进行量的分析。2021/5/927思考与练习题1、何谓教育统计学?学习它有何意义?2、什么是随机变量?教育科学实验所获得的数据是否属于随机变量?3、怎样理解总体、样本与个体?4、何谓次数、频率及概率?5、统计量与参数之间有何区别和关系?2021/5/9286、下述一些数据,哪些是测量数据?哪些是计数数据?其数值意味什么?称名变量,顺序变量,等级变量,比率变量(1)17.0千克(2)89.85厘米

(3)199.2秒(4)17人

(5)25本(6)93.5分(6)35号(7)第一名,第二名(8)3℃2021/5/929第二讲描述统计第一节统计表与统计图第二节教育统计的特征量2021/5/930第一节统计表与统计图统计表构成:统计表一般由标题、表号、标目、表注等构成。横标目的总标目(亦可空白)纵标目(一般设谓语)横标目数字表的标题???注脚:说明资料来源等XXX

(顶线)(底线)统计表基本格式2021/5/931编制统计表的要求

(1)表的结构要简单明了,层次清楚。

(2)表的标题要简明扼要地、确切地反映表的内容,写在表的上端的中央位置。

(3)表的标目有横、纵标目之分。一般将统计表所要叙述的主要对象放在横标目上,而将用以叙述的统计指标在纵标目上。

(4)表内数据排列要整齐,小数点位置要对齐,缺数据格或无数据格要划斜线。

(5)表的标题、标目或数字有未尽之意的地方,应加脚注说明,表中资料的来源应在底线下加以注明。2021/5/932简单表表2重庆2中各年高考录取人数年份19931994199519961997合计高考录取人数1011091101501905602021/5/933复合表表2。4某高级中学各年级文理科男女学生人数科别文科理科总计男女男女男女高一12085180110305195高二11090170105280195高三14011019095340205总计3702855453109155952021/5/9344、频数分布表对于一组大小不同的数据划出等距的分组区间〈称为组距(i)〉,然后将数据按其数值大小列入各个相应的组别内,便可以出现一个有规律的表式。这种统计表又称之为次数分布表。2021/5/935编制次数分布表的步骤

(1)求全距。全距指最大数与最小数之间的差距。(2)决定组数与组距。组距是指每一组的间距,用符号i表示(3)列出分组区间。分组区间又称为分组阶段。列分组区间要注意以下几点:最高组区间内应能包含最大值的数据,最低组区间应能含最小值的数据。最高组或最低组的下限最好是组距的整数倍。分组区间可写为10一,20一,30一,40一等,但我们l必须明确,实际上各组的精确界限应是9.5一19.499。2021/5/936(4)登记次数。依次将数据登记到各个相应的组别内,一般用划线记数或写正字的方法。(5)计算次数(f)。各组的次数计算好后,还要计算总和即总次数。一是为了以后计算的需要,二是为了核对各组总和与数据总数(N)是否相等。(5)抄录新表。登记核实后,重新制表。2021/5/9375.累积频数分布表及累积百分比分布表

2021/5/938表一三(2)班30名学生语文、数学、英语期末考试成绩

(三科成绩均服从正态分布)

学号语数英学号语数英学号语数英0187938511807276216765710265677412768182228078830373728013667073238487950494868214535760248677750580787615445253256162640678756516495045266872740775807617748180277269660863605818697073287886880958666719737472298281781070747420524354307675852021/5/939表二:三(2)班30名学生语文成绩频数分布表分组区间组中值xc简单频数f相对次数f/N%累积频数FbFa累积百分比%90-9513.333013.3380-85723.3329826.6770-751033.3422186060-65723.33122583.3350-5531052893.3340-4526.67230100Σx302021/5/940课堂练习:三(2)班30名学生英语成绩频数分布表2021/5/941利用计算机制表常用的计算机软件:Excel,SPSS制表用Excel软件制表

语文数学英语物理化学政治体育高三(1)75698976798384高三(2)82659065778976高三(3)72888789856789高三(4)678179818969632021/5/942二、统计图(一)统计图的功用所谓统计图就是依据数字资料,应用点、线、面、体、色彩导的描绘制成整齐而又规律,简明而又知其数量的图形。统计图一般采用直角坐标系,横坐标用来表示事物的组别或自变量X,纵坐标常用来表示事物出现的次数或因变量Y.2021/5/943(二)统计图的结构与制图要点图号及图题图目图形图注2021/5/944(三)统计图的种类统计图可按形状、数字性质、图的用途等标志分为多种类别。教育统计中常用的统计图可按形状划分为直条图、直方图、曲线图、圆形图、散点图等等。

2021/5/945统计图:由标题、图号标目、图注等项构成。单式条形图2021/5/946第一节统计表与统计图复式条形图2021/5/947圆形图(饼图)2021/5/948圆形图(饼图)2021/5/949折线图2021/5/9504.线条图5.频数颁布直方图图2.4中考化学统计成绩直方图2021/5/9516.累积频数图

图2.52004年中考化学抽样得分情况累积频数图

102030405060708090100图2.6:高一语文2021/5/9527、面积图2021/5/953三(2)班30名学生语文成绩简单直方图、折线图、累积次数直方图、累积次数曲线2021/5/954表二:三(2)班30名学生语文成绩频数分布表分组区间组中值xc简单频数f相对次数f/N%累积频数FbFa累积百分比%90-9513.333013.3380-85723.3329826.6770-751033.3422186060-65723.33122583.3350-5531052893.3340-4526.67230100Σx302021/5/955课堂练习:三(2)班数学和英语成绩的次数分布表.相对次数分布表,累积次数分布表和次数直方图,次数多边图和累积次数曲线.2021/5/956利用计算机制图常用的计算机软件:Excel,SPSS制图用Excel软件制图2021/5/957第二节教育统计的特征量最常用的统计量有三类: 一类是代表一组数据典型水平或集中趋势的量,即集中量; 另一类是反映一组数据的变异程度或离散程度的量,即差异量 第三类是反映数据的相关程度的量,即相关量。 2021/5/958一、集中量定义:代表一组数据典型水平或集中趋势的量。平均数算术平均数原始数据法:频数分布表法加权平均数原始数据法频数分布表法2021/5/959集中量是代表一组数据典型水平或集中趋势的量。常用的集中量有平均数、中位数和众数。2021/5/960一、平均数1、算术平均数2、加权平均数2021/5/9611、算术平均数简称为平均数或均数(Mean)。2021/5/9621、算术平均数(1)未分组数据平均数的计算方法(2)数据分组后计算平均数的方法(3)平均数特点(4)平均数的意义与应用2021/5/963(1)未分组数据平均数的计算方法(原始数据)

当一组数据未进行统计分类时,若想描述其典型情况,找出其代表值,可计算算术平均数,公式为:

公式中∑Xi表示所有数据的和,即∑Xi=XI+X2+……+XNN为数据的个数。.2021/5/964例如,求某小组10个学生的数学测验分数78,79,62,84,90,71,76,83,98,77的平均数。2021/5/965表一三(2)班30名学生语文、数学、英语期末考试成绩

(三科成绩均服从正态分布)

学号语数英学号语数英学号语数英0187938511807276216765710265677412768182228078830373728013667073238487950494868214535760248677750580787615445253256162640678756516495045266872740775807617748180277269660863605818697073287886880958666719737472298281781070747420524354307675852021/5/966(2)数据分组后计算平均数的方法(频数分布表)公式为:

2021/5/967表二:三(2)班30名学生语文成绩频数分布表分组区间组中值xc简单频数f相对次数f/N%累积频数FbFa累积百分比%90-9513.333013.3380-85723.3329826.6770-751033.3422186060-65723.33122583.3350-5531052893.3340-4526.67230100Σx302021/5/968(3)平均数的特点①在一组数据中,每一个数据加上一个常数C,则所得的平均数为原来的平均数加上常数C。即:②在一组数据中,每一个数据乘上一个常数C,则所得的平均数为原来的平均数乘上常数C。即:

③离均差的和等于0。即:2021/5/969(4)平均数的意义与应用算术平均数具备一个良好的集中量数应具备的一些条件:①反应灵敏。②确定严密。③简明易解。④计算简单。⑤符合代数方法进一步演算。⑥较少受抽变动的影响。2021/5/970缺点:①

易受极端数据的影响。②

若出现模糊不清数据时,无法计算平均数。此外,必要注意,凡不同质的数据不能计算平均数。2021/5/9712、加权平均数(1)加权平均数的概念加权平均数是不同比重数据(平均数),W表示各观察值的权数;X表示具有不同比重的观察值。2021/5/972(2)加权平均数的计算方法例如,某年级各班的一次数学考试成绩如下:一班45人平均分为80;二班50人平均分为70;三班40人平均分为65;四班50人平均分为80;五班60人平均分为65,求全年级的总平均分。2021/5/973例2:某校初一共有3个班,某次语文测验中,一班50人均分为68,二班45人均分为75,三班40人均分为80,问全校初一语文的平均成绩?

不能用:(68+75+80)/3=74.332021/5/974二、中位数中数,又称中点数,中位数。符号为Md中数是指位于一组数据中较大一半与较小一半中间位置的那个数。中数的求法根据数据是否分组,而有不同的方法。2021/5/975(一)未分组数据求中数的方法2021/5/976〔例1〕有下列9个数,依大小排列为4、7、8、9、10、11、12、13、14(N=9)(N+1)/2=5,序列第五的数据是10,则该组数据的中数是10。2021/5/977〔例2〕有下列8个数,依大小排列为:2、3、5、7、8、10、15、19(N=8)序列为N/2=4者是7,序列为N/2+1=5者为8,则其中数为(7+8)/2=7.5。从以上两例可以看出,求中数不受极大值与极小值的影响,而决定中数的关键是居中的那几个数据的数值大小。2021/5/978.(二)次数分布表求中数的方法(了解)其具体步骤如下:第一步求N/2,并找到N/2所在的分组区间;第二步求含有中数那一区间以下各区间的次数和记作Fb;第三步求N/2与Fb之差;第四步求序列为第N/2那一点的值。2021/5/979

求中数的公式如下:2021/5/980表二:三(2)班30名学生语文成绩频数分布表分组区间组中值xc简单频数f相对次数f/N%累积频数FbFa累积百分比%90-9513.333013.3380-85723.3329826.6770-751033.3422186060-65723.33122583.3350-5531052893.3340-4526.67230100Σx302021/5/981中数的意义与应用优点:计算简单,容易理解,中数的概念简单明了。缺点:它反应不够表敏;计算中数时,受抽样的影响较大,不如平均数稳定;中数乘以总数与数据的总和不相等;中数不能作进一步代数运算等等。在一些特殊情况下,它的应用受到重视。这些特殊情况是:当一组观测结果中出现两极端数目时。当次数分布的两端数据或个别数据不清楚时,只能取中数作为集中趋势的代表值。当需要快速估计一组数据的代表值是,也常用中数。2021/5/982三、众数的概念与求法

众数(Mode)又称为范数,密集数,通常数等,常用符号M0表示。众数是指在次数分布中出现次数最多的那个数的数值。(一)直接观察求众数(二)用公式法求众数(三)众数的意义与应用2021/5/983(一)直接观察求众数只凭观察找出出现次数最多的数据就是众数。5、8、9、8、4、3、8、1、8、42021/5/984(二)用公式法求众数1、皮尔逊的经验法(分数分布为正态分布)Mo=3Md-2M2021/5/9852、金氏插补法(了解)式中Lb为含众数这一区间的精确下限;fa不高于众数所在组一个组距那一分组区间的次数;fb不低于众数所在组一个组距那一分组区间的次数;I为组距若fa=fb,则Mo不次数最多那一区间的组中值。这个公式适合次数分布比较偏斜的情况,当然,比较接近正态分布的出适用。2021/5/986众数的意义与应用众数的概念简单明了,容易理解;但它不稳定,受分组的影响,亦受样本变动的影响;反应不够灵敏,观察众数,不严格计算而来,用计算方法所得众数亦是一个估计值。同时不能作进一步代数运算。众数也不是一个优良的集中量数,应用也不广泛。但在下述情况下也常有应用:①当需要快速而粗略地寻求一组数据的典型情况时;②当一组数据出现同质的情况时,可用众数表示;3、当次数分布中有两极端的数目时,有时也用众数(一般用中数);④当粗略估计次数分布的形态时,有时用平均数与众数之差,表示次数分布是否偏态的指标。2021/5/987平均数、中数、众数之间的关系在一个正态分布中,平均数、中数、众数三者相等,因此在数轴上三点重合。在正偏态分布中M>Md>M。在负偏态分布中M<Md<M。平均数为一个平衡点,是一组数据的重心。它使数轴保持平衡,即支点两侧的力矩是相等的。中数:只使其两侧的数据个数相同。众数:是指次数出现最多的,即重量较大的那个数据。2021/5/988思考与练习题1、应用算术平均数表示集中趋势要注意什么问题?2、对于下列数据,使用何种集中量数表示集中趋势其代表性更好?并计算它们的值。(1)4566729(2)345575(3)23567892021/5/9893、求下列次数分布的平均数、中数和众数分组f分组f65-135-3460-430-2155-625--1650-820-1145-1615-940-2410-72021/5/9904、求下列四个年级的总平均成绩年级一二三四90.5919294

n2363182152002021/5/991第二节教育统计的特征量二、差异量:代表一组数据离散程度、变异程度的量。2021/5/992(一)全距(R)最大值与最小值之差2021/5/993(三)方差与标准差方差(Varance)也称变异数、均方。作为统计量,常用符号S2,δx2表示,作为总体参数,常用符号δ2表示。标准差(Srandarddeviation)即方差的平方根,常用S或SDδx表示。若用δ表示,则是指总体的标准差。2021/5/9941、方差与标准差的计算2021/5/995问题1:某班甲乙两组在一次测验中的成绩分别为65,68,71,72,74(均分为70分)和30,50,86,90,94(均分为70分)。如何评价两组的学习情况?2021/5/996又如:某某研究者对实验班用计算机辅助教学,而对照班仍用传统的讲授方式进行教学,期末进行统一测试,两班学生的成绩如下,试比较两种授课方式产生的效果有何不同?2021/5/997总平均数=81.81平均分标准差D方差和平方和实验班(45)83.765.471.9529.923853324107对照班(46)79.826.361.9940.4535922885442021/5/998表1:30名学生英语成绩频数分布表分数组中值XCfFb70-7223065-6752860-5292355-5781450-5266∑302021/5/999求平均数、标准差和方差2021/5/9100

2、方差与标准差的意义方差与标准差是表示一组数据离散程度的最好指标,其值越大,说明离散程度大,其值小,说明数据比较集中,它是统计描述与统计分析中最常应用的差异量数。它基本具备一个良好的差异量数应具备的条件:(1)反应灵敏;(2)有一定的计算公式严密确定;(3)容易计算;(4)适合代数运算;(5)受抽样变动的影响小,即不同样本的标准差或方差比较稳定;(6)简单明了;(7)具有可加性。2021/5/9101四、差异系数当所观测的样本水平比较接近,而且是对同一个特质使用同一种测量工具进行测量时,要比较不同样本之间离散程度的大小,一般可直接比较标准差或方庆功的大小。标准差的单位与原数据的单位相同,有时称它为绝对差异量。2021/5/9102差异系数,又称变异系数、相对标准差等,通常用符号CV表示,其计算公式如下:(1)同一团体不同观测值的离散程度的比较;(2)对于水平相差较大,但进行的是同一观测的各种团体,进行观测值离散程度的比较。2021/5/9103例题:某校期末考试语文平均成绩为69.3分,标准差为11.2分;英语平均成绩为94.8,标准差为13.8分。问哪一学科离散程度大?2021/5/9104例题:设某考区已录取高中学生语文平均分为69分,标准差为12.5分,而未录取高中的学生语文平均分为40分,标准差为12.5分。比较他们语文成绩的离散程度。

CV1=12.5/69*100%=18.12%;

CV2=12.5/40*100%=31.25%。

未录取学生的离散程度大。2021/5/9105某市区入学男童(7岁组)体重的平均值为20.37kg,标准差为2.16kg;身高的平均值为113.64cm,标准差为4.04cm。问身高与体重那个差异大?由公式课堂练习:2021/5/9106练习

1、分别用定义公式及原始数据计算3,5,8,9,10的方差和标准差。2、计算下列资料的方差和标准差。分数50-55-60-65-70-75-80-85-90-95-总和频数2461124371912941283、2002年测得我国17岁学生400M跑成绩,男学生平均数为92.5秒,标准差为6.72秒,女学生平均数为117.0秒,标准差为10.6秒,试比较17男女学生400M跑成绩的离散程度。2021/5/9107第二节教育统计的特征量相关量:用于描述两个或多个变量间关联程度的量。相关关系相关系数:用来描述两个变量相互之间变化方向及密切程度的数字特征量称为相关系数。积差相关等级相关点二列相关相关2021/5/9108数学与物理、物理与英语相关性比较

数学物理英语物理170757675260636063382756575444605660552557055690978597780894889r0.910.262021/5/9109相关系数与相关程度表一览表

|r|0≤0.30.3<|r|≤0.50.5<|r|≤0.8>0.81.0相关

程度零相关微相关切实相关密切相关高度相关完全相关2021/5/9110相关关系正相关2021/5/9111相关关系零相关负相关2021/5/9112积差相关系数积差相关两组(N>30)的正态、且呈线性关系的连续变量之间的相关。积差相关系数的定义公式:2021/5/9113积差相关系数的定义用原始数据计算:用特征量计算:例:P46

back2021/5/9114等级相关系数等级相关系数以等级次序排列或以等级次序表示的变量之间的相关Spearman二列等级相关:N不一定必须大于302021/5/9115

数学d1物理d2D1704753.50.5260563503822753.5-1.5444760615526557-169019710780389212021/5/91162021/5/9117例:10个学生数学和物理成绩的等级相关分析序号数学分数X物理分数YX等级Y等级DD21949311002909222.5-0.50.25386923.52.511486703.57-3.512.255728254116707665.50.50.257686579-248667685.52.56.25964689811106160101000N=10

262021/5/91182021/5/9119点二列相关在来自总体的两个变量中,一个变量是连续变量,另一个变量是两分变量(男、女;对、错;及格、不及格),点二列相关研究这样两个变量之间的相关关系。相关系数p、q两类变量的平均值连续变量的标准差另一类别频数的比例一类别频数的比例2021/5/9120性别男男男男女男男女女女男女女男男成绩869190665899748872896265786785例:某班期末语文考试,从全体考生中随机抽取15名学生的考试成绩,见下表。问该次考试成绩是否与性别有关?P482021/5/9121例题:下表为某一测验中10名考生的卷面总分和一道选择题的得分,试求该选择题的区分度.(与部分的相关)考生ABCDEFGHIJ选择题得分1111001001卷面总分755773656756636165672021/5/91222021/5/9123

相关两个变量都是二分变量,或者可以人为地分为二分变量时,使用相关分析其相关程度。另一类数据合计及格不及格一类数据是aba+b否cdc+d合计a+cb+d2021/5/9124例:从体育达标测验的学生中随机抽取60人,其中男、女达标情况见下表,问本次达标测验是否与性别有关?另一类数据合计达标未达标一类数据男201232女111728合计3129602021/5/9125例题:从研究生入学考试中,随机抽取100人,其大学应届与历届毕业生录取情况如下表,问应届与历届大学毕业生同研究生录取与否的相关情况如何?0.23应届录取未录取历届录取301848未录取20325250501002021/5/9126练习1、求以下几何(X)与代数(Y)的积差相关系数。X79757773797881767270Y808276777784817270752021/5/91272、校方寻某一个年级8位物理教师课堂教学效果所排列的名次(由低到高排),和这8个班级学生物理统一测验的平均分数如下表,问教师课堂教学效果与学生测验成绩是否存在相关?课堂教师效果得分42873615各班平均分数72548072636951692021/5/91283、高等教育自学考试已婚与未婚学员的高等数学成绩如下表,问婚否与成绩是否存在相关?成绩7281649367707883797177828076586672677478已婚1未婚0100001011100111111102021/5/91294、从研究生入学考试的学生中,随机抽取60人,其大学应届与历届毕业生录取情况如下表,问应届与历届大学毕业生同研究生录取与否的相关情况如何?应届合计录取未录取历届录取

a20

b1232未录取C11

d1728合计3029602021/5/91301、2021/5/9131第三节利用计算机求特征量利用计算机求集中量利用计算机求差异量利用计算机求相关量2021/5/9132利用计算机求集中量(一)计算算术平均值(AVERAGE)步骤:建立Excel工作表、点击fx、选择常用函数或点击统计、选择AVERAGE(算术平均值)、点击确定。点击数据组表格框、拖动表格、点击表格框、点击确定。例:2021/5/9133利用计算机求集中量(二)计算中值(MEDIAN)步骤:建立Excel工作表、点击fx、选择常用函数或点击统计、选择MEDIAN

(中值)、点击确定。点击数据组表格框、拖动表格、点击表格框、点击确定。例:BackMODE(众数)的求法与MEDIAN的求法相似2021/5/9134利用计算机求标准差步骤:建立Excel工作表、点击fx、选择常用函数或点击统计、选择STDEV(标准偏差)、点击确定。点击数据组表格框、拖动表格、点击表格框、点击确定。例:

back2021/5/9135利用Excel求积差相关系数建立Excel工作表、点击fx、选择常用函数或点击统计、选择CORREL(积差相关系数)、点击确定。点击数据组表格框(1)、拖动所选数据表格、点击表格框(1),点击数据组表格框(2)、拖动所选数据表格、点击表格框(2)、点击确定。2021/5/9136例:利用问卷收集数据2021/5/91372021/5/91382021/5/91392021/5/9140正态2021/5/9141负偏态2021/5/9142正偏态2021/5/9143第三讲推断统计第一节正态分布第二节总体平均数的估计第三节几种常用统计检验方法第四节方差分析2021/5/9144概率频率:随机事件A在n次试验中出现m次,m与n的比值就是随机事件A发生的频率。公式:P(A)=m/n概率:随着试验次数n的无限增大,随机事件A的频率稳定于一个常数P,这个P就是随机事件A出现的概率。可表示为:

P(A)≈m/n概率的性质:(1)0≤P(A)≤1(2)不可能事件的概率等于零。即P(v)=0(3)必然事件的概率等于1。即P(u)=12021/5/9145第一节正态分布和正态曲线最为常见一种概率分布形态,在理论和实践中均有广泛的应用。(一)密度函数简记特征:单峰、对称2021/5/9146

标准正态分布(standardnormaldistribution)的两个参数为:μ=0,σ=1记为

N(0,1)

一般正态分布为一个分布族:N(m,s2)

;标准正态分布只有一个

N(0,1)

;这样简化了应用2021/5/9147

u-∞0.00.10.20.30.40.5-4-3-2-101234zf(X)2021/5/9148正态曲线(normalcurve)图形特点:钟型中间高两头低左右对称最高处对应于X轴的值就是均数曲线下面积为1标准差决定曲线的形状Xf(X)m2021/5/9149正态分布的特征1、正态分布的形式是对称的,(但对称的不一定是正态分布),它的对称轴是过平均数点的垂线。正态分布中,平均数、中数、众数三者相等,此点y值最大(0.3989)。2、正态分布的中央点(即平均数点)最高,然后逐渐向两侧下降,曲线的形式是先向内弯,然后向外弯,拐点位于正负1个标准差处,曲线两端向靠近基线处无限延伸,但终不能与基线相交。012-1-2xy-33μ=0σ=12021/5/91503、正态曲线下的面积为1,由于它在平均数处左右对称,故过平均数点的垂线将正态曲线下的面积划分为相等的两部分,即各为0.50。0.52021/5/9151二、正态分布表的编制与使用依据正态分布的密度函数,编制方法:从Z=O开始,逐渐变化Z分数,计算从Z=0至某一定值之间的概率。012-1-2zy-33μ=0P=1zY2021/5/9152正态表一般包括以下三栏:第一栏表明Z分数单位,在平均数这一点上Z=0,在平均数以上(即曲线右侧)Z分数为正值,在平均数以下(即曲线左侧)Z分数为负值。一般正态表上z分数列到3.99,更详细的列到5.00。第二栏为y(即密度函数或比率数)值,即某一Z分数点上的曲线纵坐标的高度,标准正态曲线下y==0.3989,它是Z=0。这一点上曲线纵坐标具有的最大值或说概率密度值。第三栏为概率值(常标以P)即不同z分数点与平均数之间的面积与总面积之比。2021/5/9153(一)依据Z分数求概率。即已知差度(Z),求面积(P)1.某Z分数值与平均数(Z=0)之间的概率。P(0<z<1)=0.34134=p(-1<z<0)P(0<z<2)=0.47725=p(-2<z<0)P(0<z<3)=0.49865=p(-3<z<0)012-1-2zy-33μ=0P?z2021/5/91542.求某Z分数以上或以下自概率。P(z>3)=0.5-0.49865=0.00135P(z<1)=0.5+0.34134=0.84134012-1-2zy-33μ=0P?z2021/5/91553.求两个Z分数之间的概率。±1夹中间面积为68.26%,即P(﹣1﹤Z﹤﹢1)=68.26%;±2夹中间面积为95.46%,即P(﹣2﹤Z﹤﹢2)=95.46%;±3夹中间面积为99.73%,即P(﹣3﹤Z﹤﹢3)=99.73%;012-1-2zy-33μ=0P=1z2?z12021/5/9156(二)从概率(P)求Z分数,即从面积求差度值。这种计算的查表方法有以下几种情况:1、从平均数开始的概率值已知,求Z值。

p(0<z<1)=0.34134P(0<z<2)=0.47725P(0<z<3)=0.49975012-1-2zy-33μ=0Z?p2021/5/91572、求两端概率的Z值。指已知位于正态分布两端的概率值求该概率值分界点的Z值。P(z>1.645)=0.05,Z.05=1.645P(z>2.33)=0.01,Z.01=2.33P(z<-1.645)=0.05,P(z<-2.33)=0.01,012-1-2zy-33μ=0PZ?2021/5/91583、若已知正态曲线下中央部分的概率,求Z分数是多少中间面积为90%,Z.1/2=±1.645即P(﹣1.645﹤Z﹤﹢1.645)=90%;中间面积为95%,Z.05/2=±1.96即P(﹣1.96﹤Z﹤﹢1.96)=95%;中间面积为99%,

Z.01/2=±2.58即P(﹣2.58﹤Z﹤﹢2.58)=99%。012-1-2zy-33μ=0PZ?2021/5/9159(三)求概率的密度Y,即正态曲线的高。不论已知概率,还是已知Z值,都可从表的第一或第三栏查对应的第二栏。所知的概率是位于正态曲线的中间部分,还是两尾端部分。这一点要注意区分,才能通过P值查表求得正确的概率密度Y。012-1-2zy-33μ=0PY?2021/5/9160记住以下数据:±1σ夹中间面积为68.26%,即P(﹣1﹤Z﹤﹢1)=68.26%;±2σ夹中间面积为95.46%,即P(﹣2﹤Z﹤﹢2)=95.46%;±3σ夹中间面积为99.73%,即P(﹣3﹤Z﹤﹢3)=99.73%;±1.645σ夹中间面积为90%,即P(﹣1.645﹤Z﹤﹢1.645)=90%;±1.96σ夹中间面积为95%,即P(﹣1.96﹤Z﹤﹢1.96)=95%;±2.58σ夹中间面积为99%,即P(﹣2.58﹤Z﹤﹢2.58)=99%。2021/5/9161三、正态分布在测验记分方面的应用1、将原始分数转换成标准分数。2、确定录取分数线3、确定等级评定人数4、确定在正态分布下特定分数界限内的考生人数2021/5/91621、将原始分数转换成标准分数。2021/5/9163标准分数的优越性表现在三个方面:(1)各种标准分数的单位是绝对等价的,因此,它具有可加性;(2)标准分数值的大小和正负,可以反映某一考分在全体考分中所处的地位,因此,它具有可比性;(3)标准分数可以作为舍弃异常数据的依据:如果Z的绝对值大于3,则可考虑舍弃这种原始数据。2021/5/9164例:表一中是该班两同学的期末考试成绩,问:(1)甲同学的语文和数学哪科相对较好?(2)甲同学和乙同学相比,哪一个学业成绩较好?项目甲乙所在班级平均成绩标准差语文736248.313.9数学798566.918.5英语758067.214合计2272272021/5/9165甲同学乙同学项目个人成绩Z个人成绩Z语文731.777620.986数学790.654850.978英语750.557800.914合计2272.9882272.8782021/5/91662、确定录取分数线由录取率可以确定录取分数线,具体步骤为:P00.5-P0=PZX2021/5/9167例:某区拟对参加语文竞赛的1000人中前200人予以奖励,考试的平均分数为70,标准差为10,问授奖的分数线应是多少分?2021/5/9168课堂练习:对参加语文测验的后50名同学进行课后辅导,问辅导的分数应是多少分?2021/5/91693、确定等级评定人数(假定为正态分布)例:如500名学生学生逻辑思维能力呈正态分布,拟将之分成A、B、C、D、E五个等距的等级,问各等级应有多少人?2021/5/9170ABCDE2021/5/9171P=6/5=1.21、求面积PA:P(1.8<Z)=0.5-0.46407=0.03593B:P(0.6<Z<1.8)=0.46407-0.22575=0.23832C:P(-0.6<Z<0.6)=0.22575*2=0.4515D:P(-1.8<Z<-0.6)=0.23832E:P(<-1.8)=0.035932021/5/91722、求人数A=0.03593*500=17.965=18B=0.23832*500=119.16=119C=0.4515*500=225.75=226D=B=119.16=119E=A=17.965=182021/5/9173课堂练习:如100名学生语文能力呈正态分布,拟将之分成优、良、中、差四个等距的等级,问各等级应有多少人?2021/5/91744、确定在正态分布下特定分数界限内的考生人数例:某地区某年高一统一考试数学科考生4.7万人,平均分为57.08,标准差为18.04。试问:(1)成绩在90分以上有多少人?(2)成绩在80分到90分之间有多少人?(3)成绩在60分以下有多少人?2021/5/917590804.7万人2021/5/9176(1)成绩在90分以上有多少人?090zy2021/5/9177(2)成绩在80分到90分之间有多少人?2021/5/9178练习:(3)成绩在60分以下有多少人?2021/5/9179练习四

1、求下列各组在正态曲线下的面积:(1)Z=0→Z=1.2(2)Z=0.5→Z=2.8(3)Z=0→Z=1.4(4)Z=﹣1.5→Z=1.8(5)Z=﹣0.5→Z=﹣1.8(6)Z=﹣2.5→Z=0.8

2、某班36个学生,数学测验的平均分为80分,标准差为11.5,问在70~90分之间,从理论上来讲应有多少人?占全班的百分比是多少?3、运用标准分数比较甲、乙两个学生三门学科的总成绩。考试科目学生班级平均分班级标准差甲乙物理化学数学53788273707065747146124、某区拟对参加数学竞赛的2000人中前500人予以奖励,考试的平均分数为75,标准差为9,问授奖的分数线应是多少分?5、500名学生逻辑思维能力呈正态分布,拟将之分成A、B、C、D、E五个等距的等级,问各等级应有多少人?2021/5/9180第二节总体平均数的估计一、抽样分布的概念抽样分布是指某种统计量的概率分布。二、平均数抽样分布的几个定理(一)从总体中随机抽出容量为n的一切可能样本的平均数的平均数等于总体的平均数;(二)容量为n的平均数在抽样分布上的标准差等于总体标准差除以n的方根;(三)从正态总体中,随机抽出容量为n的一切可能样本的平均数的分布也呈正态分布;(四)虽然总体不呈正态分布,如果样本容量较大(n≥30),反映总体平均数和标准差的样本平均数的抽样分布,也接近于正态分布。三、标准误某种统计量在抽样分布上的标准差称为该种统计量的标准误。2021/5/9181四、t分布当总体标准差σ未知,而用估计量S来代替,这时一切可能样本平均数与总体平均数的离差统计量t呈t分布。(一)t分布与正态分布的异同(二)自由度df:是指总体参数估计量中变量值独立自由变化的个数。自由度df等于样本容量减去限制因子的个数。2021/5/9182t分布(T-distribution)

t分布是统计分析中应用较多的一种随机变量函数的分布,是统计学者高赛特(Goeset)1908年在以笔名"Student"发表的一篇论文中推导的一种分布。2021/5/9183(一)t分布的意义与特点当样本容量n→∞时,它是正态分布,当n≥30以上时接近正态分布,当n<30时,此分布不接近正态分布。而是具有左右对称,高狭峰的分布,且分布形状随样本容量n-1的变化而变化的一族分布。这就是t分布。它的函数为df为自由度df=n-12021/5/91842021/5/9185T分布密度曲线图2021/5/9186t分布与σ无关而与n-1(自由度)有关,t分布的自由度(符号v或df表示)一般为n-1,即样本容量减1。自由度(degreesoffreedom)是指任何变量中可以自由变化的数目。是t分布的参数v,因为v代表t分布中独立随机变量的数目。故曰自由度。2021/5/9187t分布的特点可归纳如下:①t分布的平均值为0。②是对于平均值0对称的分布,分布左侧t为负值,分布右侧t为正值。③t变量取值在一∞一+∞之间。④当样本容量趋于∞时,t分布为正态分布,方差为1,而当n-1大于30以上时,t分布接近正态分布,方差大于1,随n-1之增大而方差渐趋于1,当n-1<30时,t分布与正态分布相差较大,随n-1减少,离散程度(方差)越大,分布中间部分低面分布的尾部较高.2021/5/9188(二)t分布表的使用t分布的形态随自由度而变化,它有一族分布,附表2(p452)是常用的t分布表。该表左列为自由度,最上一行是指不同自由度下t分布两尾部端的概率(双侧界限),分别为0.5,0.4,0.3,0.2,0.1,0.05,0.01,0.00l等,这些概率是指某一t值时,t分布两尾部端概率的和,而表的最下一行标明的是单侧界限,即从某t值以下t分布尾部一端的概率,因而单侧概率是双侧概率的一半。表中所列的值为t值,它随自由度及概率不同而变化。2021/5/9189t分布表的使用不同统计学教材提供的t分布表可能不同。返回2021/5/9190例如df=20,最大t值的概率为0.05(双侧概率)t值为2.086,意思是在t小于2.086以下的概率与t大于2.086以上的概率和为0.05亦即该两部分尾端的面积和与总面积之比率为0.05。双侧概率常写作tα/2上例t.05/2=2.086。单侧概率则只计算一侧尾部的概率,故单侧概率为双侧概率的一半,常写作tα,上例则可写作t.025=2.086。以上是已知自由度及概率查t值,有时常常要根据已知的自由度与t值,查相应的概率。2021/5/9191五、总体平均数的参数估计根据样本统计量对相应总体参数所作的估计叫总体参数估计。分为点估计和区间估计。在这里只介绍总体平均数的区间估计。(一)总体标准差σ已知或总体标准差虽未知,但样本容量n≥30的情况在这种情况下,一切可能样本平均数与总体平均数的离差统计量呈标准正态分布。2021/5/9192总体平均数的区间估计当1-α=95%,则有:2021/5/9193总体平均数的区间估计当1-α=99%,则有:2021/5/9194例:已知母总体为正态分布,标准差为7.07,从这个总体中随机抽取n1=10的样本,计算平均数分别为78,试问总体参数u的.95和.99的置信区间.因为总体分布为正态,且总体方差已知,故进行z估计.2021/5/91952021/5/9196练习:某中学二年级语文同一试卷测验分数历年来的标准差为10.6。现从今年测验中随机抽取40份试卷,算得平均分为72,试求平均数标准误,并求该校此次测验95%置信区间。2021/5/9197总体平均数的区间估计(二)总体标准差σ未知,且样本容量n﹤30的情况在这种情况下,一切可能样本平均数与总体平均数的离差统计量t呈t分布。2021/5/9198总体平均数的区间估计当1-α=95%,则有:当1-α=99%,则有:2021/5/9199例,某班49人期末考试成绩为85分,标准差为6,假设此项反映学生的学习水平,试推论该班学生学习的真实成绩分数?2021/5/92002021/5/9201练习;已知某校高二10名学生的物理测验分数为92,94,96,66,84,71,45,98,94,67,求此次测验全年级标准差的估计值,并估计全年级平均分数的95%置信区间。2021/5/9202应用举例:学生成绩的初步分析分段统计分数段人数<60160-69770-791580-8915>905分数分布形态注:(1)各分数段的区间大小应根据实际需要确定。

(2)一般要求学生的成绩分布为正态或负偏态。2021/5/9203练习五1、某中学二年级语文同一试卷测验分数历年来的标准差为10.6。现从今年测验中随机抽取10份试卷,算得平均分为72,试求平均数标准误,并求该校此次测验95%置信区间。2、从某县高中一年级数学测验中抽52份卷子,算得平均分为71.4,标准差为11.3,求平均数标准误,并估计全县高一年级此次测验99%置信区间。3、已知某校高二10名学生的物理测验分数为92,94,96,66,84,71,45,98,94,67,求此次测验全年级标准差的估计值,并估计全年级平均分数的95%置信区间。2021/5/9204作业:某县初中毕业班一次语文考试成绩服从正态分布,在全县范围内随机抽取试卷30张,成绩如下:81,72,71,54,74,74,68,76,90,50,55,68,94,58,84,69,82,70,69,74,83,90,75,44,56,68,78,84,72,64,估计全县总平均分在什么范围?2021/5/92052021/5/9206第三节几种常用的统计检验方法一、统计检验的意义二、假设检验的步骤三、统计检验方法2021/5/9207一、统计检验的意义(一)假设与假设检验假设一般专指用统计学术语对总体参数所做的假定性说明。假设检验:通过样本统计量得出的差异作出一般性结论,判断总体参数之间是否存在差异,这种推论过程称做假设检验(hypothesistesting).

2021/5/9208假设检验包括参数检验和非参数检验.参数检验(parametrictest):若进行假设检验时总体的分布形式已知,需要对总体的未知参数进行假设检验.非参数检验(non--parametrictest):若对总体分布形式甚少,需要对未知分布函数的形式及其他特征进行假设检验.2021/5/9209假设:原假设(虚无假设,零假设,无差假设):HO:U≥U0科学假设、研究假设(备择假设,真实假设,期望假设):HI:U<U0它们之间是相互对立的。2021/5/9210(二)假设检验中的小概率原理假设检验:依据样本分布的原理,用反证法进行推论,(也即假设虚无假设成立)假设推断的依据就是小概率事件原理。假设检验中的“不合理现象”是指小概率事件在一次试验中发生了,它是基于人们在实践中广泛采用的小概率事件原理,该原理认为“小概率事件在一次试验中几乎是不可能发生的。”通常情况下,将概率不超过0.05的事件当作“小概率事件”,有时也定为概率不超过0.01或者0.001。2021/5/9211(三)假设检验中的两类错误2021/5/9212接受H0拒绝H0H0为真正确Ⅰ型错误α型错误H0为假Ⅱ型错误β型错误正确一个好的检验应该在样本容量n一定的情况下,使犯这两类错误的概率α和β都尽可能小,但α不能定得过低,否则会使β大为增加。在实验问题中,一般总是控制犯Ⅰ型错误的概率α,使成立时犯Ⅰ型错误的的概率不超过α。在这种原则下的统计假设问题检验问题称为显著性检验(significancetest),将犯Ⅰ型错误的概率α称为显著性水平。2021/5/9213(三)单侧检验与双侧检验这种只强调差异而不强调方向性的检验叫双侧检验。(two-sidedtest或者two-tailedtest2021/5/9214这种强调某一方向的检验叫单侧检验。通常适用于检验某一参数是否"大于"或"优于"、"快于"及"小于"、"劣于"、"慢于"另一参数等一类问题。2021/5/9215单侧检验与双侧检验有几点区别:(1)问题的提法不同。双侧检验的提法是:μ和已知常数μ0是否有显著性差异?单侧检验的提法是:μ是否显著地高于已知常数μ0?2021/5/9216(2)建立假设的形式不同。双侧检验的原假设和备择假设为:H0:μ=μ

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论