教育统计与分析_第1页
教育统计与分析_第2页
教育统计与分析_第3页
教育统计与分析_第4页
教育统计与分析_第5页
已阅读5页,还剩285页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、教育统计与分析第1页,共290页,2022年,5月20日,1点9分,星期四 第一章 描述性统计1.1 怎样获取数据1.2 频 数 分 布1.3 集 中 量 数1.4 差 异 量 数END第2页,共290页,2022年,5月20日,1点9分,星期四1.1 怎样获取数据 统计学是一门研究数据的搜集、整理、分析与推断方法的科学,单纯对一组数据的面貌特征进行分析研究称为描述性统计。选取样本,通过对样本的描述来推断整体的特性,统计学上称此为推断性统计,简称为统计推断。 当我们根据样本信息进行统计推断时,势必要冒导致错误结论的风险,因为样本并非总是与总体一致。这样我们就需要研究如何抽取样本?什么样的样本较

2、为合适?同时,还要考虑如何有效的处理和分析数据?如何设计最佳试验方案以减少导致错误结论的风险,并应用数学理论计算出出现这种风险可能性的大小,描述这种可能性大小的数量指标称为概率。运用概率论来研究统计学的学科称为数理统计。第3页,共290页,2022年,5月20日,1点9分,星期四 教育统计学是运用数理统计方法去研究教育现象的一门应用学科。教育学与心理学中许多问题借助于统计学都可以予以量化,从而揭示教育规律和心理规律。每个教育工作者都应该掌握这门科学方法,这对于改进教育管理水平,培养教育科研能力,正确开展教育与心理实验,提高教学质量和实际工作效率都将是十分必要的。 我们把搜集记录下来的数量依据称

3、为数据。实际工作中,一般采用抽样调查的方法来取得数据,我们以一个例子来说明这种方法:“某地区初中一年级学生每星期约看几小时电视?”是个需要统计的问题,某地区拥有众多学校,不可能一一调查,因此我们只能从全地区所有初中一年级学生中抽出部分学生展开调查来获取数据,统计学上称此为抽样调查。 我们所考虑对象的全体统计学上称为总体或母体,其中每一个对象称为个体,而从总体中抽取的一部分个体称为样本或子样,样本中所含个体的数目称为样本容量,通常用字母n表示。样本分为大样本(n30)与小样本(n30),样本容量的选取取决于实验的条件和精度,样本越大,反映总体的信息越充足,但计算量也越大,故样本容量最好适当。第4

4、页,共290页,2022年,5月20日,1点9分,星期四 在抽样调查中要求样本具有下面两个特征:1、能充分反映总体的信息。即每个个体被抽到的可能性相同,个体与个体之间互不影响,数学上称为个体互相独立;2、每个个体具有和总体相同的本质特性。即样本具有某种代表性,数学上称此为与总体同分布。满足以上两条的样本称为随机样本;从总体中抽出一个随机样本,称为随机抽样。第5页,共290页,2022年,5月20日,1点9分,星期四 一、简单随机抽样 1、随机数表法 随机数表是根据数理统计的原理,由许多随机数字排列起来的数字表,表中数字的构造方法是:利用计算机使0,1,,9十个数字号码中每次自动出现一个号码,用

5、这种方式得到一串数,编排成组(一般四个数为一组)。我们仍以“某地区初中一年级学生每星期约看几小时电视”为例,如某地区有3000名初中一年级学生,需抽出容量为40的一个样本。先将3000人从0000号编到3000号,第一步,闭上眼睛用铅笔在表上任意划一个点,规定如点到奇数则查第一页,如点到偶数则查第二页;第二步,在选定的那一页上再点一次,由点中的数字决定从哪一行开始;最后再点一次决定从哪一个数起,然后以此为起点,开始以四位数字为一节读下去,小于等于3000的选中,大于3000的舍去,直到取满40个数据为止,这40个数据对应的学生即为选中的随机样本。第6页,共290页,2022年,5月20日,1点

6、9分,星期四 2、抽签法:抽签法是将所有个体编号打乱次序用类似于抽签的方法从中来获取随机样本。例如,把写有全班学生编号的卡片放进一只盒子里,把盒子摇几摇使卡片混杂,再从盒中抽中5张卡片,卡片所对应学生的编号即为选中的随机样本。 二、分层抽样 分层抽样是按一定标志把总体内的每个个体划分为若干层,使相互差异小的个体集中在一层内,从而可以缩小各层内个体之间的差异程度,使样本中各个个体在总体中散布更均匀。分层抽样时,从各层抽取的样本个数可以与各层个体数成比例。第7页,共290页,2022年,5月20日,1点9分,星期四 具体做法是:把总体中 个个体划分为 个不相重叠的部分,使每一部分包含的个体数分别为

7、 ,且 ,则第 层所含的样本个体数 为 (1.1.1),其中 为样本容量, 为第 层的层权数。 例如,要从某校210名7至9岁儿童中抽出三分之一进行智力测验。已知该校7岁儿童有63人,8岁儿童有112人,9岁儿童有35人,现在用分层抽样法确定各年龄组儿童入数。由(1.1.1)式得 (7岁组)=(210/3)(63/210)=21(人), (8岁组)=(210/3)(112/210)=37(人), (9岁组)=(210/3)(35/210)=12(人)。第8页,共290页,2022年,5月20日,1点9分,星期四三、等距抽样 所谓等距抽样法是把所有个体按顺序排列起来,然后以确定的相等距离抽取随机

8、样本。例如,某大学抽查部分学生作业进行检查,先确定学生学号中的一个数,例如末位是3的学号,然后依次取各系各班学号末位是3的学生作业为样本。显然,这种方法人为地规定了距离,故抽样的随机性有所减弱。 抽样分有放回抽样(从总体中抽出一个个体记下其特征后再放回总体,然后进行第二次抽样)和无放回抽样(从总体中抽出一个个体后不再放回去,再抽第二次)两种方式。当总体内个体数目较多时,这两种抽样方式没有本质区别。教育统计中一般采用无放回抽样,但由于有放回抽样能简化某些计算,故当总体内个体数目较多时,我们可以看做是有放回抽样。通过抽样获取数据离不开求实的科学态度和认真的工作作风,数据如果不准确、不完整、或有遗漏

9、,不仅数据本身失去价值,而且以此进行分析推断还会导致错误的结论。第9页,共290页,2022年,5月20日,1点9分,星期四1.2 频数分布 一、数据的基本类型二、频数分布表三、累积频数分布表四、频数分布图五、累积频数分布曲线图第10页,共290页,2022年,5月20日,1点9分,星期四一、数据的基本类型 1、离散型数据 离散型数据一般指取整数值的数量指标,是计数性的,数据之间不能再划分为更小的单位。例如学生的人数;有些教育现象的指标是按属性来划分的,例如学生能力分为优、良、中、差,用5代表优、4代表良、3代表中,2代表差,这样得到的数据仍然是离散型的。第11页,共290页,2022年,5月

10、20日,1点9分,星期四 2、连续型数据 连续型数据一般指经过度量和测定而得到的数量指标。这类数据取值可以连续变化,尽管数据本身仍然是数轴上的点,但数据与数据之间可以无限细分,也就是数据的取值范围可以充满一个区间。例如学生的考试成绩。连续型数据通常以小数形式出现,虽然有时也会以整数形式出现,但当提高精度后总会出现小数。如某学生期末语文成绩为90分,我们可以记为90.0分。确定了数据类型,我们进一步利用频数分布表和频数分布图来研究数据的变化规律。第12页,共290页,2022年,5月20日,1点9分,星期四 二、频数分布表 一组数据中每个数据出现的次数称为这个数据的频数。按频数分类列出的一览表称

11、为频数分布表。 1、离散型数据的频数分布表 例1 某幼儿园测定5岁组儿童智力,共7个项目。全园30名5岁儿童中有1人答对1项、3人答对2项、4人答对3项、8人答对4项、7人答对5项、5人答对6项、2人答对7项。我们列出频数分布表如下:答对题数频 数答对题数频 数11572365347248总和30表1.1 30名儿童智力测定分布第13页,共290页,2022年,5月20日,1点9分,星期四2、连续型数据的频数分布表 68.079.080.083.062.059.080.081.061.583.067.097.063.593.076.097.584.564.075.088.091.078.567

12、.094.081.070.086.572.085.094.078.091.060.075.582.091.095.052.076.580.0例2 附中初二年级实验班40名同学期末数学统考测验得分如下:第14页,共290页,2022年,5月20日,1点9分,星期四 这一组数据中最大值是97.5,最小值是52.0,可见数据分布很散,项数较多。因此我们将它们分组,组的范围称为组区间,每组的起止分别称为组下限和组上限,每组的大小称为组距,各组组距一般是相同的。 分组的原则是:100个以上的数据分为1220组,数据较少则分为810组。组距为便于计算一组取为3、5、10较为合适,本例分为10组,组距取5。

13、我们将组号放在表的第一列,组区间放在第二列,组中值记为 ,放在第三列, (上限+下限),然后数出各组的频数放在第四列。第二组为(56.5561.55),我们可以提高一位分点或降低一位分点,通常我们取二位小数,因此61.5应放在第二组。第15页,共290页,2022年,5月20日,1点9分,星期四 有了组频数,当然也可以算出组频率(每组组频数与总频数之比),为了以后的方便,我们把频率放在表的最后一列(表1.2),我们从中可以看出数据所呈现的统计规律性。 表1.2 附中初二年级实验班期末数学统考测验成绩分布组号组区间组中值频数频率151.55-56.5554.0511/40256.55-61.55

14、59.0533/40361.55-66.5564.0533/40466.55-71.5569.0244/40571.55-76.5574.555/40676.55-81.5579.0588/40781.55-86.5584.0566/40886.55-91.5589.0544/40991.56-96.5594.544/401096.55-100.0098.2522/40总和401.00第16页,共290页,2022年,5月20日,1点9分,星期四 综上,对于分组数据编制频数分布表归纳为以下几步: 第一步 找极差 , 最大值-最小值,由 大致了解数据的差异范围。第二步 定组距 ,一般为便于计算,

15、 多取为2、3、5、10等。第三步 定组数 ,一般数据在100个以上,分为1220组,数据较少则分为8-10组,也可以借用下面公式确定近似组数。组数 ,其中方括号为 的整数部分, 为组距, 例2中, 。第四步 定分点,通常使分点比原测量精度多一位或少一位,要注意的是最低组的上、下限应能包括最小值,最高组的上、下限应能包括最大值。第五步 数频数,根据组限归类,数出全体数据落入每一组的个数。 频数分布表也有其缺点,我们在下一节会看到计算描述一组数据特征的数据依赖于各组的组中值,因而出现了误差。但是在理论上我们一般假定各组内频数分布是均匀的,因而各组的误差会相互抵偿,使总误差减少。第17页,共290

16、页,2022年,5月20日,1点9分,星期四 三、累积频数分布表 累积频数分布表的列法是在频数分布表上添加一列累积频数。具体方法是:从数值最小的一组开始,逐组累加频数至数值最大的一组,最后累加的频数与总频数相等。把累积频数除以总频数,得到相应的累积频率;把累积频率乘以100,得到相应的累积百分比。下表是例2中数据的累积频数、累积频率,累积百分比分布表。第18页,共290页,2022年,5月20日,1点9分,星期四组号组区间组中值频数频率累积频数累积频率累积百分比151.55-56.5554.0510.02510.0252.5256.55-61.5559.0530.07540.10010.036

17、1.55-66.5564.0530.07570.17517.5466.55-71.5569.0540.100110.27527.5571.55-76.5574.0550.125160.40040.0676.55-81.5579.0580.200240.60060.0781.55-86.5584.0560.150300.75075.0886.55-91.5589.0540.100340.85085.0991.56-96.5594.0540.100380.95095.01096.5-100.0098.2520.050401.00100.00总和401.000表1.3 附中初二年级实验班期末数学统考

18、累积频数分布表第19页,共290页,2022年,5月20日,1点9分,星期四 四、频数分布图 通常我们用频数分布图来表示数据的规律性,常见的频数分布图为直方图。 直方图是在横轴上标出组距,纵轴上标出频率与组距之比,然后以每组组距为底边,相应的频率与组距之比为高作矩形。显然,每个矩形的面积恰好等于数据落在该矩形所对应组内的频率,这样所有矩形面积总和为总频率1。直方图是利用各个矩形的高低来描绘频数分布情况的。图1.1是例2中数据的直方图,图中断裂号表示由0至51.55之间的距离是缩短了的。有时为了简单,横轴上只标出组中值,包括组中值在内的区间即为本组组距。54.0559.0564.0569.057

19、4.0579.0584.0589.0594.0598.250.010.020.030.04频率组距图1.4 初二年级实验班期末数学统考测验成绩直方图第20页,共290页,2022年,5月20日,1点9分,星期四五、累积频数分布曲线图 累积频数分布曲线图横轴取每组上限,纵轴取累积频数,在相交处画点,顺次连续各点成一上升曲线,又称S型或肩型曲线,曲线的最低点应与基线相接。以累积频率为纵轴上点,重复上述过程则得到累积频率分布曲线图。再把累积频率乘以100,则得到累积百分比,以累积百分比为纵轴上点,重复上述过程,则得到累积百分比分布曲线图。 为了方便,一般把累积频数分布曲线和累积百分比分布曲线放在一张

20、图上,左边纵轴为累积频数,右边纵轴为累积百分比。作图时要求两纵轴平行等长,左边按总频数划分,右边因为累积百分比最大是100,故划分为100等份。图1.3是例2中数据的累积频数,累积百分比分布曲线图。第21页,共290页,2022年,5月20日,1点9分,星期四56.5561.5566.5571.5576.5581.5586.5591.5596.55102030405060708090100累积百分比累积频数510152025303540图1.3 累积频数、累积百分比曲线图第22页,共290页,2022年,5月20日,1点9分,星期四 这种曲线分布图有一定的实用价值,可以从图中插值,回答小于或大

21、于某值的频数有多少,或回答占总频数百分之几的频数小于或大于某值。例如横轴上给出81.55分,可以从此点向上作垂直于横轴的直线和曲线相交于一点,再由这一点向右作平行于横轴的直线与纵轴右侧交于一点为60,这表明81.55分位于百分之六十的位置上,说明有百分之六十的学生得分低于81.55分。反之,如果知道右侧纵轴上的百分位置,在横轴上也能找到相应的分数,这个分数在下一节称为百分位数,例如,如有百分之六十的学生成绩在某学生之下,那么该生得分大约为81.55分。第23页,共290页,2022年,5月20日,1点9分,星期四1.3 集中量数 我们需要计算出描述一组数据特征的某些量数。例如,一组数据向何处集

22、中?出现最多的数值是什么?其中间数值在哪里?这些能够反映一组数据集中趋势或一般水平的数值,统计学上称为集中量数或水平值。常见的集中量数有平均数、众数、中数。 一、平均数平均数表示一组数据集中的位置,又称为均值。 1、算术平均数 算术平均数是所有数据之和除以数据个数的商,记为. 读为“ 杠”。 不分组数据求算术平均数 (1.3.1)其中 为第 个数据 为数据总个数。第24页,共290页,2022年,5月20日,1点9分,星期四 例1 某校射击队5名队员在一次射击中,射中的环数分别为6,7,8,9,10,求平均射中环数。 解:由(1.3.1)式 (环)。如果数据中有重复数,我们采用加权形式求算术平

23、均数。“权”为所占的比重,比率,频率都可以看做为一种“权”。 例如,某校射击队5名队员在一次射击中射中的环数分别为6,6,8,10,10,则把上式一般化得到 ,其中 为第 个数的频数, 为第 个数的频率。 我们称由(1.3.2)式定义的 为以频率为权的加权平均数,显然,权均为1/N的加权平均数为算术平均数。第25页,共290页,2022年,5月20日,1点9分,星期四 分组数据求算术平均数(组中值法)对于分组数据先要列出频数分布表,再把每组的各个数据都看作与组中值相同的数,这是因为每组内各个数据虽然有大有小,但其相对于组中值的误差最终趋于抵消,故可以把每组的组中值做为每组的代表值,由此得到 简

24、记为 (1.3.3),其中 为第 组的组中值 ,其中 为组数, 为第 组的组频数。 我们称由(1.3.3)式求平均数的方法为组中值法,由于我们假定每组中数据都与每组组中值相同,因此所得平均数结果不可能与将所有数据相加再除以数据总个数所得结果相同,利用组中值法求出的平均数只是一个近似值。第26页,共290页,2022年,5月20日,1点9分,星期四例2 求1.2例2中数据的算术平均数。解:把表1.2中数据代入(1.3.3)式得到 的基本性质常数性 为常数; (1.3.4)齐次性 (1.3.5)可加性 (1.3.6)特别 (1.3.7)第27页,共290页,2022年,5月20日,1点9分,星期四

25、 2、加权平均数 几个作用在不同比重上的平均数再进行平均称为加权平均数。例如, 是 个数的平均数, 是 个数的平均数, 是 个数的平均数, 则 (1.3.8),如果 则 (1.3.9)显然,以频率为权的加权平均数公式(1.3.2)是(1.3.9)的特殊情形,这是因为由平均数的常数性, ,对于分组数据用加权形式求 ,公式(1.3.3)中 相当于第 个数的平均数 。第28页,共290页,2022年,5月20日,1点9分,星期四 例3 大学南路小学一年级实验班40名学生期末数学测验平均分数为82.59,对比班45名学生期末数学测验平均分数为69.68,求全年级期末数学测验平均成绩。解:由公式(1.3

26、.8) (分). 例4 某校考察学生成绩,期末考试占全学期的85%,平时成绩(包括作业,期中考试),占全学期的15%.如果某学生期末成绩为75分,平时成绩为90分,求该生全学期平均成绩。解 由公式(1.3.8) (分)第29页,共290页,2022年,5月20日,1点9分,星期四 3、几何平均数几何平均数是一组数据中个 数据连乘积的 次方根,记为 ,其计算公式为 (1.3.10)例5 某校1999年至2001年招生人数如表1.4,求该校平均每年招生增长速度。 表1.4 某校1999年至2001年招生人数年份招生人数增长比率19999000200011001100/900200112001200

27、/1100第30页,共290页,2022年,5月20日,1点9分,星期四解:由(1.3.10)式 .故该校招生平均年增长速度为15%.实际应用中,如果N3,可以利用对数简化计算,方法是对 两边取对数,得到,查常用对数表得到 ,再查反对数表得到 。第31页,共290页,2022年,5月20日,1点9分,星期四 二、众数 数据集合中出现次数最多的那个数称为众数,用 表示。 1、观察法 离散型数据求众数 例如,调查全班40名学生业余爱好,有20人参加体育小组,15人参加音乐小组,5人参加无线电小组。如果用1表示参加体育小组,2表示参加音乐小组,3表示参加无线电小组,则1出现次数最多,因此众数就是1。

28、 分组数据求众数 首先列出频数分布表,再用每组组中值表示该组一般水平,则频数最多一组的组中值即为众数。显然,此众数是较为粗略的。第32页,共290页,2022年,5月20日,1点9分,星期四2、公式法如果用 分别表示众数所在组下限和上限, 表示与众数所在组的下限相邻组的频数, 表示与众数所在组的上限相邻组的频数,如果众数是自众数所在组的下限向上挤,则众数所在位置是 再加上区间长度 (组距)的 倍处,这是由于 在相邻组总频数中占 的比重。反过来 ,如果众数是自众数所在组的上限向下挤,那么众数所在位置是 再减去区间长度 的 倍处 。由此,我们得到求众数的近似公式为 (1.3.13) (1.3.14

29、)第33页,共290页,2022年,5月20日,1点9分,星期四 三、中数 中数指一组依次序排列的数据中位于正中间的数,它正好分全体频数为相等的两部分,用 表示。1、不分组数据求中数数据个数为奇数求 例7某校男子体操队9名队员5项比赛总积分分别为:47, 49, 42, 39, 45, 41, 37, 46, 40,求这9个数据的中数。解:把9个数据依大小次序排列为:37, 39, 40, 41, 42, 45, 46, 47, 49。显然,正中的42为中数,因为42左右各有4个数。由此,我们得到数据个数为奇数时,中数为第 个数目的数值。第34页,共290页,2022年,5月20日,1点9分,

30、星期四 数据个数为偶数求 例8 求42,45,50,54,57,58的中数。 解:由于N=6,由中数定义,中数应在50与54中间,自然我们取其平均数为中数,即 由此,数据个数为偶数时,以最中间两个数的平均数为中数。 第35页,共290页,2022年,5月20日,1点9分,星期四 2、分组数据求中数 例9 下表给出25个数据的频数分布,求中数。 表1.5 25个数据的频数分布组区间组中值频数75-8077.5170-7572.5365-7067.5560-6562.51055-6057.5450-4552.52第36页,共290页,2022年,5月20日,1点9分,星期四 解 由于N=25,因此

31、中数为第13个数,在(60-65)这一组,而这一组以下有6个数据,须再向上数7个数,才能到达第13个数。而每个区间的长度(组距)为5,如果(60-65)这一组内10个数据是均匀分布的,那么为到达第13个数,需要在中数所在组的下限处加上区间长度的十分之七,即中数应为 因此,我们得到 (1.3.15)。如果取中数所在组上限U,相应有 (1.3.16)。其中, 为中数所在组以上累积频数, 为中数所在组以下累积频数。第37页,共290页,2022年,5月20日,1点9分,星期四 在1.2,我们接触到了百分位数,介绍了通过累积百分比分布图找百分位数的方法,实际上,中数也是一个百分位数,它正好位于百分之五

32、十的位置上。一般的百分位数用 表示,称为百分之 分位数,它表示在此百分位数以下的频数占总频数的百分之 。由公式(1.3.15)(1.3.16),我们类似可得 (1.3.17) (1.3.18) 其中 为 所在组下限, 为 所在组上限, 为 所在组以下累积频数, 为 所在组以上累积频数, 为 所在组频数,i为组距。例9中如求,由(1.3.17)式得第38页,共290页,2022年,5月20日,1点9分,星期四 四、三种集中量数的比较 集中量数的作用是指出一组数据中有代表性的数值,同一组数值的三种集中量其值一般是不同的,故其实际意义也是有区别的。 例如,某中学数学教研室教师年龄分别为22,24,2

33、4,25,55(岁),现在问哪一年龄具有代表性?显然,平均数30不能作为水平值,这是因为平均数与每一个数据有关,故受极端值55的影响而失去代表性。因此,选择中数或众数24作为这个教研室教师年龄的一般水平较为合适。 又如在一次测验中,某小组9名学生中有5个80分,3个85分,1个90分.如果用中数或众数80分来作为一般水平值是不合适的,这是因为这次测验的成绩分布较为特殊,且每个分数相差不大。因此,在这种情形要用平均数82.5分作为集中趋势的度量。 第39页,共290页,2022年,5月20日,1点9分,星期四 三种集中量的共性是反映了一组数据的集中位置,指出了一组数据中有典型意义的数。 平均数应

34、用最为广泛,因为它考虑到了每一个数据,且便于用公式表示,其缺点是当数据极端出现较大或较小数时,作为衡量集中趋势的度量会受到较大影响。 中数是位于一组数据正中的一个数,它不受极端值的影响,但如果数据集中成明显不同且差异很大的几组时,则不易反映数据的集中趋势。中数不与具体某个数有关,而只是与数据的个数有关,因此,只要中间数值不改变,排列顺序不改变,其两边数值任意改变并不影响中数的值。 众数由于出现频数最多,往往被认为是一组数据中最典型的一个。但在确定众数时不受其它数据的影响,这是众数最大的缺陷,而且,如果一组数据中有几个数同时符合众数定义时,数则失去代表性。众数可以消除极端数值的影响,但计算众数大

35、多是粗略的,因此,作为集中趋势的度量,价值较小 。第40页,共290页,2022年,5月20日,1点9分,星期四英国统计学家皮尔逊(Pearson)根据多年经验,发现当频数分布完全对称时,平均数,中数,众数重合.在频数分布不对称时,这三种量数的关系为 即 这样,知道其中两个,可以近似求出第三个。第41页,共290页,2022年,5月20日,1点9分,星期四1.4 差异量数 描述一组数据集中趋势的水平值只是从一个侧面反映了一组数据的特征。在实际统计工作中我们不仅要考察一组数据的集中位置,还要考察其分散程度,这种用来衡量一组数据分散程度(集中程度)的量称为差异量数。常见的差异量数有:极差、四分位差

36、、平均差、标准差。一、极差 极差又称为全距,是一组数据中最大值与最小值的差,用R表示。 R=最大值最小值 (1.4.1) 极差是衡量一组数据分散程度粗略的度量值。在绘制频数分布表时我们已经看到,通过极差可以大致看出一组数据的范围。 第42页,共290页,2022年,5月20日,1点9分,星期四 对于分组数据,R取最高一组的上限与最低一组的下限之差。 由于极差只取决于两个极端数据,不能反映其它数据的分散情况,因此,在大多数情形极差不适用于衡量一组数据的分散程度。 例1 两个小组学生身高(米)分别为: 甲方 1.80,1.53,1.52,1.51,1.50 乙方 1.80,1.79,1.78,1.

37、77,1.50 显然,两组数据的极差都是0.30,但这两组数据有很大的差异 第43页,共290页,2022年,5月20日,1点9分,星期四 二、四分位差四分位差指 与 之差的一半,用来描述频数分布中间数值的分散程度,用 表示。 都是百分位数,显然,再加上 (中数)正好分总频数为相等的四部分,为了方便有时把 记为 ,称为第一四分位数, 以下占总频数的四分之一;把 记为 ,称为第二四分位数, 以下占总频数的四分之二;把 记为 ,称为第三四分位数, 以下占总频数的四分之三,这样, 的计算公式为显然,四分位差 是相对于中数 来衡量一组数据分散程度的。这是因为,如果一组数据频数分布对称,则有第44页,共

38、290页,2022年,5月20日,1点9分,星期四由求百分位数公式(1.3.17)类似可得其中 分别为第一,第三四分位数所在组下限, 分别为第一,第三四分位数所在组以下累积频数, 分别为第一,第三四分位数所在组频数,i为组距。 如果数据未分组,只须把每个数据依大小顺序排列,用总频数N除以4,即可得到四分位 。 第45页,共290页,2022年,5月20日,1点9分,星期四 例2 求20名学生一次语文测验成绩的四分位差。 解 把20个数据按大小排列为66, 67, 67, 69, 7071, 72, 73, 74, 76Q1Q285, 86, 88, 88, 9092, 94, 97, 98,

39、90Q3则 66, 67, 67, 69, 7071, 72, 73, 74, 76Q1Q285, 86, 88, 88, 9092, 94, 97, 98, 90Q3第46页,共290页,2022年,5月20日,1点9分,星期四三、平均差 我们设想找到一个相对于平均数来衡量一组数据分散程度的差异量,这就是平均差,用MD表示。例3 两个女声小合唱队身高(米)分别为: 甲队 1.60,1.62,1.59,1.60,1.59 乙队 1.80,1.60,1.50,1.50,1.60显然, 。但乙队队员较甲队队员身高波动大,这是因为每个队员的身高相对于平均数都有一个离差 ,离差越小,越集中于 ,但离差

40、有正有负,如果将全部离差加起来,由于 ,那么 即正、负离差相抵消,故我们在考虑总离差时,可以将每个离差取绝对值再加起来。这样并不影响每个数据偏离平均数的程度,因为离差的长度为了使所有离差再集中,我们再取其平均得到 (1.4.5)第47页,共290页,2022年,5月20日,1点9分,星期四如果数据已分组,类似有 (1.4.6)例3中, 可见,乙队队员身高平均差大大高于甲队,因此,乙队队员身高差异较甲队大,即分散程度较甲队大。 采用平均差来衡量数据的分散程度要对离差取绝对值,但绝对值运算复杂且不便于代数方法处理。如果给每个离差平方,并不影响其分散程度,且可以避免总离差为零。因此,我们引入另一个衡

41、量一组数据分散程度的差异量标准差。 第48页,共290页,2022年,5月20日,1点9分,星期四四、标准差标准差是方差的平方根,又称为均方差,用S表示。方差是各个数据与平均数离差的平方的算术平均数,用 表示。公式为 (1.4.7) (1.4.8)对于分组数据,类似有 (1.4.9)其中 为第i组的组频数, 为第i组的组中值。 第49页,共290页,2022年,5月20日,1点9分,星期四计算 还可利用以下简化公式: (1.4.10)这是因为对于分组数据,类似简化公式为 (1.4.11)其中a为假定平均数,即频数最多一组的组中值。 第50页,共290页,2022年,5月20日,1点9分,星期四

42、例4 某区50名6岁男童身高(单位:cm)分组数据如表1.6:表1.6 50名6岁男童身高分布组区间频数组区间频数108.5以下1118.5-120.511108.5-110.53120.5-122.59110.5-112.51122.5-124.55112.5-114.52124.5-126.53114.5-116.56126.5以上2116.5-118.57求标准差S.第51页,共290页,2022年,5月20日,1点9分,星期四解 N=50,取a=119.5,由公式(1.4.11)得到 标准差是衡量一组数据分散程度最有效的量数,标准差越小,这组数据越向平均数集中,即分布的差异越小;标准差

43、越大,这组数据偏离平均数的程度越大,即分布的差异也越大。故第52页,共290页,2022年,5月20日,1点9分,星期四 五、差异系数 差异系数也称为相对差异量,常用倍数式百分数表示,它从相对意义上来衡量一组数据的分散程度。而受其计量单位、水平值影响的差异量称为绝对差异量,极差,四分位差,平均差,标准差都是绝对差异量,简称为差异量数。 常用的差异系数有:极差系数,标准差系数,四分位差系数等。第53页,共290页,2022年,5月20日,1点9分,星期四1) 极差系数极差系数为一组数据中最大值与最小值的倍数,即极差系数=最大值/最小值 (1.4.12)例5 某班数学统编教材与实验教材测验成绩如下

44、表,试用极差系数比较这两组数据的差异大小。表1.7 某班数学统编教材与实验教材测验成绩最高分最低分极差极差系数统编教材10080201.25实验教材8060201.33由表1.7可见,尽管极差一样,但由于统编教材得分普遍高,因此相对来说,其差异程度要低于实验教材。第54页,共290页,2022年,5月20日,1点9分,星期四2) 标准差系数标准差系数为标准差与其算术平均数的比值的百分数,记为CV. (1.4.13)显然,标准差系数实际上是以 为单位来衡量分散程度的。由于化成了百分数形式,故是一个无单位限制的抽象数值。CV越小,说明分散程度越小。例6 某幼儿园学前班6岁男童平均体重为20.50k

45、g,平均身高为118.20cm,体重的标准差为1.80kg,身高的标准差为4.20cm,试用标准差系数比较体重与身高的差异程度。解 由公式(1.4.13) ,体重 身高 可见,体重的差异程度高于身高的差异程度。 第55页,共290页,2022年,5月20日,1点9分,星期四例7 某班学生第一次外语测验平均分数为70.2分,标准差为18.5分。经采取补习措施,不及格率有所下降,第二次测验平均分数为78.5分,标准差为12.2分,试用标准差系数比较两次外语测验成绩的差异程度。解 由公式(1.4.13), 第一次测验 第二次测验 .可见,第二次测验成绩的差异程度较小,说明经补习后,不但平均成绩有所提

46、高,而且较第一次测验成绩相对于平均数更为集中。关于四分位差系数,由于是相对于中数来衡量分散程度的,故类似于标准差系数公式(1.4.13),四分位差系数公式为四分位差系数= (1.4.14) 其中Q为四分位差, 为中数。 第56页,共290页,2022年,5月20日,1点9分,星期四六、几种差异量数的比较 差异量数是相对于集中量数来定义的,因此,选用合适的差异量数首先要注意到集中量数的选取。例如,集中量数选为中数,则差异量数选为四分位差;如果集中量数选为平均数,则差异量数选为平均差或标准差。 其次,由于各种差异量数受其一定范围的限制,在选用时既要考虑到能够较为理想的反映一组数据的分散程度,又要便

47、于计算,下面对几种差异量数作一简单比较。第57页,共290页,2022年,5月20日,1点9分,星期四 极差只是在大范围内粗略的衡量分散程度,且受极端数值的影响较大,不能反映全部数据的分散程度,一般不适用,但由于计算简单,可以作为一种衡量分散程度的大致估计。 四分位差相对于中数来考虑分散程度,意义明确,较好地反映了中间数据偏离中数的程度。但是,四分位差不能考虑两端数据偏离中数的程度,也就是说没有反映全部数据的分散情况。因此,只有当集中量数选为中数时,用四分位差来衡量一组数据的分散程度较为合适。 标准差是最常用、最为理想的差异量,原因有三条:相对衡量指标平均数是最常用的集中量;标准差考虑每一数据

48、与平均数离差的大小,因此能够全面考察一组数据的分散程度;标准差写成差方和的形式便于进行代数处理。当频数分布完全对称时,各种差异量数有以下关系式:S=1.2533MD,Q=0.6745S,Q=0.8453M D.第58页,共290页,2022年,5月20日,1点9分,星期四第二章 概率论基础2.1 事 件 与 概 率2.2 随机变量及常见分布2.3 抽 样 分 布 定 理END第59页,共290页,2022年,5月20日,1点9分,星期四2.1 事件与概率 现代统计学的重要工作之一是要通过部分(样本)来推断总体,由于样本仅仅是总体的一部分,因此进行统计推断势必要冒导致错误结论的风险,描述这种风险

49、出现可能性大小的数量指标称为概率。一、事件二、概率第60页,共290页,2022年,5月20日,1点9分,星期四一、事件(一)随机试验 对于一个试验E,如果在相同条件下可以重复进行,而且试验的结果事先不能准确预言,我们称试验E为随机试验,简称为试验。(二)随机事件 随机试验的某些结果所构成的集合称为随机事件,简称为事件,用大写英文字母A、B、C等表示。 基本事件 是最简单的事件,不可再分的事件,例如掷一颗骰子出现1点。必然事件 指随机试验必然会发生的结果,用大写希腊字母表示,例如掷一颗骰子出现不大于6点。 第61页,共290页,2022年,5月20日,1点9分,星期四不可能事件 指随机试验不可

50、能发生的结果,用希腊字母 表示,例如掷一颗骰子出现小于1点。 我们把所有基本事件构成的集合称为样本空间,也用表示。进行一次试验必然会出现样本空间中的一个基本结果,这意味着样本空间是一个必然事件。(三)事件的关系 由于样本空间是所有基本事件构成的集合,我们自然可以把事件A看成是的一个子集合,把不可能事件 看成一个空集合,把基本事件看成中的一个元素。这样,事件的关系和运算可以归结为集合的关系和运算。第62页,共290页,2022年,5月20日,1点9分,星期四1、包含关系,若A发生必定导致事件B发生,称B包含A,或A被B包含,记为A B。例如,掷一颗骰子,A为出现2点,B为出现偶数点,则A发生必定

51、导致B发生,则A B。如果A B,B A,则称A与B相等,记为A=B。2、事件的并(和),若事件由A与B至少发生一个的事件所组成,称为A与B的并,记为AB或(A+B)。事件A与B的并也可说成是:或者A发生,或者B发生。例如,掷一颗骰子,A为出现3点,B为出现偶数点,则AB=2,3,4,6。第63页,共290页,2022年,5月20日,1点9分,星期四3、事件的交(积),若事件由A、B同时发生的事件组成,称为A与B的交,记为AB或(AB),即集A与集B的公共部分,显然,A=A,A = 。 例如,掷一颗骰子,A为出现奇数点,B为出现1点,则AB=1。4、事件的差,使事件A发生而事件B不发生的事件称

52、为A与B的差,记为A-B。例如,掷一颗骰子,A为出现偶数点,B为出现4及4以上点,则A-B=2。5、事件的互斥(互不相容),若事件A与事件B不能同时发生,即集A与集B的交为一空集,称A与B互斥,记为AB= 。例如,掷一颗骰子,A为出现2点,B为出现奇数点,则AB= ,即A,B互斥。 第64页,共290页,2022年,5月20日,1点9分,星期四 如果有n个事件 ,它们中的任意两个事件互斥,即 , ,称这n个事件两两互斥。同样,两个事件并与交的概念也可推广到任意多个事件上去。6、事件的逆,使事件 不发生的事件,称为 的逆事件或对立事件,记为 ,如果 , ,称 与 互逆。显然, =-A,两个互逆事

53、件A,B满足关系式:AB=,AB= 。由此,我们立刻可以得出结论,两个互逆事件一定互斥,反之未必。例如,掷一颗骰子,A为出现奇数点,B为出现偶数点,则 =B, =A即A,B互逆。第65页,共290页,2022年,5月20日,1点9分,星期四二、概率 概率就是某事件出现可能性大小的一个数,记为P(A)。(一)概率的统计定义设A为某测验下的一个事件,若将此试验重复n次,事件A出现了m次,称比值m/n为n次试验中A出现的频率记为 Q(A)= (2.1.1)频率Q从某种意义上也反映了某事件出现可能性的大小,但频率Q随试验次数n在变化,因此,用频率来描述事件出现可能性的大小是不能令人满意的。第66页,共

54、290页,2022年,5月20日,1点9分,星期四 当多次重复这种试验时,就会呈现出某种规律性。例如,历史上有人多次抛掷一枚硬币,其正面出现的频率稳定在0.5左右,我们把频率的这种特性称为稳定性,把数值0.5称为稳定值,记为p。 某事件A的概率P(A)与Q(A)有着密切联系, 当试验次数相当多时, 接近于 ,而频率的稳定性从客观上表明这个数 是存在的。因此,我们称频率的稳定值 为事件 的统计概率,记为 (2.1.2)实际应用中,统计概率的精确值是不易求得的,一般,当试验次数n适当大时,我们取频率Q为概率P的近似值。 第67页,共290页,2022年,5月20日,1点9分,星期四(二)概率的古典

55、定义 “从编上号的30名学生中随机抽一人,有30个可能的基本结果,而且抽到每一名学生的机会均等,即抽到每一名学生的可能性都是1/30”。所进行的试验有以下两个特征:1)随机试验有有限多个基本结果,即 2)每个基本结果出现是等可能的,即我们称具有上述特征的试验为古典型试验,有关古典型试验中的概率模型称为古典概型。例如,从装有4份考题的袋中任抽一份进行测验,有4个基本结果,由于抽取是随机的,各份考题外观一样,谁也不比谁特殊,那么抽到任意一份考题当然是等可能的,即抽到任意一份考题的概率为1/4。第68页,共290页,2022年,5月20日,1点9分,星期四 对于古典概型,若事件A由m个基本事件复合而

56、成,即 ,那么 (2.1.3)其中 为基本事件总数, 为A所包含基本事件数。我们称(2.1.3)式为概率的古典定义。例1 书架上有5本中文书,3本外文书,某人从书架上任取3本,求其中恰有2本中文书的概率。解:设从书架上任取3本书恰有2本中文书为A,则由公式(2.1.3),显然有第69页,共290页,2022年,5月20日,1点9分,星期四例2 某班52名学生分为4个组,每组13人.如果来访记者找该班任意4名学生谈话,求 (1) 这4名学生都是第一组学生的概率; (2) 每组各有1名学生的概率。解:从52名学生中任抽4人的组合数为 设4名学生都是第一组学生为A,而有利于A的组合数为 , 由公式(

57、2.1.3)(2) 设每组各有1名学生为B,而有利于B的组合数为 由公式(2.1.3)第70页,共290页,2022年,5月20日,1点9分,星期四(三)概率的数学定义 从统计概型、古典概型的实际意义出发,事件的概率满足以下三条基本公理: 1、非负性 P(A)0 (2.1.4) 2、规范性 P()=1 (2.1.5) 3、可加性 两两互斥(2.1.6)我们称满足以上三条公理的集合的函数为概率,这种定义事件概率的方法称为概率的数学定义或公理化定义.第71页,共290页,2022年,5月20日,1点9分,星期四概率具有以下性质:性质1 减法公式 (2.1.7)证: 从而有性质2 一般加法公式 (2

58、.1.8)证: 第72页,共290页,2022年,5月20日,1点9分,星期四 例3 某学生从10道试题中任抽一题口试,如果抽到每一道题是等可能的,求抽到第一题或第二题的概率。 解:设抽到第一题为事件A,抽到第二题为事件B,则抽到第一题或第二题为A+B。因为A,B互斥,由可加性第73页,共290页,2022年,5月20日,1点9分,星期四性质3 逆事件概率公式 (2.1.9)证: 从而有 。性质4 (2.1.10)证: 从而有 性质5 P(AB)=P(A)P(B),A与B独立(即A的概率与B发生与否无关) (2.1.11)第74页,共290页,2022年,5月20日,1点9分,星期四例4 某学

59、生从5个试题中任抽一题口试,抽取采用有放回方式,求该学生两次都抽到试题1的概率。解:设该学生第一次抽到试题1为A,第二次抽到试题1为B,由于A,B独立,则有第75页,共290页,2022年,5月20日,1点9分,星期四2.2 随机变量及常见分布一、随机变量二、二项分布三、正态分布 第76页,共290页,2022年,5月20日,1点9分,星期四一、随机变量 用“X=0”,“X=1”分别表示掷一枚硬币出现正面,掷一枚硬币出现反面。这样,样本空间中的每一结果都唯一对应X的一个实数值,由此我们给出随机变量的定义如下: 对于随机试验E的每一可能结果 ,唯一对应于一个实数值 ,称 为随机变量,简记为X。由

60、于数据有离散和连续之分,随机变量也分为离散型和连续型两种。 (一)离散型随机变量及概率分布列 如果随机变量X取有限或可数多个值,我们称X为离散型随机变量,所谓可数即X的取值个数和自然数的个数是对等的。第77页,共290页,2022年,5月20日,1点9分,星期四 散型随机变量X取值为 ;相应取这些值的概率为 ,称为 的概率分布列,分布列也可用下表来表示: 表2.1 离散型变量的概率分布其中 满足 (2.2.1) (2.2.2)第78页,共290页,2022年,5月20日,1点9分,星期四 例1 某学生凭机遇做一道正误选择题,则做对题数X为一随机变量,其概率分布列为01 其中X=0表示做错,X=

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论