




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二讲数据获取与处理1.怎样获取数据2.频数分布3.集中量数4.差异量数5.相对位置量数
样本并非总是与总体一致。这样我们就需要研究如何抽取样本?什么样的样本较为合适?同时,还要考虑如何有效的处理和分析数据,如何设计最佳试验方案以减少导致错误结论的风险。应用数学理论计算出出现这种风险可能性的大小,描述这种可能性大小的数量指标称为概率。运用概率论来研究统计学的学科称为数理统计。1.怎样获取数据描述性统计单纯对一组数据的面貌特征进行分析研究推断性统计选取样本,通过对样本的描述来推断整体的特性1.2统计方法1.1依据问卷设计、记录,将测量结果赋值。我们把搜集记录下来的数量依据称为数据从总体中抽出部分样本展开调查来获取数据,统计学上称此为抽样调查。所考虑对象的全体统计学上称为总体,其中每一个对象称为个体,而从总体中抽取的一部分个体称为样本,样本中所含个体的数目称为样本容量,通常用字母n表示。(样本分为大样本(n≥30)与小样本(n<30),样本容量的选取取决于实验的条件和精度,样本越大,反映总体的信息越充足,但计算量也越大,故样本容量最好适当。)能充分反映总体的信息每个个体被抽到的可能性相同,个体与个体之间互不影响,数学上称为个体互相独立每个个体具有和总体相同的本质特性样本具有某种代表性,数学上称此为与总体同分布。抽样调查要求样本具有的两个特征满足以上两条的样本称为随机样本;从总体中抽出一个随机样本,称为随机抽样抽样调查随机抽样分层抽样等距抽样随机数表法抽签法有放回抽样无放回抽样
简单随机抽样1、随机数表法
随机数表是根据数理统计的原理,由许多随机数字排列起来的数字表,表中数字的构造方法是:利用计算机使0,1,…,9十个数字号码中每次自动出现一个号码,用这种方式得到一串数,编排成组(一般四个数为一组)
2、抽签法
抽签法是将所有个体编号打乱次序用类似于抽签的方法从中来获取随机样本分层抽样是按一定标志把总体内的每个个体划分为若干层,使相互差异小的个体集中在一层内,从而可以缩小各层内个体之间的差异程度,使样本中各个个体在总体中散布更均匀。分层抽样时,从各层抽取的样本个数可以与各层个体数成比例。
具体做法是:把总体中个个体划分为个不相重叠的部分,使每一部分包含的个体数分别为,且,则第层所含的样本个体数为(1.1.1),其中为样本容量,为第层的层权数。例如,要从某校210名7至9岁儿童中抽出三分之一进行智力测验。已知该校7岁儿童有63人,8岁儿童有112人,9岁儿童有35人,现在用分层抽样法确定各年龄组儿童入数。由(1.1.1)式得
(7岁组)=(210/3)×(63/210)=21(人),(8岁组)=(210/3)×(112/210)=37(人),(9岁组)=(210/3)×(35/210)=12(人)。等距抽样法:把所有个体按顺序排列起来,然后以确定的相等距离抽取随机样本有放回抽样从总体中抽出一个个体记下其特征后再放回总体,然后进行第二次抽样无放回抽样从总体中抽出一个个体后不再放回去,再抽第二次抽样当总体内个体数目较多时,这两种抽样方式没有本质区别。教育统计中一般采用无放回抽样,但由于有放回抽样能简化某些计算,故当总体内个体数目较多时,我们可以看做是有放回抽样。通过抽样获取数据离不开求实的科学态度和认真的工作作风,数据如果不准确、不完整、或有遗漏,不仅数据本身失去价值,而且以此进行分析推断还会导致错误的结论。1.2测验评分(1)客观项目(题目)的评分--[即定依据](2)主观项目(题目)的评分节点法一个测验题目在从初始状态到达目标状态过程中,常常有多种变化,但在变换过程中,有些子目标是必经点,这样问题的求解才可能继续下去,这样的一些子目标称节点。等价点一些节点处的子目标可能不唯一,处于同一节点处的不同子目标称等价点。对主观题进行评分,为了避免由评阅者个人的主观见解带来的评分差异,采用的办法是同一题目由不同的评阅者参与评分。1.3数据的整理通常,直接从测验中得到的数据是杂乱的,从中难以看出一些隐藏的规律(关系),解决这类困难,常用的办法是对数据进行整理,用统计的方法发现隐藏其中的统计规律。常用的整理方法有两种:图表法:[直观、形象、易于理解,但对数据的分析比较粗略,不便对数据进行量化处理。]特征量法:[可以比较准确的掌握数据的统计规律。]1.3.1频数数据的基本类型离散型数据取整数值的数量指标,是计数性的,数据之间不能再划分为更小的单位连续型数据经过度量和测定而得到的数量指标。这类数据取值可以连续变化,尽管数据本身仍然是数轴上的点,但数据与数据之间可以无限细分,也就是数据的取值范围可以充满一个区间频数分布表示方法频数分布表离散型数据的频数分布表连续型数据的频数分布表累积频数分布表频数分布图累积频数分布曲线图一、频数分布表
一组数据中每个数据出现的次数称为这个数据的频数。按频数分类列出的一览表称为频数分布表。1、离散型数据的频数分布表例1某幼儿园测定5岁组儿童智力,共7个项目。全园30名5岁儿童中有1人答对1项、3人答对2项、4人答对3项、8人答对4项、7人答对5项、5人答对6项、2人答对7项。我们列出频数分布表如下:答对题数频数答对题数频数11572365347248总和30表1.130名儿童智力测定分布2、连续型数据的频数分布表
例2附中初二年级实验班40名同学期末数学统考测验得分如下:68.079.080.083.062.059.080.081.061.583.067.097.063.593.076.097.584.564.075.088.091.078.567.094.081.070.086.572.085.094.078.091.060.075.582.091.095.052.076.580.0
这一组数据中最大值是97.5,最小值是52.0,可见数据分布很散,项数较多。因此我们将它们分组,组的范围称为组区间,每组的起止分别称为组下限和组上限,每组的大小称为组距,各组组距一般是相同的。分组的原则是:100个以上的数据分为12~20组,数据较少则分为8~10组。组距为便于计算一组取为3、5、10较为合适,本例分为10组,组距取5。我们将组号放在表的第一列,组区间放在第二列,组中值记为,放在第三列,(上限+下限),然后数出各组的频数放在第四列。第二组为(56.55~61.55),我们可以提高一位分点或降低一位分点,通常我们取二位小数,因此61.5应放在第二组。
有了组频数,当然也可以算出组频率(每组组频数与总频数之比),为了以后的方便,我们把频率放在表的最后一列(表1.2),我们从中可以看出数据所呈现的统计规律性。表1.2附中初二年级实验班期末数学统考测验成绩分布组号组区间组中值频数频率151.55-56.5554.0511/40256.55-61.5559.0533/40361.55-66.5564.0533/40466.55-71.5569.0244/40571.55-76.5574.555/40676.55-81.5579.0588/40781.55-86.5584.0566/40886.55-91.5589.0544/40991.56-96.5594.544/401096.55-100.0098.2522/40总和
401.00
综上,对于分组数据编制频数分布表归纳为以下几步:第一步找极差,最大值-最小值,由大致了解数据的差异范围。第二步定组距,一般为便于计算,多取为2、3、5、10等。第三步定组数,一般数据在100个以上,分为12~20组,数据较少则分为8-10组,也可以借用下面公式确定近似组数。组数,其中方括号为的整数部分,为组距,例2中,。第四步定分点,通常使分点比原测量精度多一位或少一位,要注意的是最低组的上、下限应能包括最小值,最高组的上、下限应能包括最大值。第五步数频数,根据组限归类,数出全体数据落入每一组的个数。频数分布表也有其缺点,我们在下一节会看到计算描述一组数据特征的数据依赖于各组的组中值,因而出现了误差。但是在理论上我们一般假定各组内频数分布是均匀的,因而各组的误差会相互抵偿,使总误差减少。二、累积频数分布表
累积频数分布表的列法是在频数分布表上添加一列累积频数。具体方法是:从数值最小的一组开始,逐组累加频数至数值最大的一组,最后累加的频数与总频数相等。把累积频数除以总频数,得到相应的累积频率;把累积频率乘以100,得到相应的累积百分比。下表是例2中数据的累积频数、累积频率,累积百分比分布表。组号组区间组中值频数频率累积频数累积频率累积百分比151.55-56.5554.0510.02510.0252.5256.55-61.5559.0530.07540.10010.0361.55-66.5564.0530.07570.17517.5466.55-71.5569.0540.100110.27527.5571.55-76.5574.0550.125160.40040.0676.55-81.5579.0580.200240.60060.0781.55-86.5584.0560.150300.75075.0886.55-91.5589.0540.100340.85085.0991.56-96.5594.0540.100380.95095.01096.5-100.0098.2520.050401.00100.00总和
401.000
表1.3附中初二年级实验班期末数学统考累积频数分布表三、频数分布图
通常我们用频数分布图来表示数据的规律性,常见的频数分布图为直方图。直方图是在横轴上标出组距,纵轴上标出频率与组距之比,然后以每组组距为底边,相应的频率与组距之比为高作矩形。显然,每个矩形的面积恰好等于数据落在该矩形所对应组内的频率,这样所有矩形面积总和为总频率1。直方图是利用各个矩形的高低来描绘频数分布情况的。图1.1是例2中数据的直方图,图中断裂号表示由0至51.55之间的距离是缩短了的。有时为了简单,横轴上只标出组中值,包括组中值在内的区间即为本组组距。54.05
59.05
64.05
69.05
74.05
79.05
84.05
89.05
94.05
98.25
0.01
0.02
0.03
0.04
频率组距
图1.4初二年级实验班期末数学统考测验成绩直方图
四、累积频数分布曲线图累积频数分布曲线图横轴取每组上限,纵轴取累积频数,在相交处画点,顺次连续各点成一上升曲线,又称S型或肩型曲线,曲线的最低点应与基线相接。以累积频率为纵轴上点,重复上述过程则得到累积频率分布曲线图。再把累积频率乘以100,则得到累积百分比,以累积百分比为纵轴上点,重复上述过程,则得到累积百分比分布曲线图。(为了方便,一般把累积频数分布曲线和累积百分比分布曲线放在一张图上,左边纵轴为累积频数,右边纵轴为累积百分比。作图时要求两纵轴平行等长,左边按总频数划分,右边因为累积百分比最大是100,故划分为100等份。图1.3是例2中数据的累积频数,累积百分比分布曲线图。)56..55
61..55
66..55
71..55
76..55
81..55
86..55
91..55
96..55
10
20
30
40
50
60
70
80
90
100
累积百分比
累积频数
5
10
15
20
25
30
35
40
图1.3累积频数、累积百分比曲线图在教育考试等值研究中,运用累计百分比曲线图可以对两次考试进行等值对应,这种等值方法称为百分位等值这种曲线分布图有一定的实用价值,可以从图中插值,回答小于或大于某值的频数有多少,或回答占总频数百分之几的频数小于或大于某值。例如横轴上给出81.55分,可以从此点向上作垂直于横轴的直线和曲线相交于一点,再由这一点向右作平行于横轴的直线与纵轴右侧交于一点为60,这表明81.55分位于百分之六十的位置上,说明有百分之六十的学生得分低于81.55分。反之,如果知道右侧纵轴上的百分位置,在横轴上也能找到相应的分数,这个分数在下一节称为百分位数,例如,如有百分之六十的学生成绩在某学生之下,那么该生得分大约为81.55分。1.3.2集中量数(1)平均数算术平均数加权平均数几何平均数3.集中量数(1)一、平均数平均数表示一组数据集中的位置,又称为均值。1、算术平均数算术平均数是所有数据之和除以数据个数的商,记为.。①不分组数据求算术平均数(1.3.1)其中为第个数据为数据总个数。
例1某校射击队5名队员在一次射击中,射中的环数分别为6,7,8,9,10,求平均射中环数。解:由(1.3.1)式(环)。如果数据中有重复数,我们采用加权形式求算术平均数。“权”为所占的比重,比率,频率都可以看做为一种“权”。例如,某校射击队5名队员在一次射击中射中的环数分别为6,6,8,10,10,则把上式一般化得到,其中为第个数的频数,为第个数的频率。我们称上式为定义的为以频率为权的加权平均数,显然,权均为1/N的加权平均数为算术平均数。②分组数据求算术平均数(组中值法)对于分组数据先要列出频数分布表,再把每组的各个数据都看作与组中值相同的数,这是因为每组内各个数据虽然有大有小,但其相对于组中值的误差最终趋于抵消,故可以把每组的组中值做为每组的代表值,由此得到简记为(1.3.3),其中为第组的组中值,其中为组数,为第组的组频数。
例2求§1.2例2中数据的算术平均数。解:把表1.2中数据代入(1.3.3)式得到③的基本性质常数性为常数;(1.3.4)齐次性(1.3.5)可加性(1.3.6)特别(1.3.7)2、加权平均数几个作用在不同比重上的平均数再进行平均称为加权平均数。例如,是个数的平均数,是个数的平均数,是个数的平均数,则(1.3.8),如果则(1.3.9)显然,以频率为权的加权平均数公式(1.3.2)是(1.3.9)的特殊情形,这是因为由平均数的常数性,,对于分组数据用加权形式求,公式(1.3.3)中相当于第个数的平均数。例3大学南路小学一年级实验班40名学生期末数学测验平均分数为82.59,对比班45名学生期末数学测验平均分数为69.68,求全年级期末数学测验平均成绩。解:由公式(1.3.8)(分).例4某校考察学生成绩,期末考试占全学期的85%,平时成绩(包括作业,期中考试),占全学期的15%.如果某学生期末成绩为75分,平时成绩为90分,求该生全学期平均成绩。解由公式(1.3.8)(分)3、几何平均数几何平均数是一组数据中个数据连乘积的次方根,记为,其计算公式为
(1.3.10)例5某校1999年至2001年招生人数如表1.4,求该校平均每年招生增长速度。表1.4某校1999年至2001年招生人数年份招生人数增长比率19999000200011001100/900200112001200/1100解:由(1.3.10)式.故该校招生平均年增长速度为15%.实际应用中,如果N≥3,可以利用对数简化计算,方法是对两边取对数,得到,查常用对数表得到,再查反对数表得到。二、众数数据集合中出现次数最多的那个数称为众数,用表示。1、观察法①离散型数据求众数
例如,调查全班40名学生业余爱好,有20人参加体育小组,15人参加音乐小组,5人参加无线电小组。如果用1表示参加体育小组,2表示参加音乐小组,3表示参加无线电小组,则1出现次数最多,因此众数就是1。②分组数据求众数
首先列出频数分布表,再用每组组中值表示该组一般水平,则频数最多一组的组中值即为众数。显然,此众数是较为粗略的。2、公式法如果用分别表示众数所在组下限和上限,表示与众数所在组的下限相邻组的频数,表示与众数所在组的上限相邻组的频数,如果众数是自众数所在组的下限向上挤,则众数所在位置是再加上区间长度(组距)的倍处,这是由于在相邻组总频数中占
的比重。反过来,如果众数是自众数所在组的上限向下挤,那么众数所在位置是再减去区间长度的倍处。由此,我们得到求众数的近似公式为(1.3.13)(1.3.14)3.集中量数(2)三、中数中数指一组依次序排列的数据中位于正中间的数,它正好分全体频数为相等的两部分,用表示。1、不分组数据求中数①数据个数为奇数求例7某校男子体操队9名队员5项比赛总积分分别为:47,49,42,39,45,41,37,46,40,求这9个数据的中数。解:把9个数据依大小次序排列为:37,39,40,41,42,45,46,47,49。显然,正中的42为中数,因为42左右各有4个数。由此,我们得到数据个数为奇数时,中数为第个数目的数值。②数据个数为偶数求例8求42,45,50,54,57,58的中数。解:由于N=6,由中数定义,中数应在50与54中间,自然我们取其平均数为中数,即由此,数据个数为偶数时,以最中间两个数的平均数为中数。
2、分组数据求中数例9下表给出25个数据的频数分布,求中数。表1.525个数据的频数分布组区间组中值频数75-8077.5170-7572.5365-7067.5560-6562.51055-6057.5450-4552.52
解由于N=25,因此中数为第13个数,在(60-65)这一组,而这一组以下有6个数据,须再向上数7个数,才能到达第13个数。而每个区间的长度(组距)为5,如果(60-65)这一组内10个数据是均匀分布的,那么为到达第13个数,需要在中数所在组的下限处加上区间长度的十分之七,即中数应为因此,我们得到(1.3.15)。如果取中数所在组上限U,相应有(1.3.16)。其中,为中数所在组以上累积频数,为中数所在组以下累积频数。
在§1.2,我们接触到了百分位数,介绍了通过累积百分比分布图找百分位数的方法,实际上,中数也是一个百分位数,它正好位于百分之五十的位置上。一般的百分位数用表示,称为百分之分位数,它表示在此百分位数以下的频数占总频数的百分之。由公式(1.3.15)(1.3.16),我们类似可得
(1.3.17)
(1.3.18)其中为所在组下限,为所在组上限,为所在组以下累积频数,为所在组以上累积频数,为所在组频数,i为组距。例9中如求,由(1.3.17)式得四、三种集中量数的比较
集中量数的作用是指出一组数据中有代表性的数值,同一组数值的三种集中量其值一般是不同的,故其实际意义也是有区别的。例如,某中学数学教研室教师年龄分别为22,24,24,25,55(岁),现在问哪一年龄具有代表性?显然,平均数30不能作为水平值,这是因为平均数与每一个数据有关,故受极端值55的影响而失去代表性。因此,选择中数或众数24作为这个教研室教师年龄的一般水平较为合适。又如在一次测验中,某小组9名学生中有5个80分,3个85分,1个90分.如果用中数或众数80分来作为一般水平值是不合适的,这是因为这次测验的成绩分布较为特殊,且每个分数相差不大。因此,在这种情形要用平均数82.5分作为集中趋势的度量。三种集中量的共性是反映了一组数据的集中位置,指出了一组数据中有典型意义的数。平均数应用最为广泛,因为它考虑到了每一个数据,且便于用公式表示,其缺点是当数据极端出现较大或较小数时,作为衡量集中趋势的度量会受到较大影响。中数是位于一组数据正中的一个数,它不受极端值的影响,但如果数据集中成明显不同且差异很大的几组时,则不易反映数据的集中趋势。中数不与具体某个数有关,而只是与数据的个数有关,因此,只要中间数值不改变,排列顺序不改变,其两边数值任意改变并不影响中数的值。众数由于出现频数最多,往往被认为是一组数据中最典型的一个。但在确定众数时不受其它数据的影响,这是众数最大的缺陷,而且,如果一组数据中有几个数同时符合众数定义时,数则失去代表性。众数可以消除极端数值的影响,但计算众数大多是粗略的,因此,作为集中趋势的度量,价值较小。英国统计学家皮尔逊(Pearson)根据多年经验,发现当频数分布完全对称时,平均数,中数,众数重合.在频数分布不对称时,这三种量数的关系为即这样,知道其中两个,可以近似求出第三个。4.差异量数(1)描述一组数据集中趋势的水平值只是从一个侧面反映了一组数据的特征。在实际
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 信息管理管理制度
- 信贷专员管理制度
- 修改考勤管理制度
- 公司a4纸管理制度
- 公司宣传册管理制度
- 公司项目部管理制度
- 化妆品全套管理制度
- 厂里班组长管理制度
- 商业停车场管理制度
- 小公司收银管理制度
- 高考前2天校长在出征仪式生动员讲话与在座的大家分享了3颗心
- 2025年湖北省武汉市中考化学模拟练习卷(含答案)
- 商场餐饮区特色咖啡厅委托经营管理合同
- 2025重庆市潼南区梓潼街道社区工作者考试真题
- 2025年中式烹调师(高级)考试试题题库
- 热射病护理试题及答案
- 人教版七年级英语上册《Unit 6 A Day in the Life 第2课时》
- 交规考试题库
- 2.1始终以人民为中心 课件-高中政治统编版必修三政治与法治
- 《2025-0015T-FZ 智能制造 服装定制 人体测量实施要求》知识培训
- 路虎购车合同协议
评论
0/150
提交评论