变量数据的整理_第1页
变量数据的整理_第2页
变量数据的整理_第3页
变量数据的整理_第4页
变量数据的整理_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

变量数据的整理回顾:统计整是的概念:统计整理是指根据统计的研究的目的和任务,对统计调查或科学试验获得的大量原始资料进行科学的分类、汇总,或对已经加工过的资料进行再加工,使之成为系统化、条理化、标准化的能反映总体特征的综合统计资料的工作过程。注意概念的重点:大量原始资料T分类、汇总T系统化、标准化变量数据的整理恰恰体现了这样一个工作过程有一组数据:对某班40名学生某科某次考试成绩按试卷登记得到如下资料:54606297855283799580898577688693708178897189808575789066787382829977888475887680分类整理后得到 某班40名学生成绩情况由此可以看出变量数据整理的结果下面介绍如何完成这一过程,只看基本概念。(一)变量分布数列的概念变量分布数列:用数理标志进行分组所得到的分布数列。单项式变量分布数列:若每一组别都是由单个的组值(整数或小数)表示。如表:某班学生按年龄分组1516161516171616171616171717161516171717组距式变量分布数列:若每一组都是由数域(区间)表示。如前面40名学生成绩由简单到复杂可看(二)单项式变量分布数列的编制某生产组20名工人同种产品日产量如下(单位:件)1613181519141713151719151718141615161716这是一个离散型变量,其变量值不多,变动范围不大,宜编制单项式变量分布数列。离散性变量(没有小数)注意这组数据的特点:变量不多(20个)变动范围不大(13—19)所以适合编制单项式变量分布数列。步骤如下:(1) 按变量值大小顺序排列:13 13 14 14 15 15 15 15 16 1616 16 17 17 17 17 18 18 19 19(2) 每种变量值为一组(重复者只取一个),顺序排列为7组:13141516171819(3) 列入表中并汇总出各组频数,如表所示。20名工人日产量资料日产量(件)工人数(人)(频数)频率xff/Xf1322/201422/201544/201644/201744/201822/201922/20合计201三、组距变量分布数列的编制.等距变量分布数列开口组变量分布数列组距变量分布数列异距变量分布数列闭口组变量分布数列等距变量分布数列的编制方法等距分组:标志值在各组保持相等的组距。注意特点:变动均匀、没有大起大落仍看前面例子:对某班40名学生某科某次考试成绩按试卷登记得到如下资料:54606297855283799580898577688693708178897189808575789066787382829977888475887680步骤如下:(1)将原始数据按顺序排列起来,并确定变量性质。根据上例,对于数据按成绩由低到高排列可得到:52546062666870717375767777787878798080808182828384858585868888898989899093959799该例的变量性质为连续变量。确定变量性质是,是为了正确进行数列的编制和确定组限的表示方法。连续变量(可以有小数)变量特,变动均匀没有极端数值(如18分)(2)计算全距全距=最大变量值■量小变量值全距=99-52=47(3)确定组限、组距、组数组限:两个组的两端变量值。其中,每个组的起点值(或称最小值)为下限每个组的终点值(或称最大值)为上限。组距:每个组中的上限值与下限值之差。组距=上限-下限组数:是指某个变量数列应划分为多少个组。确定组距与组数的具体方法如下:在计算组数与组距时,所使用的变量最小值应略低于实际资料的最小值,自50分开始,最大值应略高于实际资料最大值,取至100分,则全距为100-50=50。上式中全距是既定的,而组数和组距是可变的。一般来讲,组距应尽可能取5或10的整倍数,而组数则必须是整数。若组距为5,则:组数=>=50=10组5若组距为10,则:组数=碧组距=50=10组上例中,宜采用以10为组距,分为5组。(4)写出组限并据以归类汇总计算各组次数。所谓归类汇总,是指依据各个总体单位的具体标志值,将其划归某一具体组之中。在归类汇总时,要遵循“不重复,不遗漏”的基本原则。不重复是指所确定的组限必须使各组的范围互斥,以便确保每个数据只能归入唯一的组,不能模棱两可,或归属不定。不遗漏是指所确定的组限必须包容全部原始数据,不允许将任何数据遗漏在外,即要求所确定的最小的组限不大于原始数据中的最小值,所确定的最大的组限大小于原始数据中的最大值。连续变量由于不能一一列举,并且有中间数值,相邻组的上下限无法用一个确定的数值来表示,相邻两组的组限应该重叠,即相邻两组之间的组限用同一个数值来标记,因此,也称重限分组。它适用于编制连续型组距式变量数列。有时对离散型变量进行分组,也可以采用重叠组限的形式即用各组的上限同时作为下一组的下限,处理变量时,仍遵循“上组限不在内”的原则,这样比较简化,同时也为计算组中值提供了方便。应注意处理好恰巧是级限的变量值的总体单位的归类问题:一般应按“上组限不在内”的原则,将此变量值归入下限所在组。按这种标记法者规定“不含上限”则上例中得60分者应归入60~70分组中,得70分者应归入70~80分组中,得80分者应归入80-90分组中,得90分者应归入90~100分组中,如表所示。某班40名学生成绩情况成绩(分)整理画记 人数(人)(频数)50~60260~70470~8011

80-901890~1005合计正正正正正正正正40(5)编制整理表,即将数据用表格形式表现出为,左端是各组的变量值,右端是各组变量值出现的频数。可以通过画“正”字或画“耳耳的方法来记录每一组变量出现的频数,即可完成分组过程,并形成一张频数分布表,如表所示。归类汇总后,便可计算各组的频数,即各组总体单位个数的累加数,如表所示。各组频

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论