第二章-统计数据的搜集与整理2-课件_第1页
第二章-统计数据的搜集与整理2-课件_第2页
第二章-统计数据的搜集与整理2-课件_第3页
第二章-统计数据的搜集与整理2-课件_第4页
第二章-统计数据的搜集与整理2-课件_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一、统计数据的直接来源问卷结构:开头

+

甄别

+主体+背景问卷设计

基本要求:主题明确,形式简明,文字通俗,容易理解,便于回答,词句编排,层次分明,先易后难。

问卷形式:①开放式词句②对选式词句③多项选择式词句④排序式词句···························调查时间和调查期限1、调查时间:资料所属时间。2、调查期限:调查工作的起止时间。[例]某局欲派员调查B企业2019年的产值及年末职工人数情况,要求调查工作于次年1月1日开始,资料1月底之前上报。调查时间:2019年、2019年末。调查期限:2019年1月。调查的组织计划调查工作的领导机构和办事机构;调查人员的组织调查资料的报送办法调查前的宣传、培训、调查文件的准备工作调查经费的预算和开支办法调查方案的传达、试点及其他工作二、统计数据的间接来源统计摘要统计资料汇编统计公告报刊杂志网上资料历史文献其它来源年鉴注意:1、针对性地获取资料3、注意指标含义、方法、口径的可比性3、注明来源例如:消费者可以按月收入的高低分类,一项研究要了解月收入在1200元以上和8000元以下的消费者人数而二手资料中收入段的划分是:200元以下,200~399元,400~599元,600~799元,800~999元,1000~1499元,1500~2499元,2500~3999元,4000~5999元,6000~8999元,9000元以上请问适用性如何?只能提供1500~5999元收入的人数,不能提供1200~1499元和6000~7999元收入的人数。第三节统计数据的整理预处理分类或分组汇总系统化条理化数据的审核、筛选与排序数据的审核发现数据中的错误数据的筛选找出符合条件的数据数据排序发现数据的基本特征升序和降序一、数据的预处理1、审核对第一手数据:(1)完整性审核:检查应调查的单位或个体是否有遗漏所有的调查项目或指标是否填写齐全(2)准确性审核:

真实性:检查数据是否真实反映客观实际情况,内容是否符合实际——逻辑检查(定性数据)正确性:检查数据是否有错误,计算是否正确等——计算检查(定量数据)

1、审核对第二手数据:完整性准确性适用性:数据的来源、口径以及有关背景资料时效性:尽可能使用最新的数据2、纠正和筛选

尽可能纠正无法纠正时应筛选3.数据的排序:定性、定量二、数据分组与频数分布分组前分组后二、数据分组与频数分布统计分组:根据统计研究的需要,将数据按照某种特征或标准分成不同的组别。

分组标志:品质标志数量标志频数分布:全部数据按其分组标志形成在各组内的分布状况。

频数(次数):各组内数据的个数。频率(比重):各组频数与全部频数的比值。二、数据分组与频数分布按品质标志分组形成的频数分布某厂职工人数统计表按性别分组男职工女职工合计人数(人)(频数)比率(%)(频率)25311536868.7531.25100.00二、数据分组与频数分布按数量标志分组形成的频数分布

排序分组

单变量分组:离散型或变量值较少

组距分组:连续型或变量值较多二、数据分组与频数分布数据分组的步骤:1、排序,求全距(极差=最大值-最小值)2、确定变量的数据形式(单变量分组、组距分组)3、确定组数(四舍五入):斯特格斯(Sturges)经验公式:组数K=1+log10N/log102=1+3.322lgN4、确定各组组距组距=极差/组数=(最大值-最小值)/组数5、根据分组整理成频数分布表(确定各组组限,计算频数)(尽可能使第一组的下限小于最小值,最后一组的上限高于最大值)频数分布表的编制

(实例)117122124129139107117130122125108131125117122133126122118108110118123126133134127123118112112134127123119113120123127135137114120128124115139128124121某生产车间50名工人日加工零件数如下(单位:个)。对数据进行分组。

1、排序,求全距107108108110112112112114115117117117118118118119120120121122122122122123123123123124124124125125126126127127127128128129130131133133134134135137139139极差=最大值-最小值=139-107=322、确定变量的数据形式表3-4某车间50名工人日加工零件数分组表(单变量值分组)零件数(个)频数(人)零件数(个)频数(人)零件数(个)频数(人)1071081101121131141151171181212111331191201211221231241251261271214432231281291301311331341351371392111221123、确定组数K=1+log10N/log102=1+3.322lgN=1+3.322×lg50

≈74、确定各组组距组距=极差/组数=(最大值-最小值)/组数=32/7=4.6≈55、根据分组整理成频数分布表表3-5某车间50名工人日加工零件数分组表按零件数分组频数(人)频率(%)105~110110~115115~120120~125125~130130~135135~140358141064610162820128合计50100数据分组与频数分布的注意点1、“不重不漏”原则

连续型变量:习惯上规定上组限不在内

离散型变量:两组组限间断的办法2、“空白组”与“开口组”(开口组通常以相邻组的组距为组距)3、等距分组与不等距分组

频数密度=频数/组距(单位组距内分布的频数)4、组中值=(上限+下限)/2(要求组内数据均匀或对称分布)

缺上限的组中值=下限+邻组组距/2缺下限的组中值=上限-邻组组距/25、累积频数向上累积:从小到大累加频数向下累积:从大到小累加频数等距分组表

(上下组限重叠)表2-5某车间50名工人日加工零件数分组表按零件数分组频数(人)频率(%)105~110110~115115~120120~125125~130130~135135~140358141064610162820128合计50100等距分组表

(上下组限间断)表2-6某车间50名工人日加工零件数分组表按零件数分组频数(人)频率(%)105~109110~114115~119120~124125~129130~134135~139358141064610162820128合计50100等距分组表(空白组)

(将最小值改为96,最大值改为160)表2-5某车间50名工人日加工零件数分组表按零件数分组频数(人)频率(%)95~100100~105105~110110~115115~120120~125125~130130~135135~140140~145145~150150~155155~160160~16510258141063000012041016282012600002合计50100等距分组表

(使用开口组)表2-7某车间50名工人日加工零件数分组表按零件数分组频数(人)频率(%)110以下110~115115~120120~125125~130130~135135以上358141064610162820128合计50100累积频数三、数据分布的图示和类型(一)直方图用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图(Histogram)取矩形宽度为一个单位,频率为高度,则直方图下的总面积等于1分组数据—直方图

(直方图的绘制)频数(人)1512963105110115120125130135140日加工零件数(个)直方图下的面积之和等于1图3-5某车间工人日加工零件数的直方图我一眼就看出来了,大多数人的日加工零件数在120~125之间!302418126%(二)折线图折线图也称频数多边形图(Frequencypolygon)是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉折线图的两个终点要与横轴相交,具体的做法是第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的1512963105110115120125130135140日加工零件数(个)频数(人)折线图下的面积与直方图的面积相等!分组数据—折线图

(折线图的绘制)图3-6某车间工人日加工零件数的折线图(三)未分组数据—茎叶图

(茎叶图的制作)1.用于显示未分组的原始数据的分布2.由“茎”和“叶”两部分构成,其图形是由数字组成的3.以该组数据的高位数值作树茎,低位数字作树叶4.对于n(20≤n≤300)个数据,茎叶图最大行数不超过

L=[10×log10n

]

5.茎叶图类似于横置的直方图,但又有区别直方图可大体上看出一组数据的分布状况,但没有给出具体的数值茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息树茎树叶7880223477788890012222333344466777889013344579910111213数据个数3132410茎叶图类似横置的直方图未分组数据—茎叶图

(茎叶图的制作)图3-7某车间工人日加工零件数的茎叶图未分组数据—茎叶图

(扩展的茎叶图)树茎树叶10s10.11*11t11f11s11.12*12t12f12s12.13*12t13f13s13.788022345777888900122223333444556

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论