数据收集与整理综述课件_第1页
数据收集与整理综述课件_第2页
数据收集与整理综述课件_第3页
数据收集与整理综述课件_第4页
数据收集与整理综述课件_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章统计数据的收集与整理

1、了解各种统计调查方式和方法的特点和适用场合;

2、明确统计数据的误差类型;3、掌握统计分组和图表显示数据的方法。主要内容

(一)数据的计量(二)数据的搜集方式与方法

(三)统计数据的整理(四)统计数据的质量1、定类尺度(列名尺度)Nominalscale

将研究对象按某种属性特征对其进行平行的分类或分组,并给每一类别定名。定类尺度是最粗略、精度最低的计量尺度,也是最基本的尺度。

按现象性质差异进行的辨别与区分。确切的值是以文字表述的。各类别间是平等的,没有高低、大小、优劣之分。性别、种族、运动项目等等第一节数据的计量尺度2、定序尺度(顺序尺度)Ordinalscale

是对事物之间等级差别或顺序差别的一种测度。它是把各类事物按一定特征的大小、高低、强弱等顺序排列起来,构成定序数据。

按现象顺序差异进行的辨别与区分。确切的值是以文字表述的,也可以用数值标识,也仅起标签作用。各类别间有高低优劣之分,不能随意排列。

是把定序排列的各类事物间的差距,以一定的度量单位明确起来,构成定距的数据。这是比前两种尺度更精确的计量尺度,一般要求建立某种物理的量度单位。按现象绝对数量差异进行的辨别与区分。值以数字表述,有计量单位。可以进行加减运算。各类别间自然有大小之分,但没有绝对的零点,不能乘除计算。3、定距尺度(间隔尺度)

Intervalscale天气预报:石河子9月5日最高温度28℃,最低17℃3月20日最高温度4℃,最低-2℃二者最高温度相差24℃3月20日最低温度较9月5日最低温度低19℃9月5日最高温度是3月20日最高温度的7倍温度

是量度层次最高的数据测定尺度。它是在定距尺度的基础上增加了一个绝对零点,并抽象掉事物的度量差异的测定尺度。按现象绝对差异与相对差异进行的辨别与区分。确切的值也以数字表述,有计量单位

,可以进行加减运算。有绝对意义上的零点,既可以加减运算,也可以乘除运算。4、定比尺度(比例尺度)

Ratioscale高层次低列名尺度顺序尺度间隔尺度比例尺度

宗教、种族、民族、性别、党派、国别、职业等等品质方面的差异进行测量定类测量对于人的主观态度———定序尺度第二节统计数据的来源

统计数据主要来源于两种渠道;一是来源于直接调查和科学实验;二是来源于别人调查或试验的数据。

一、统计数据的直接来源及获取统计数据的直接来源有两个渠道,一是专门组织的调查(所得结果称为观测数据),二是科学试验(所得结果称为试验数据)

。统计调查是获得直接数据的重要手段。统计调查方式普查抽样调查统计报表随机抽样非随机抽样直接数据获取的方式普查是一种专门组织的、对总体全部单位进行的一次性调查。普查往往涉及面广,资料要求细,需要耗费较多的人、物、财力和时间。一方面不宜多采用,另一方面要搞好普查的组织工作。(人口普查、农业普查、经济普查)

中华人民共和国成立以来,已成功地进行了六次人口普查,这些普查分别于1953、1964、1982、1990、2000年进行,第六次为2010年。

(一)普查

普查的组织形式:

一是组织专门的普查机构,配备一定数量的普查人员,对调查单位直接进行登记;二是利用被调查单位的原始记录和核算资料,由调查单位发放一定的调查表格,由被调查单位填报。特点:工作量大,时间性强,需要大量人力、物力和财力,但收集的信息资料比较全面、系统、准确可靠。任务:搜集重要的国情国力和资源状况的全面资料,为政府制定长期规划、宏伟发展目标、重大决策提供全面、详细的信息和资料,为搞好定期调查和开展抽样调查奠定基础原则:规定统一的标准时点、普查期限、调查项目和指标。

(二)

统计报表制度由政府部门组织,采用统一的表格、统一规定的指标内容、统一规定的报送程序和报送时间,自上而下布置,自下而上报告。任务:搜集国民经济和社会发展基本情况的资料,为制订国民经济和社会发展计划和检查计划执行情况服务。优点:A、精心周密设计、高度统一、规范B、回收率高,内容相对稳定,便于资料积累、对比C、层层上报、逐级汇总,可以满足各部门需要特点:调查范围:全面报表、非全面报表全面报表:要求调查对象每一个单位都填报。非全面报表:要求调查对象中的部分单位填报。内容和实施范围:国家统计报表/部门~/地方~报送周期长短:日报、旬报、月报、季报、半年报、年报报送单位不同:基层统计报表、综合统计报表。种类:

(三)抽样调查特点:1·按随机原则从总体中抽取样本;2·以样本指标(统计量)为依据,推断总体参数,检验总体的某种假设;3·抽样误差可以事先计算并加以控制。优点:经济灵活、时效性强、适应面广和准确性高

是在对研究对象进行全面分析的基础上,有意识地选择部分有代表性单位进行调查优点:调查范围小、省时力、具体深入缺点:具有主观性是在研究对象中只选择一部分重点单位进行调查以了解总体情况的一种非全面调查优点:省时、省力、不带主观性。比重较大人为选择的典型单位(四)重点调查(五)典型调查

直接数据获取的方法统计资料搜集方法问卷调查访问调查观察法网上调查法实验法

二、统计数据的间接来源及获取

统计数据的间接来源主要是公开出版或公开报道的数据(图书、报纸、杂志、统计年鉴、互联网),还有的是未公开出版需购买的数据。在引用这些数据时,一定要注明数据来源,以尊重他人劳动成果。(文献研究法)三大国际组织与中国国家统计局中国GDP数据对比表(单位:10亿元)

年份本币(人民币)美元折算中国IMFUN中国IMFUNWB201039,798.3239,798.325,879.065,878.265,878.63200934,090.2834,090.2834,050.694,990.534,990.534,984.434,991.26200831,404.5431,404.5430,685.984,521.834,519.954,416.104,521.83200726,581.0326,581.0326,309.383,495.663,494.243,458.333,494.06200621,631.4421,631.4422,165.132,713.502,712.922,779.872,712.95200518,493.7418,493.7418,869.212,257.622,256.922,302.722,256.90200415,987.8315,987.8316,028.041,931.641,931.651,936.501,931.64200313,582.2813,582.2813,639.881,640.971,640.961,647.921,640.96200212,033.2712,033.2712,035.031,453.821,453.831,454.041,453.83200110,965.5210,965.5210,897.241,324.821,324.811,316.561,324.8120009,921.469,921.469,874.901,198.481,198.481,192.841,198.48

数据来源:维基百科间接数据取得的途径Internethttp//WWW.中国统计年鉴2001中国人口统计年鉴中国市场统计年鉴世界发展报告世界经济年检工业普查数据中国统计出版社1.统计部门和政府部门公布的有关资料,如各类统计年鉴2.各类经济信息中心、信息咨询机构、专业调查机构等提供的数据3.各类专业期刊、报纸、书籍所提供的资料4.各种会议,如博览会、展销会、交易会及专业性、学术性研讨会上交流的有关资料5.从互联网或图书馆查阅到的相关资料

提供统计数据的部分政府网站中国政府及机构网址数据内容国家统计局统计年鉴、统计月报等国务院发展研究中心信息网宏观经济、财经、货币金融等中国经济信息网经济信息及各类网站华通数据中心国家统计局授权的数据中心中国决策信息网决策知识及案例三农数据网三农信息、论坛及相关网站三、统计数据的误差

是指统计数据与客观现实之间的差距。

误差主要来源:登记性误差和代表性误差。

1.登记性误差(非抽样误差)

是指由于调查者或被调查者的人为因素所造成的误差。

调查者所造成的误差:调查方案中有关的规定或解释不明确导致的填报错误;调查员粗心,在记录调查结果时出现错误;调查员的态度、情绪以及责任心等。被调查者所造成的误差:不理解调查方案中有关规定或解释不明确导致的填报错误;因人为因素干扰形成的有意虚报或瞒报调查数据等。注:登记性误差理论上讲是可以消除的。

2.代表性误差(抽样误差)

是指用样本数据进行推断时所产生的误差。所有样本可能的结果与总体真值之间的平均性差异。依据随机原则抽取样本,样本不同,就会得到不同的观测结果。代表性误差通常无法消除,但事先可以进行控制和计算。

影响代表性误差大小的主要因素:样本容量:样本容量越大,代表性误差就越小总体的离散程度:总体中各个体间的差异越大,抽样误差也就越大第三节数据整理和频数分布数据的预处理数据分组与频数分布数据的展示数据整理过程

统计数据的整理是将收集到的各种原始数据条理化、系统化,使之符合统计分析与推断要求。

整理数据的中心任务:分组、编制频数分布表。

一、数据的审核与筛选

(一)审核

准确性时效性

一致性

(二)筛选

剔出某些不符合要求的数据或明显错误的数据;选出符合条件的数据,剔出不符合特定条件的数据。

(三)

数据的排序

目的:

将数据按一定顺序排列,以便研究者更好地浏览数据。此外,排序还有助于对数据检查纠错。可借助计算机来完成。

方法:数字型数据:递增、递减字母型数据:升序、降序文字型数据:升序、降序(按拼音或笔画)

(一)统计分组根据统计研究的需要,将数据按照按照一定的标志划分为若干组成部分的一种统计方法。分组的关键是分组标志的选择。单变量值分组组距式分组二、数据分组与频数分配按品质标志分组(非数值型数据分组)按数量标志分组(数值型数据分组)分类:品质标志分组选择反映事物属性差异的品质标志作为分组标志,并在品质标志的变异范围内划定各组界限,将总体划分成为若干个性质不同的组成部分。由于品质数据是用文字来表现的,每种表现即为一种类别,因此对品质型数据主要是做分类整理。人口总体按性别,分为男、女两组企业总体按经济成分,分为公有经济(国有经济、集体经济)、非公有经济(私有经济、港澳台经济、外商经济)☆数量标志分组选择反映事物数量差异的数量标志为分组标志,并在数量标志的变异范围内划定各组界限,将总体划分为性质不同的若干组成部分。由于数值型数据表现为具体的数值,因此主要是按照数值进行分组。对学生成绩分组,可分为60分以下、60~70分、70~80分、

80~90分、90分以上5个组。

对居民家庭按子女数分组,可分为0人(无子女)、1人、2人、3人;等等。就具体分组形式可分为单变量值分组和组距式分组用一个具体数值作为一组的名称,即是把每一个变量值作为一组,从而把总体区分为若干个部分,这样的分组叫做单变量值分组。单变量值(单项式)分组对居民家庭按家庭人口数进行分组:1人2人3人4人5人及以上适用于离散型变量,且变量值不多时。如果变量的变异较大,则可以把变量的整个的取值范围依次划分为若干个区间,一个区间内的所有变量值归为一组。这样的分组称为组距式分组。组距式分组

A、企业的工人按日B、工人按工资水平分组(连续)

产零件数分组(离散)

50-60300-40060-70400-50070-80500-60080-90600-70090以上700-800适用于连续型变量,或变量值变化范围大的离散变量。等距式分组适用于总体各单位的变量值由小到大呈现均匀变化的情况。对学生成绩的分组可以分为0~20分、20~40分、

40~60分、60~80分、80~100组异距式分组则适用于总体各单位的变量值由小到大呈现不均匀变化的情况。对学生成绩的分组也可分为0~60(D)、60~80(C)

80~90(B)、90~100(A)第一,数据排序第二,分组数目的确定采用斯特吉斯经验公式,即k=1+3.322lgN

k为组数;N为总体中的个体数。分组组数参考表N15~2425~4445~8990~179180~359k56789等距分组的基本步骤第三,组距的确定组距=(最大值-最小值)÷组数第四,组限的确定第一组的下限应略低于最小变量值,最后一组的上限应高于最大变量值。离散型变量:相邻组的上下限可以不重叠连续型变量:相邻两组的组限应重叠,即上一组的上限同时也是下一组的下限。用“上限不在内”原则解决不重问题当变量值变动范围较大时,最小组为“……以下”,最大组为“……以上”的开口组。第五,组中值的确定组中值=(上限+下限)÷2

开口组的组中值:组中值=下限+邻组组距/2(缺上限)

组中值=上限-邻组组距/2(缺下限)组距式分组的几个概念①组距与组限②组中值③开口组与闭口组④连续组距分组和不连续组距分组重叠组限“上限不在内”原则例:学生按成绩分组(分)

(1)50—6060—70

70—8080—9090—100(2)60以下

60—6970—7980—89

90以上组距=80-70=10上限:80下限:70开口组闭口组组中值组中值重叠组限值70归于70—80组不连续组距式分组连续组距式分组

(二)频数分布(次数分配)按某种标志对数据进行分组后,再计算出所有类别或数据在各组中出现的次数或频数并用表格的形式表现出来就是频数分布表。频数(frequency)是指分布在各组内的数据个数频率(percentage)为各组频数与全部频数之和的比值频数分布类型:品质频数分布、变量频数分布

职工性别的频数分布表按性别分组频数/人数频率/%男女48504951合计98100是指按照品质标志进行分组所编制的频数分布品质频数分布宿舍所住学生数的频数分布表宿舍所住学生数/人频数/户频率/%45678203560122513.1623.0339.477.8916.45合计152

100

是指按照数量标志进行的分组所编制的频数分布,可分为单项式频数分布和组距式频数分布。单项式频数分布:每一组只有一个值进行分组形成的变量频数分布

年龄人数(人)比率(%)18310.019826.7201446.721413.32213.3合计30100.0某班同学年龄分布表分组标志频率频数组距式频数分布:是指按组距式分组形成的频数分布某年某品牌汽车的销售量的频数分布表按销售量分组/辆频数/天频率/%2~1010~2020~30941987325.854.220.0合计365100累计频数(cumulativefrequencies)

是将各有序类别或组的频数逐级累加起来累计频率或百分比(cumulativepercentages)

是将各有序类别或组的频率逐级累加起来累计频数(率)方法:例:某单位按某种产品的销售量分组统计,可以得到如表所示的频数分布。累计频数和累计频率某种产品的销售量的频数分布表频数分布向上累计向下累计按销售量分组/台频数/天数频率/%累计频数累计频率累计频数累计频率140~150150~160160~170170~180180~190190~200200~210210~220220~230230~2404916272017108453.337.5013.3322.5016.6714.178.336.673.334.17413295676931031111151203.3310.8324.1646.6663.3377.5085.8392.5095.8310012011610791644427179510096.6789.1775.8453.3436.6722.5014.177.504.17合计120100————频数分布的类型对称分布右偏分布左偏分布正J型分布反J型分布U型分布几种常见的频数分布

三、数据的显示类型

(一)统计表是将数据资料经汇总整理后,按一定顺序填在以纵横交叉的线条所绘制的表格内,是用于显示统计数据的基本工具。构成总标题横行标题:统计研究的对象,也称行标题纵栏标题:说明主词的指标名,也称列标题数字资料

(1)统计表的表头设计要明确地表达其内容。

(2)统计表左右两边通常不封口,列标题之间通常用竖线分开,而行标题之间通常不用横线分开。

(3)统计表应注明数字资料的计量单位。

(4)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论