




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第二章第二章 统计数据的描述统计数据的描述 一、数据的预处理一、数据的预处理 通过各种渠道将统计数据搜集上来之后,首先应对这些数据通过各种渠道将统计数据搜集上来之后,首先应对这些数据进行加工整理,使之系统化、条理化,以符合分析的需要。进行加工整理,使之系统化、条理化,以符合分析的需要。数据整理通常包括数据的预处理、分类或分组、汇总等几个数据整理通常包括数据的预处理、分类或分组、汇总等几个方面的内容,它是统计分析之前的必要步骤。方面的内容,它是统计分析之前的必要步骤。 数据的预处理是数据分组整理的先前步骤,内容包括数据的数据的预处理是数据分组整理的先前步骤,内容包括数据的审核与筛选、排序等。审核
2、与筛选、排序等。 (一)数据的审核与筛选(一)数据的审核与筛选 在对统计数据进行整理时,首先需要进行审核,以保证数据在对统计数据进行整理时,首先需要进行审核,以保证数据的质量,为进一步整理与分析打下基础。从不同渠道取得的的质量,为进一步整理与分析打下基础。从不同渠道取得的统计数据,在审核的内容与方法上都有所不同。对于通过直统计数据,在审核的内容与方法上都有所不同。对于通过直接调查取得的原始数据应主要从接调查取得的原始数据应主要从完整性和准确性完整性和准确性两个方面去两个方面去审核。完整性审核主要是检查应调查的单位或个体是否有遗审核。完整性审核主要是检查应调查的单位或个体是否有遗漏,所有的调查项
3、目或指标是否填漏,所有的调查项目或指标是否填 写齐全等。准确性审核主写齐全等。准确性审核主要包括两个方面,一是检查数据资料是否真实地反映了客观要包括两个方面,一是检查数据资料是否真实地反映了客观实际情况,内容是否符合实际;二是检查数据是否有错误,实际情况,内容是否符合实际;二是检查数据是否有错误,计算是否正确等。审核数据准确性的方法主要有逻辑检查计算是否正确等。审核数据准确性的方法主要有逻辑检查 数数据的审核和计算检查据的审核和计算检查 。 对于通过其他渠道取得的第二手数据,除了对其对于通过其他渠道取得的第二手数据,除了对其完完整性和准确性整性和准确性进行审核外,还应着重审核数据的进行审核外,
4、还应着重审核数据的适适用性和时效性用性和时效性。第二手数据可以来自多种渠道,有。第二手数据可以来自多种渠道,有些数据可能是为特定目的通过专门调查取得的,或些数据可能是为特定目的通过专门调查取得的,或者是已经按照特定目的的需要做了加工整理,对于者是已经按照特定目的的需要做了加工整理,对于使用者来说,首先应弄清楚数据的来源、数据的口使用者来说,首先应弄清楚数据的来源、数据的口径以及有关的背景资料,以便确定这些数据是否符径以及有关的背景资料,以便确定这些数据是否符合自己分析研究的需要,是否需要重新加工整理等,合自己分析研究的需要,是否需要重新加工整理等,不能盲目生搬硬套。此外还要对数据的时效性进行不
5、能盲目生搬硬套。此外还要对数据的时效性进行审核,对于有些时效性较强的问题,如果所取得的审核,对于有些时效性较强的问题,如果所取得的数据过于滞后,可能失去了研究的意义,一般来说,数据过于滞后,可能失去了研究的意义,一般来说,我们应尽可能使用最新的统计数据。数据在经过审我们应尽可能使用最新的统计数据。数据在经过审核后,确认适合于实际需要,才有必要做进一步的核后,确认适合于实际需要,才有必要做进一步的加工整理。加工整理。 数据筛选数据筛选 对审核过程中发现的错误,应尽可能予以纠对审核过程中发现的错误,应尽可能予以纠正,在调查结束后,当对数据中发现的错误正,在调查结束后,当对数据中发现的错误不能予以纠
6、正,或者有些数据不符合调查的不能予以纠正,或者有些数据不符合调查的要求而又无法弥补时,就需要对数据进行筛要求而又无法弥补时,就需要对数据进行筛选。选。数据筛选包括两方面内容:一是将某些数据筛选包括两方面内容:一是将某些不符合要求的数据或有明显错误的数据予以不符合要求的数据或有明显错误的数据予以剔出;二是将符合特定条件的数据筛选出来,剔出;二是将符合特定条件的数据筛选出来,而不符合特定条件的数据予以剔出。而不符合特定条件的数据予以剔出。数据的数据的筛选对通过市场调查取得的数据十分必要。筛选对通过市场调查取得的数据十分必要。 (二)数据的排序(二)数据的排序 数据排序是按一定顺序将数据排列,以便于
7、研究者数据排序是按一定顺序将数据排列,以便于研究者通过浏览数据发现一些明显的特征趋势或解决问题通过浏览数据发现一些明显的特征趋势或解决问题的线索,除此之外,排序还有助于对数据检查纠错,的线索,除此之外,排序还有助于对数据检查纠错,以及为重新归类分组等提供依据。在某些场合,排以及为重新归类分组等提供依据。在某些场合,排序本身就是分析的目的之一。序本身就是分析的目的之一。 排序可借助于计算机很容易地完成。对于数字型数排序可借助于计算机很容易地完成。对于数字型数据排序只有两种:递增和递减。市场调查中的数据据排序只有两种:递增和递减。市场调查中的数据许多是属于定性的,对于字母型数据排序也有升序许多是属
8、于定性的,对于字母型数据排序也有升序降序之分,但习惯上升序用得多些,因升序与字母降序之分,但习惯上升序用得多些,因升序与字母的自然顺序相同。汉字型数据的排序方式的自然顺序相同。汉字型数据的排序方式 最多,最多,按拼音方式排列与字母型数据排序完全一样,按拼音方式排列与字母型数据排序完全一样, 而而按笔画则有笔多少的升序降序之分。交替运用不同按笔画则有笔多少的升序降序之分。交替运用不同方式排序在汉字型数据的检错纠错过程中十分有用,方式排序在汉字型数据的检错纠错过程中十分有用,应予重视应予重视 。 统计分组是数据整理中的一项重要工作,它统计分组是数据整理中的一项重要工作,它是根据统计研究的需要,将数
9、据按照某种特是根据统计研究的需要,将数据按照某种特征或标准分成不同的组别。分组时所依据的征或标准分成不同的组别。分组时所依据的特征或标准称为统计分组标志,它有品质标特征或标准称为统计分组标志,它有品质标志和数量标志两种。志和数量标志两种。 品质标志是说明事物的性质和属性特征的,品质标志是说明事物的性质和属性特征的,它不能用数值来表现。数量标志是说明事物它不能用数值来表现。数量标志是说明事物数量特征的,它可以具体表现为数值。数量特征的,它可以具体表现为数值。 将统计数据按分组标志进行分组的过程,就将统计数据按分组标志进行分组的过程,就是次数分配形成的过程。次数分配就是观测是次数分配形成的过程。次
10、数分配就是观测值按其分组标志分配在各组内的次数。值按其分组标志分配在各组内的次数。2.1.3次数分配次数分配 按某种标志对数据进行分组后,再计算出所按某种标志对数据进行分组后,再计算出所有类别或数据在各组中出现的次数或频数,有类别或数据在各组中出现的次数或频数,就形成了一张频数分布表。我们把全部数据就形成了一张频数分布表。我们把全部数据按其分组标志在各组内的分布状况称为频数按其分组标志在各组内的分布状况称为频数分布或次数分布,分布在各组内的数据个数分布或次数分布,分布在各组内的数据个数称为频数或次数,各组频数与全部频数之和称为频数或次数,各组频数与全部频数之和的比值称为频率或比重。对数据进行分
11、组的的比值称为频率或比重。对数据进行分组的过程也就是频数分布的形成过程。过程也就是频数分布的形成过程。按品质标志分组的同时计算出各组的频数或频率,就形成我按品质标志分组的同时计算出各组的频数或频率,就形成我们所需要的频数分布表。们所需要的频数分布表。 1998年我国大陆人口按性别分组表年我国大陆人口按性别分组表按性别分组人数(万人)比重(%)男63 62950.98女61 18149.02合计124 810100 按数量标志分组时,可先将数据进行排序,然后再根据需要进行分组。按数量标志分组的方法很多,主要有两种:一是单变量值分组,二是组距分组。单变量值分组 单变量值分组是把每一个变量值作为一组
12、,单变量值分组是把每一个变量值作为一组,这种分组方法通常只适合于离散变量,且这种分组方法通常只适合于离散变量,且变量值较少的情况下使用。在数据较多的变量值较少的情况下使用。在数据较多的情况下,单变量值分组由于组数较多而不情况下,单变量值分组由于组数较多而不便于观察数据分布的特征和规律,而且对便于观察数据分布的特征和规律,而且对于连续变量或变量值较多的情况,可采用于连续变量或变量值较多的情况,可采用组距分组。组距分组。缺下限的组中值缺下限的组中值=本组上限本组上限-邻组组距邻组组距/2缺上限的组中值缺上限的组中值=本组下限本组下限+邻组组距邻组组距/2次数分配表次数分配表按零件加工数分组人数80
13、-90390-1007100-11013110-1205120-1302合计30分组数据的图示(直方图的绘制)某车间工人周加工零件直方图某车间工人周加工零件直方图某车间工人周加工零件直方图某车间工人周加工零件直方图某车间工人周加工零件直方图某车间工人周加工零件直方图我一眼就看出我一眼就看出来了,周加工来了,周加工零件在零件在100100110110之间的人之间的人数最多数最多! !809010011012013004812分组数据的图示(折线图的绘制)折线图与直方图下的面积相等!折线图与直方图下的面积相等!某车间工人周加工零件折线图某车间工人周加工零件折线图某车间工人周加工零件折线图某车间工人
14、周加工零件折线图某车间工人周加工零件折线图某车间工人周加工零件折线图809010011012013004812次数分配的类型对称分布对称分布对称分布右偏分布右偏分布右偏分布左偏分布左偏分布左偏分布正J型分布正正J J型分布型分布反J型分布反反J J型分布型分布U型分布U U型分布型分布几种常见的频数分布几种常见的频数分布几种常见的频数分布几种常见的频数分布几种常见的频数分布几种常见的频数分布根据单变量数列众数的确定根据单变量数列众数的确定某班学生按年龄分组某班学生按年龄分组按年龄分组(岁)按年龄分组(岁)人数(人)人数(人)1761814 19众数 18频数最大209213合计50iif按零件
15、加工数分组按零件加工数分组人数人数80-90390-1007100-11013110-1205120-1302合计合计30根据组距数列确定众数根据组距数列确定众数根据组距数列确定众数根据组距数列确定众数 下限公式: 上限公式:1011()()ffMLiffff 1011ffMUiffff组距分组众数的计算组距分组众数的计算件29.10410513713513110M上限公式:件29.10410513713713100下限公式:11101110iffffffUiffffffLM分组数据中位数的计算分组数据中位数的计算 单值分组:先根据公式单值分组:先根据公式N/2确定中位数的位置,确定中位数的位
16、置,再根据累计频数确定其所在组,对应的变量值即再根据累计频数确定其所在组,对应的变量值即为中位数。为中位数。 组距分组:先根据公式组距分组:先根据公式N/2确定中位数的位置,确定中位数的位置,再根据累计频数确定其所在组,然后采用下面公再根据累计频数确定其所在组,然后采用下面公式:式:N N为数据个数,为数据个数,L L为中位数所在组的下限,为中位数所在组的下限,S Sm-1m-1为中位数所在组以前各为中位数所在组以前各组的累积频数,组的累积频数, S Sm+1m+1为中位数所在组以后各组的累积频数,为中位数所在组以后各组的累积频数, f fm m为中为中位数所在组的频数,位数所在组的频数,i
17、i为中位数所在组的组距。为中位数所在组的组距。ifSNLMmme12ifSNUMmme12某车间工人周加工零件数计算表某车间工人周加工零件数计算表按加工数量分按加工数量分组组组中值组中值权数权数累积频数累积频数向上累积向上累积向下累积向下累积809085333090100957102710011010513232011012011552871201301252302合计30根据累积频数可确定中位数在第三组根据累积频数可确定中位数在第三组件8 .103101372301102件8 .103101310230100211ifSNUMifSNLMmmemme均均 值值加权均值的变形加权均值的变形11
18、2211122111121211111KKKiiKKKKkiiiiiiKKKKKiiiiiiKiiKiiiXFXFXFXFXFXFXFFFFFFFXXXFFFFXF加权几何均值: 调和均值:各变量值倒数的算术平均数的倒数. 简单调和均值: 加权调和均值:niinxnxxxnH1211111kiiikiikkkxmmxmxmxmmmmH11221121离散系数(例题分析)结论:结论:结论:结论: 计算结果表明,计算结果表明,v v1 1 v v2 2,说明产品销售额说明产品销售额的离散程度小于销售利润的离散程度的离散程度小于销售利润的离散程度v1=v v1 1= =536.25536.25536
19、.25309.19309.19309.19=0.577= =0.5770.577)(19.309)(25.53611万元万元sx)(19.309)(25.53611万元万元sxv2=v v2 2= =32.521532.521532.521523.0923.0923.09=0.710= =0.7100.710)(09.23)(5215.3222万元万元sx)(09.23)(5215.3222万元万元sx2.4分布偏态与峰度的测度分布偏态与峰度的测度偏态及其测度偏态及其测度 偏态是对分布偏斜方向及程度的测度。常用偏态系数。 当当a3=0时,为对称分布;时,为对称分布; a30时,为正偏或右偏分布
20、;时,为正偏或右偏分布;a30时,为负偏或左偏分布。时,为负偏或左偏分布。3133)(NFXXaKiii4144)(NFXXaKiii峰度及其测度峰度及其测度峰度是分布集中趋势高峰的形状。峰度系数: 正态分布的峰度系数为正态分布的峰度系数为3,当,当a43时为尖峰分布,时为尖峰分布,a43时为时为扁平分布。扁平分布。统计表统计表1. 是用于显示统计数据的基本工具是用于显示统计数据的基本工具2. 一般有四个主要的组成部分:表头、行标一般有四个主要的组成部分:表头、行标题、列标题和数字资料题、列标题和数字资料表头一般应包括表号、总标题和表中数据的单位等内容,表头一般应包括表号、总标题和表中数据的单
21、位等内容,标题内容应满足标题内容应满足3W(时间(时间When,地点地点Where以及何种以及何种数据数据 What)表中的上下两条横线一般用粗线,中间的其他线用细线,表中的上下两条横线一般用粗线,中间的其他线用细线,统计表的左右两边不封口,列标题之间一般用竖线分开,统计表的左右两边不封口,列标题之间一般用竖线分开,而行标题之间通常不必用横线隔开,表中数据一般是右而行标题之间通常不必用横线隔开,表中数据一般是右对齐,有小数点时应以小数点对齐,且小数点位数应统对齐,有小数点时应以小数点对齐,且小数点位数应统一,对于没有数据的单元格,一般用一,对于没有数据的单元格,一般用“”表示。表示。使用统计表
22、时,必要时可在表的下方加上必要的注释,使用统计表时,必要时可在表的下方加上必要的注释,特别要注意注明资料来源。特别要注意注明资料来源。年份年份城镇居民城镇居民农村居民农村居民 19911700.6 708.6 19922026.6 784.0 19932577.4 921.6 19943496.2 1221.0 19954283.0 1577.7 19964838.9 1926.1 19975160.3 2091.1 1991-1997年我国城乡居民家庭人均收入年我国城乡居民家庭人均收入 单位:元 行标题行标题表头表头列标题列标题数字资料数字资料统计图统计图 是统计数据直观的表现形式。可将复杂的数据用生动的图形表现出来,因而,汇制并使用好统计图就成为统计分析的基本功。 在Excel的“插入”功能中有个“图表”功能键,可以利用已有数据画出折线图、条形图、圆形图、环形图、雷达图等。 具有生动、形象、简单易懂的特点。折线图条形图我国国内生产总值(万元)年 份20062005第一产业24710.03 22607.80 第二产业101981.21 86237.83 第三产业82715.77 73475.36 合 计209407.00 182321.00 圆形图环形图茎叶图(stem-and-leaf display)1.用于显示未分组的原始数据的分布用于显示未分组的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年教育行业人才流失原因与吸引机制创新路径研究报告
- 2025年植物基因编辑技术在转基因植物抗病虫害育种中的应用成果鉴定报告
- 自卸吊车买卖合同协议书
- 泵车转卖合同协议书范本
- 防尘布工地销售合同范本
- 理疗店合伙协议合同范本
- 物业小区的广告合同协议
- 法院婚内财产协议书模板
- 竹制半成品采购合同范本
- 罗非鱼鱼苗订购合同范本
- 2025年施工员-土建方向-岗位技能(施工员)考试题库
- 河南省安阳市林州市2024-2025学年八年级下学期期末历史试卷 (含答案)
- 胸痛单元建设课件介绍
- 2025年广西中考语文试题卷(含答案)
- 2024广西专业技术人员继续教育公需科目参考答案(97分)
- 江苏省建筑与装饰工程计价定额(2014)电子表格版
- 湘少版小学全部英语单词
- 小学数学西南师大四年级下册八平均数小学数学西师版四年级下册《平均数》教学设计
- T-SDDA 0002-2021 住宅装饰装修工程质量验收标准
- 智慧机场贵宾厅建设方案
- CTPAT反恐文件1. 货物单据和文件记录安全控制程序
评论
0/150
提交评论