统计数据的整理和显示_第1页
统计数据的整理和显示_第2页
统计数据的整理和显示_第3页
统计数据的整理和显示_第4页
统计数据的整理和显示_第5页
已阅读5页,还剩86页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计学Statistics

第三章统计数据的整理与显示第一节数据资料整理的意义与程序

第二节品质数据的整理与显示

第三节数值数据的整理与显示

第四节统计表★统计整理统计调查客观现象数量表现统计总体数量特征统计研究的程序统计研究目的统计设计推断分析描述分析学习目标了解数据预处理的内容和目的掌握分类和顺序数据的整理与显示方法掌握数值型数据的整理与显示方法合理使用统计表一、数据资料整理的意义

★统计整理将统计调查得到的原始资料进行科学的分组和汇总形成综合统计资料的工作过程统计调查的继续,统计分析的前提和根底意义和地位统计整理是积累历史资料的必要手段数据整理是对调查资料进行科学加工,使之系统化,成为说明总体特征的综合资料分类数据整理—频数分布表

(例题分析)【例】一家市场调查公司为研究不同品牌饮料的市场占有率,对随机抽取的一家超市进行了调查。调查员在某天对50名顾客购置饮料的品牌进行了记录,如果一个顾客购置某一品牌的饮料,就将这一饮料的品牌名字记录一次。右边就是记录的原始数据

用Excel制作频数分布表绿色健康饮品编制等距数列适用于总体单位的标志值变动比较均匀的情况实例己知某地区某年50个商店商品销售额的资料如下〔单位:百万元〕:7.412.629.02.012.47.014.817.515.018.218.715.512.826.017.38.314.712.03.56.825.019.36.44.011.98.513.214.517.115.613.44.59.520.015.76.011.423.014.216.721.016.013.610.013.95.05.810.516.322.0要求编制组距数列。二、数据资料整理的内容和程序统计数据的处理:

统计资料的分组、汇总及制表统计数据的管理:

数据的传输、贮存、更新及输出整理的内容设计制定数据整理方案对原始资料进行审核数据处理(筛选、排序〕制作统计表或统计图

统计整理的步骤数据资料审核

第一,统计资料的完备性检查应调查的单位或个体是否有遗漏所有的调查工程或指标是否填写齐全数据审核内容原始数据(rawdata)审核第二,统计资料的及时性第三,统计资料的准确性从理论上或常识上检查资料是否有悖常理、有无不切实际或不符合逻辑的地方。工程之间有无相互矛盾检查各项指标的计算口径、计量单位是否符合实际符合规定,检查各指标间的数字是否相互衔接计算是否正确。数据审核内容逻辑检查计算检查

二手数据(secondhanddata)审核适用性审核

弄清楚数据的来源、数据的口径以及有关的背景材料

确定数据是否符合自己分析研究的需要

时效性审核*

尽可能使用最新的数据

确认是否有必要做进一步的加工整理

数据的筛选对审核过程中发现的错误应尽可能予以纠正当发现数据中的错误不能予以纠正,或者有些数据不符合调查的要求而又无法弥补时,需要对数据进行筛选数据筛选的内容包括:将某些不符合要求的数据或有明显错误的数据予以剔除将符合某种特定条件的数据筛选出来,而不符合特定条件的数据予以剔出数据排序

按一定顺序将数据排列,以发现一些明显的特征或趋势,找到解决问题的线索排序有助于对数据检查纠错,以及为重新归类或分组等提供依据在某些场合,排序本身就是分析的目的之一排序可借助于计算机完成数据排序方法

分类数据的排序字母型数据,排序有升序降序之分,但习惯上用升序汉字型数据,可按汉字的首位拼音字母排列,也可按笔画排序,其中也有笔画多少的升序降序之分数值型数据的排序递增排序:设一组数据为x1,x2,…,xn,递增排序后可表示为:x(1)<x(2)<…<x(n)递减排序:可表示为:x(1)>x(2)>…>x(n)

三、数据分组与频数分布

将总体中所有单位按一定的标志分为性质不同但又有联系的若干部分的过程统计分组统计分组的作用:总体经过分组,能够突出组与组之间的差异而抽象掉组内各单位之间的差异,使数据变得条理化,便于进一步分析研究。划分社会经济现象的类型反映社会经济现象的内部结构和比例关系揭示社会经济现象之间的相互依存关系选择分组标志确定分组体系总体单位归类科学性:组间差异大,组内差异小。完备性和互斥性:每个单位均能且只能归到某个组中。统计分组的程序与原那么对大学生月生活费支出情况进行分组研究:按家庭收入水平分组;按城乡分组;按性别分组;按年龄分组。?统计分组的程序与原那么对父母亲下岗情况进行分组研究:单亲下岗;双亲下岗;双亲在岗。不符合科学性不符合完备性和互斥性城乡区别离退休是否健在?统计分组的程序与原那么分组体系指同时使用两个以上标志分组时,分组标志的组合形式。各分组标志并列使用各分组标志交叉结合使用平行分组体系交叉分组体系平行分组体系对教师的分类按性别分类男性女性按职称分类按年龄分类高级中级初级青年中年共计7组2+3+2复合分组体系按性别分类按职称分类按年龄分类男女高级中级初级青年中年共计12组2×3×2对教师的分类

第三章统计数据的整理与显示★第一节数据资料整理的意义与程序第二节

品质数据的整理与显示第三节数值数据的整理与显示

第四节统计表★分类数据的整理与图示分类数据的整理〔根本过程〕1. 列出各类别

2.计算各类别的频数3.制作频数分布表4.用图形显示数据分类频数比例百分比比率ABCDE分类数据的整理〔可计算的统计量〕频数(frequency):落在各类别中的数据个数比例(proportion):某一类别数据占全部数据的比值百分比(percentage):将比照的基数作为100而计算的比值比率(ratio):不同类别数值的比值分类数据整理—频数分布表

(例题分析)【例】一家市场调查公司为研究不同品牌饮料的市场占有率,对随机抽取的一家超市进行了调查。调查员在某天对50名顾客购置饮料的品牌进行了记录,如果一个顾客购置某一品牌的饮料,就将这一饮料的品牌名字记录一次。右边就是记录的原始数据

用Excel制作频数分布表绿色健康饮品分类数据的图示—条形图用宽度相同的条形的高度或长短来表示各类别数据的图形有单式条形图、复式条形图等形式主要用于反映分类数据的频数分布绘制时,各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图(barChart)分类数据的图示—条形图

(例题分析)分类数据的图示—饼图

也称圆形图,是用圆形及圆内扇形的面积来表示数值大小的图形主要用于表示总体或样本中各组成局部所占的比例,对于研究结构性问题十分有用绘制圆形图时,总体中各局部所占的百分比用圆内的各个扇形面积表示,这些扇形的中心角度,是按各局部数据百分比占3600的相应比例确定的(pieChart)分类数据的图示—饼图

(例题分析)定序数据的整理与图示定序数据的整理

(可计算的统计量)1.累积频数(cumulativefrequencies):各类别频数的逐级累加2.累积频率(cumulativepercentages):各类别频率(百分比)的逐级累加

顺序数据的频数分布表

(例题分析)【例】在一项城市住房问题的研究中,研究人员在甲乙两个城市各抽样调查300户,其中的一个问题是:“您对您家庭目前的住房状况是否满意?1.非常不满意2.不满意3.一般4.满意5.非常满意。甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)百分比(%)向上累积向下累积户数(户)百分比(%)户数(户)百分比(%)

非常不满意

不满意

一般

满意

非常满意24108934530

836311510

24132225270300

8.044.075.090.0100.03002761687530100.092562510合计300100.0————顺序数据的频数分布表

(例题分析)乙城市家庭对住房状况评价的频数分布回答类别乙城市户数(户)百分比(%)向上累积向下累积户数(户)百分比(%)户数(户)百分比(%)

非常不满意

不满意

一般

满意

非常满意21997864387.033.026.021.312.7211201982623007.040.066.087.3100.030027918010238100.093.060.034.012.7合计300100.0————顺序数据的图示—累计频数分布图

(例题分析)243001322252700100200300400

非常不满意

不满意

一般

满意

非常满意累积户数(户)(a)向上累积27616830300750100200300400

非常不满意

不满意

一般

满意

非常满意累积户数(户)(b)向下累积甲城市家庭对住房状况评价的累积频数分布环形图

(annularchart)环形图中间有一个“空洞〞,总体中的每一局部数据用环中的一段表示环形图与圆形图类似,但又有区别圆形图只能显示一个总体各局部所占的比例环形图那么可以同时绘制多个总体的数据系列,每一个总体的数据系列为一个环环形图可用于结构比较研究环形图主要用于展示分类和顺序数据8%36%31%15%7%33%26%21%13%10%

非常不满意

不满意

一般

满意

非常满意

图3-4甲乙两城市家庭对住房状况的评价数值型数据的整理与图示

〔定距数据与定比数据〕变量数列品质数列将总体各单位按某个标志分成若干组,列出各组的总体单位数或各组在总体中所占的比重而形成的数列分布数列分类分组标志的具体表现各组的次数或频率构成要素异距数列等距数列组距数列单值数列单值数列指每个组值只用一个具体的变量值表现的数列同时具备变量数列的编制变量是离散变量变量的不同取值个数较少编制条件:【例】己知某车间有24名工人,他们的日产量〔件〕分别是:20,23,20,24,23,21,22,25,26,20,21,21,22,22,23,22,22,24,25,21,22,21,24,23.要求根据以上资料编制变量数列。日产量(件)X工人数(人)f202122232425263564321合计24编制结果如下:组距数列指每个组的变量值用一个区间来表现的变量数列变量数列的编制变量是连续变量;或:总体单位数较多变量不同取值个数也较多的离散变量。

编制条件:变量值变动区间的长度相等变量值变动区间的长度不完全相等等距数列异距数列相关概念指每组两端表示各组界限的变量值,各组的最小值为下限(lowlimit)

,最大值为上限(upperlimit)

组限每组变量值变动区间的长度,为上下限之差组距每组变量取值范围的中点数值组中值组中值=(ClassWidth)(classmidpoint)某地区100个百货商店月销售额与流通费用情况销售额(万元)商店数(个)每百元商品销售额中支付的流通费(元)50以下50~100100~200200~300300以上102030251514.211.410.19.28.5上组限U下组限L如:组距d=U-L=100-50=50〔万元〕如:组中值x=(U+L)/2=(100+200)/2=150〔万元〕开口组距数列组中值的计算:

首组假定下限=首组上限-相邻组组距末组假定上限=末组下限+相邻组组距先计算开口组的假定上、下限:

因此有:首组组中值末组组中值编制等距数列适用于总体单位的标志值变动比较均匀的情况实例己知某地区某年50个商店商品销售额的资料如下〔单位:百万元〕:7.412.629.02.012.47.014.817.515.018.218.715.512.826.017.38.314.712.03.56.825.019.36.44.011.98.513.214.517.115.613.44.59.520.015.76.011.423.014.216.721.016.013.610.013.95.05.810.516.322.0要求编制组距数列。编制步骤:⒈求变异全距⒉确定组距及组数确定组距的原则:要能区分各组的性质差异要能反映总体资料的分布特征为方便计算,尽可能为5或10的整数倍R≤组距(d)×组数〔m)编制等距数列计算组数〔组数不宜过多,也不宜太少〕上例中,取d=5,那么有编制等距数列(当的结果为整数时)(当的结果为小数时)组数确实定应以能够显示数据的分布特征和规律为目的。在实际分组时,可以按Sturges提出的经验公式来确定组数K组距分组

〔要点〕将变量值的一个区间作为一组适合于连续变量适合于变量值较多的情况必须遵循“不重不漏〞的原那么可采用等距分组,也可采用不等距分组~~~~~⒊确定组限对于离散变量,相邻组组限可以间断,也可重叠;对于连续变量,相邻组组限必须重叠;符合“上组限不计入”原则;首末两组可使用“××以下”及“××以上”的开口组。组限的表示方法编制等距数列等距分组表

〔上下组限重叠〕表3-5某车间50名工人日加工零件数分组表按零件数分组频数(人)频率(%)105~110110~115115~120120~125125~130130~135135~140358141064610162820128合计50100等距分组表

〔上下组限间断离散变量〕表3-6某车间50名工人日加工零件数分组表按零件数分组频数(人)频率(%)105~109110~114115~119120~124125~129130~134135~139358141064610162820128合计50100等距分组表

〔使用开口组〕表3-7某车间50名工人日加工零件数分组表按零件数分组频数(人)频率(%)110以下110~114115~119120~124125~129130~134135以上358141064610162820128合计50100统计图以点、线条、面积等方法描述、显示统计数据的形式具有直观、醒目、易于理解等特点组成:坐标系图形图例单式图复合图叠加图一个图只用来显示一种现象的数量特征用一个图同时显示几种数量的分布或变化情况几种常用的统计图条形图(Bar)用于显示离散型变量的次数分布几种常用的统计图条形图〔Bar〕用于显示离散型变量的次数分布几种常用的统计图条形图〔Bar〕用于显示离散型变量的次数分布条形图〔Bar〕用于显示离散型变量的次数分布直方图(

Histogram

)用于显示连续型变量的次数分布直方图条形图圆形图(饼图

Pie

)用于显示定类变量的次数分布线图(Line)主要用于显示连续型变量的次数分布和现象的动态变化散点图(Scatter)主要用来观察变量间的相关关系,也可显示数量随时间的变化情况数值型数据的图示

用Excel作图以下图形均由计算机绘制!ExcelSTATISTICA分组数据—直方图

〔直方图的绘制〕频数(人)1512963日加工零件数(个)图3-5某车间工人日加工零件数的直方图我一眼就看出来了,大多数人的日加工零件数在120~125之间!分组数据—直方图

〔直方图与条形图的区别〕条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)那么是固定的直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度那么表示各组的组距,其高度与宽度均有意义直方图的各矩形通常是连续排列,条形图那么是分开排列分组数据—折线图

〔折线图的制作〕折线图也称频数多边形图(Frequencypolygon)是在直方图的根底上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉折线图的两个终点要与横轴相交,具体的做法是第一个矩形的顶部中点通过竖边中点〔即该组频数一半的位置〕连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的1512963105110115120125130135140日加工零件数(个)频数(人)折线图下的面积与直方图的面积相等!分组数据—折线图

〔折线图的绘制〕图3-6某车间工人日加工零件数的折线图未分组数据—箱线图

〔箱线图的制作〕用于显示未分组的原始数据或分组数据的分布箱线图由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成其绘制方法是:首先找出一组数据的5个特征值,即最大值、最小值、中位数Me和两个四分位数(下四分位数QL和上四分位数QU〕连接两个四分〔位〕数画出箱子,再将两个极值点与箱子相连接未分组数据—单批数据箱线图

〔箱线图的构成〕中位数4681012QUQLX最大值X最小值简单箱线图分布的形状与箱线图

对称分布QL中位数

QU左偏分布QL中位数

QU右偏分布QL

中位数

QU不同分布的箱线图未分组数据—多批数据箱线图

〔实例〕【例】从某大学经济管理专业二年级学生中随机抽取11人,对8门主要课程的考试成绩进行调查,所得结果如表。试绘制各科考试成绩的批比较箱线图,并分析各科考试成绩的分布特征表11名学生各科的考试成绩数据课程名称学生编号1234567891011英语经济数学西方经济学市场营销学财务管理基础会计学统计学计算机应用基础7665937468705585909581877573917897517685709268817174886984657395707866907378847093637980608781678691837776907082838292848170697278757

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论