




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第三章 数据的图表展示主讲人:龚洁松3.1数据的预处理
3.2品质数据的整理与显示
3.3数值型数据的整理与显示
3.4合理使用图表学习目标了解数据预处理的内容和目的掌握分类和顺序数据的整理与显示方法掌握数值型数据的整理与显示方法用Excel、SPSS作频数分布表和图形合理使用图表3.1数据的预处理3.1.1数据审核3.1.2数据筛选3.1.3数据排序3.1.4数据透视表数据的预处理数据审核数据透视数据筛选数据排序检查数据中的错误找出符合条件的数据按需要汇总升序和降序寻找数据的基本特征数据审核原始数据的审核完整性审核应调查的单位或个体是否有遗漏所有的调查项目或变量是否填写齐全准确性审核数据是否真实反映实际情况,内容是否符合实际数据是否有错误,计算是否正确等二手数据的审核适用性审核弄清楚数据的来源、数据的口径以及有关的背景材料确定数据是否符合自己分析研究的需要时效性审核尽可能使用最新的数据确认是否有必要做进一步的加工整理数据筛选和排序数据筛选
(datafilter)当数据中的错误不能予以纠正,或者有些数据不符合调查的要求而又无法弥补时,需要对数据进行筛选数据筛选的内容将某些不符合要求的数据或有明显错误的数据予以剔除将符合某种特定条件的数据筛选出来,而不符合特定条件的数据予以剔除数据排序
(datarank)按一定顺序将数据排列,以发现一些明显的特征或趋势,找到解决问题的线索排序有助于对数据检查纠错,以及为重新归类或分组等提供依据在某些场合,排序本身就是分析的目的之一排序可借助于计算机完成数据透视…稍后介绍数据透视表
(pivottable)可以从复杂的数据中提取有用的信息可以对数据表的重要信息按使用者的习惯或分析要求进行汇总和作图形成一个符合需要的交叉表(列联表)在利用数据透视表时,数据源表中的首行必须有列标题数据的整理与显示
(基本问题)要弄清所面对的数据类型不同类型的数据,采取不同的处理方式和方法对分类数据和顺序数据主要是作分类整理对数值型数据则主要是作分组整理适合于低层次数据的整理和显示方法也适合于高层次的数据;但适合于高层次数据的整理和显示方法并不适合于低层次的数据3.2品质数据的整理与展示3.2.1分类数据的整理与图示3.2.2顺序数据的整理与图示品质数据的整理与图示分类数据的整理
(基本过程)列出各类别计算各类别的频数制作频数分布表用图形显示数据分类频数比例百分比比率ABCDE可计算的统计量假设某样本的N个数据被分成K个部分,每一部分的数据分别为N1,N2,…,NK.频数(frequency)
:落在各类别中的数据个数,即Ni比例(proportion)
:某一类别数据个数占全部数据个数的比值,即Ni/N百分比(percentage)
:将对比的基数作为100而计算的比值,即(Ni/N)×100%比率(ratio)
:不同类别数值个数的比值,即Ni︰Nj图示1:条形图用宽度相同的条形的高度或长短来表示各类别数据的图形有单式条形图、复式条形图等形式主要用于反映分类数据的频数分布绘制时,各类别可以放在纵轴,称为条形图(barchart),也可以放在横轴,称为柱形图(columnchart)图示2:复式条形图分类变量在不同时间或不同空间上有多个取值对比分类变量的取值在不同时间或不同空间上的差异或变化趋势电脑品牌一季度二季度联想256468IBM285397康柏247328戴尔563688帕累托图与条形图的区别条形按频数从高到低排序右侧纵轴有频率(百分比)有一条逐渐上升的线段图示3:帕累托图按各类别数据出现的频数多少排序后绘制的柱形图主要用于展示分类数据的分布同时用线段的逐渐上升趋势表现累计百分比的过程可用于区分影响某个现象的主要因素和次要因素图示4:饼图也称圆形图,是用圆形及圆内扇形的角度来表示数值大小的图形主要用于表示样本或总体中各组成部分所占的比例,用于研究结构性问题绘制圆形图时,样本或总体中各部分所占的百分比用圆内的各个扇形角度表示,这些扇形的中心角度,按各部分数据百分比乘以360°确定图示5:环形图环形图中间有一个“空洞”,样本或总体中的每一部分数据用环中的一段表示与饼图类似,但又有区别饼图只能显示一个总体各部分所占的比例环形图则可以同时绘制多个样本或总体的数据系列,每一个样本或总体的数据系列为一个环用于结构比较研究用于展示分类和顺序数据8%36%31%15%7%33%26%21%13%10%
非常不满意
不满意
一般
满意
非常满意
甲乙两城市家庭对住房状况的评价3.3
数值型数据的整理与展示3.3.1数据分组3.3.2数值型数据的图示数据分组每一个变量值作为一组只适合于离散变量适合于变量值较少的情况.将全部变量值依次划分为若干个区间,每一个区间的变量值作为一组.单变量分组组距分组组距分组将变量值的一个区间作为一组适合于连续变量、离散变量值较多的情况需要遵循“不重不漏”的原则可采用等距分组,也可采用异距分组等距分组适用于变量值变动比较均匀的情况;异距分组适应于变量值分布存在明显的偏斜、变量值变异范围较大,按一定比例发展变化的情况。思考题:等距还是异距?123安徽省人口的年龄学生的考试成绩上海市居民的个人收入数据分组组距分布步骤1、确定组数4、确定组中值和累计频数表2、确定组距和组限3、频数分布表组数一般与数据分布的特征及数据的多少有关组距=上限-下限根据情况需要如计算平均值、标准差等使用Excel频数函数(FREQUENCY)【例3.6】某电脑公司2005年前四个月各天的销售量数据(单位:台)。试对数据进行分组频数分布表编制例题确定组数 组数的确定应以能够显示数据的分布特征和规律为目的一般情况下,组数不应少于5组,也不应多于15组。斯特杰斯经验公式:不能生搬硬套确定组距与组限1.下限(lowlimit):一个组的最小值2.上限(upperlimit):一个组的最大值组距(classwidth):上限与下限之差“XX以上”叫做缺上限开口组 “XX以下”叫做缺下限开口组上限不在内该组的最大值不在该组,应归类到下一组中编制频数分布表 使用统计函数【FREQUENCY】创建频数分布表和直方图的具体步骤是选择与接受区域(即分段点区域)相临近的单元格区域,作为频数分布表输出的区域选择统计函数中的【FREQUENCY】函数.在对话框【Date-array】后输入数据区域,在【Bins-array】后输入接受区域(分段点区域).同时且快速按下“ctrl-shift-Enter”组合键,即得到频数分布.等距分组表
(上下组限重叠)等距分组表
(上下组限间断)等距分组表
(使用开口组)整理累计频数分配表1、将各组的频数逐组累积相加而成累积频数分布,它表明总体在某一变量值的某一水平上下总共包含的总体频数2、“向上累积”:由变量值低的组向变量值高的组逐组累积 “向下累积”:由变量值高的组向变量值低的组逐组累积确定组中值确定组中值:各组变量值范围的中间数值1、组中值=(上限+下限)/22、当各组变量值均匀分布时,组中值就能较强地代表各组变量值的平均水平。因此分组时,应尽可能使组内各单位变量值分布均匀3、开口组组中值的确定:
缺上限的开口组组中值=下限﹢邻组组距/2
缺下限的开口组组中值=上限﹣邻组组距/2已分组数据的图示图示1:直方图用于展示数值数据分布的一种图形用矩形的宽度和高度来表示频数分布本质上是用矩形的面积来表示频数分布在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图纵轴表示频率,直方图下的总面积等于1直方图的绘制140150210直方图下的面积之和等于1某电脑公司销售量分布的直方图我一眼就看出来了,销售量在170~180之间的天数最多!190200180160170频数(天)25201510530220230240直方图与条形图的区别条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义直方图的各矩形通常是连续排列,条形图则是分开排列条形图主要用于展示分类数据,直方图则主要用于展示数值型数据图示2:折线图折线图也称次数多边形图是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉折线图的两个终点要与横轴相交,具体的做法:第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的折线图的绘制折线图与直方图下的面积相等!频数分配曲线的类型正态分布右偏分布左偏分布正J型分布反J型分布U型分布几种常见的频数分布未分组数据的图示图示3:茎叶图用于显示未分组的原始数据的分布由“茎”和“叶”两部分构成,其图形是由数字组成的以该组数据的高位数值作树茎,低位数字作树叶树叶上只保留最后一位数字茎叶图类似于横置的直方图,但又有区别直方图可观察一组数据的分布状况,但没有给出具体的数值茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息直方图适用于大批量数据,茎叶图适用于小批量数据茎叶图某电脑公司销售量分布的茎叶图扩展的茎叶图某电脑公司销售量分布的扩展茎叶图图示4:箱线图用于显示未分组的原始数据的分布箱线图是由一组数据的最大值(maximum)、最小值(minimum)、中位数(median)、两个四分位数(quartiles)这5个值绘制而成的中位数是一组数据排序后处于中间位置上的变量值四分位数是一组数据排序后处在数据25%位置和75%位置上的两个分位数值绘制方法首先找出一组数据的5个特征值,即最大值、最小值、中位数Me和两个四分位数(下四分位数QL和上四分位数QU)连接两个四分位数画出箱子,再将两个极值点与箱子相连接.箱线图的构成中位数4681012Q75%Q25%XMaxXMinMedian/Quart./Range箱线图箱线图的应用最小值141最大值237中位数18225%四分位数170.2575%四分位数197140150160170180190200210220230240某电脑公司销售额数据的Median/Quart./Rang箱线图分布的形状与箱线图不同分布的箱线图对称分布左偏分布右偏分布多批数据箱线图【例2.6】
从某大学经济管理专业二年级学生中随机抽取11人,对8门主要课程的考试成绩进行调查,所得结果如表。试绘制各科考试成绩的批比较箱线图,并分析各科考试成绩的分布特征11名学生各科的考试成绩数据课程名称学生编号1234567891011英语经济数学西方经济学市场营销学财务管理基础会计学统计学计算机应用基础76659374687055859095818775739178975176857092688171748869846573957078669073788470936379806087816786918377769070828382928481706972787578918866948085718674687962818155787075687177多批数据箱线图–
从科目多批数据箱线图–
从学生箱线图—K线图
(上证指数K线图)箱线图—K线图
(上证指数K线图)数据类型及图示
(小结)3.4
合理使用图表3.4.1鉴别图形优劣的准则3.4.2统计表的设计鉴别图表优劣的准则一张好的图表应包括以下基本特征显示数据让读者把注意力集中在图表的内容上,而不是制作图表的程序上避免歪曲强调数据之间的比较服务于一个明确的目的有对图表的统计描述和文字说明5种鉴别图表优劣的准则:一张好的图表应当精心设计、有助于洞察问题的实质使复杂的观点得到简明、确切、高效的阐述能在最短的时间内以最少的笔墨给读者提供最大量的信息是多维的表述数据的真实情况鉴别图表优劣的准则合理安排统计表的结构总标题内容满足3W(When、Where、What)要求数据计量单位相同时,可放在表的右上角标明;不同时应放在每个变量后或单列出一列标明表中的上下两条横线一般用粗线,其他线用细线通常情况下,统计表的左右两边不封口表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一当数字为“0”时,应填写“0”当数字缺乏或者未记录时,应填写“……”当不应有数字时,应填写“——”表中,数字部分不应留白;且不应出现“同上”“同左”等字样。必要时可在表的下方加上注释统计表的结构2002~2003年安徽省城镇居民家庭抽样调查资料项目单位2002年
2003年
调查户数平均每户家庭人口平均每户就业人口平均每户就业面平均一名就业者负担人数平均每人全部年收入#可支配收入
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 公司茶艺活动策划方案
- 公司春节游园活动方案
- 公司聚会创意活动方案
- 公司无人文关怀活动方案
- 公司端午宣传活动方案
- 公司舞会活动方案
- 公司春节留守活动方案
- 公司景区活动策划方案
- 公司热极年会活动方案
- 公司知识闯关活动方案
- 供水加压泵站管理制度
- 保险公司保密管理制度
- 2025年执业药师资格证之《西药学专业一》预测试题附答案详解【模拟题】
- 一体化政务大数据体系建设实践指南1.0
- 2025年湖北省高考地理试卷真题(含答案解析)
- 机动车交通事故责任纠纷民事起诉状(模板)
- 筒仓使用安全管理规程
- 门诊病历的与处方书写规范课件
- 人教版小学五下数学第九单元:总复习教学计划
- 大学生选课申请表
- GB∕T 24202-2021 光缆增强用碳素钢丝
评论
0/150
提交评论