版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第 3 章 数据的图表展示,3.1 数据的预处理 3.2 品质数据的整理与展示 3.3 数值型数据的整理与展示 3.4 合理使用图表,3.1 数据的预处理, 数据的审核 检查数据中的错误 数据的筛选 找出符合条件的数据 数据排序 升序和降序 数据透视表 提取有用的信息,3.1.1 数据审核,1. 原始数据,审核的内容 (1)完整性审核 检查应调查的单位或个体是否有遗漏 所有的调查项目或指标是否填写齐全 (2)准确性审核 检查数据是否有错误,计算是否正确等. 检查数据是否真实反映客观实际情况,内容是否符合实际.,数据的审核原始数据,审核数据准确性的方法 逻辑检查 从定性角度,审核数据是否符合逻辑
2、,内容是否合理,各项目或数字之间有无相互矛盾的现象 主要用于对分类和顺序数据的审核 计算检查 检查调查表中的各项数据在计算结果和计算方法上有无错误 主要用于对数值型数据的审核,2.二手数据,(1)适用性审核 应清楚数据的来源、数据的口径以及有关的背景材料,从 而确定数据是否适合自己分析研究的需要. (2)时效性审核 数据是否过于滞后,尽可能使用最新的数据.,例如:消费者可以按月收入的高低分类,一项研究要了解月收入在1200元以上和8000元以下的消费者人数 二手资料中收入段的划分是:200元以下,200399元, 400 599元, 600 799元, 800 999元, 1000 1499元
3、, 1500 2499元, 2500 3999元, 4000 5999元, 6000 8999元,9000元以上 请问适用性如何? 只能提供1500 8999元收入的人数,不能提供1200 1499元和6000 7999元收入的人数。,数据的审核二手数据,数据筛选是根据需要选出符合特定条件或要求的数据, 可 采用excel进行数据的筛选工作.,3.1.2 数据筛选,例3.1,表3-1是 8 名学生4门课程的考试成绩数据,试找出统计 学成绩等于75分的学生,英语成绩最高的前三名学生,4门课 程的考试都大于70 分的学生. 表3-1 8名学生的考试成绩,1 找出统计学成绩等于75分的学生,(1)
4、选择【数据】菜单,并选择【筛选】命令. 要筛选出满足 条件的数据,可使用【自动筛选】命令,见图3-1.,图3-1 excel的数据筛选命令,(2),这时在第一行出现向下箭头,单击统计学成绩这一列的箭头 后出现图3-2的结果.,图3-2 自动筛选过程,(3),选择 75 则得结果如图3-3所示结果.,图3-3 自动筛选结果,2 找出英语成绩最高的前三名学生,(1)选择【数据】菜单,并选择【筛选】命令与使用【自动筛选】命令. (2)筛选英语成绩的前三名学生时,单击英语成绩这一列的 箭头,选择【前10个】,在对话框中选择“最大”并输入“3”.,图3-4 指定条件的自动筛选过程,英语成绩最高的前三名学
5、生,(3) 所得结果如下.,3 找出4门课程的考试都大于70 分的学生,(1)筛选4门课程的考试都大于70 分的学生,应选择【高 级筛选】命令. (2)使用高级筛选命令时,需要给出应满足的条件.本例是 要筛选4门课程的考试都大于70 分的学生,如下图所示.,(3),在高级筛选对话框中给出【数据区域】和【条件区域】,见图3-5.,图3-5 多条件的高级筛选过程,(4),结果如图3-6所示.,图3-6 高级筛选结果,3.1.3 数据排序,数据排序就是按一定顺序排列数据 主要作用: (1)发现数据的变化趋势. (2)为分类或分组提供依据. (3)直接利用排序结果作分析. 排序可借助于计算机完成 方法
6、: (1)分类数据按字母顺序或笔画多少排序 (2)数值型数据按数值大小排序,3.1.4 数据透视表,利用excel的【数据透视表】工具,可以对数据表按使用者 的要求进行汇总和作图,形成一张交叉表(列联表). 利用数据透视表时, 数据表应有列标题. 例3.2 从某大学随机抽取30名学生,调查他们的性别、家 庭所在地、平均月生活费支出、平均每月购买衣物支出和购买 衣物时所考虑的首选因素等, 数据列于表3-2. 试以性别和购买 衣物时所考虑的首选因素为行变量, 以家庭所在地为列变量, 对 平均月生活费支出和平均每月购买衣物支出进行交叉汇总.,表 3-2 随机抽取30名学生的调查数据,(1),选择【数
7、据】菜单,并选择【数据透视表和数据透视图】命令.,(2),图3-7 【数据透视表和数据透视图向导3步骤之1】对话框,在对话框(图3-7)中, 根据需要选择相应的“数据源类型”和“报表类型”.这里选择【microsoft office excel 数据列或数据源】和【数据透视表】.,(3),图3-8 【数据透视表和数据透视图向导3步骤之2】对话框,单击【下一步】,得对话框(图3-8)如下.确定数据源区域(本例为a1-f31).,(4),图3-9 【数据透视表和数据透视图向导3步骤之3】对话框,单击【下一步】, 得对话框(图3-9)如下,在对话框中选择透视表的输出位置(本例为h1).,(5),选择
8、【布局】, 得对话框(图3-10)如下.,图3-10 【数据透视表和数据透视图向导布局】对话框,(6),在图3-11中,先把“性别”和“购买衣物首选因素”安排为“行”,然后把“家庭所在地”安排为“列”,最后把“平均月生活费”和“月平均衣物支出”安排为“数据”,图3-11 选择行、列和数据,(7),单击【确定】后自动返回【数据透视表和数据透视图向导3步骤之3】,然后单击【完成】,即得数据透视表 (图3-12).,图3-12 根据要求建立的数据透视表,3.2 品质数据的整理与展示,不同类型的数据,所采取的处理方式和方法是不同的 (1)对分类数据和顺序数据主要是做分类整理 (2)对数值型数据则主要是
9、做分组整理 适合于低层次数据的整理和显示方法也适合于高层次的数 据;但适合于高层次数据的整理和显示方法并不适合于低层次 的数据.,3.2.1 分类数据的整理与图示,1.频数与频数分布,(1)频数(frequency) 每一类别包含的数据个数称为频 数.各类别及相应的频数,称为频数分布.频数分布表制作步骤 ()列出各类别 ()计算各类别的频数或频率 ()制作频数分布表 ()并可用图形显示数据,例 3.3,一家市场调查公司为研究不同品牌饮料的市场占有率,对 随机抽取的一家超市进行了调查. 调查员在某天对 50 名顾客 购买饮料的品牌进行了记录, 如果一个顾客购买某一品牌的饮 料,就将这一饮料的品牌
10、名字记录一次. 表3-3 就是记录的原 始数据. 为了用 excel 建立频数分布表,把饮料的品牌用代码表示,即 1.可口可乐 2.旭日升冰茶 3.百事可乐 4.汇源果汁 5.露露,表 33顾客购买饮料的品牌名称,用excel 建立频数分布表和条形图的步骤,步骤 1 把饮料的品牌用代码表示,步骤 2,选择【工具】下拉菜单,并选择【数据分析】命令.,步骤 3,在【数据分析】对话框中,选择【直方图】,并单击【确定】.,步骤 4,当出现对话框时 (1)在【输入区域】内输入各饮料的代码. (2)在【接收区域】内输入各组的组限. (3)在【输出区域】内输入放置输出结果的开始位置. (4)选择【图表输出】
11、( 还可以根据需要同时选择【累积百分率】等项 ). (5)单击【确定】.,图3-13 excel 输出的频数分布,表3-4 不同品牌饮料的频数分布表,利用excel求频数,利用excel的统计函数“countif”,可以计算指定范围内的单元数.例如求例3-3中“可口可乐”的频数,统计步骤如下.,(1),选择【插入】下拉菜单,并选择【函数】命令.,(2),在【插入函数】对话框中,选择类别为【统计】,并选择函数【countif】.,(3),在【函数参数】对话框中,在【range】中输入数据区域“a2-a51”,并在【criteria】中输入相应条件“可口可乐”.,(4),求得 “可口可乐”的频数为
12、15.,(2)比例( proportion ),(3)百分比( percentage),百分比是用百分数表示的比例,例如合格率、升学率等,并 且百分数之和为100.,(4)比率(ratio),2.分类数据的图示,(1)条形图(bar chart),用同宽度条形的高度或长短来表示各类别数据的频数或频 率分布的图形.主要用于反映分类数据的频数分布. 有单式条形图、对比条形图(对比分类变量的取值在不同 时间或不同空间上的差异或变化趋势)等形式. 各类别可以放在纵轴,称为条形图.也可以放在横轴,通常 称为柱形图(column chart).,用excel 建立柱形图的步骤,(1)选择【插入】菜单,并选
13、择【图表】命令. (2)在【图表向导】对话框中,选择【柱形图】和所需的图 形. (3)当出现对话框时,在【数据区域】内输入各饮料的名称 及相应的频数,单击【下一步】. (4)单击【标题】选项,在【图表标题】框中输入“不同品 牌饮料的柱形图”,在【分类(x)轴】框中输入“品牌名称”,在 【数值(y)轴】框中输入“频数”,单击【下一步】. (5)最后单击【完成】.,例3-3的柱形图,品牌名称,频数,图3-14 不同品牌饮料的柱形图,对比条形图(side-by side bar chart),当分类变量在不同时间或空间上有多个取值时,可以采用对 比条形图表示在不同时间或空间上的差异或变动.,例3.4
14、,一家电脑公司在一、二季度的4种品牌电脑的销售情况如下(表3-5),试给出对比条形图. 表3-5 不同品牌电脑的销售数据,图3-15 电脑销售量的对比条形图,图3-15 电脑销售量的对比条形图,(2)帕累托图(pareto chart),帕累托图是按各类别的频数大小排列的柱形图. 对表3-4 不同品牌饮料的频数分布, 相应的帕累托图如下(图3-16),图3-16 不同品牌饮料的帕累托图,(3)饼图(pie chart),也称圆形图,是用圆形及圆内扇形的面积来表示各类别频 率大小的图形. 主要用于表示总体或样本中各组成部分所占的比例,对于 研究结构性问题十分有用. 绘制圆形图时,各部分所占的百分
15、比用圆内的各个扇形面 积表示,这些扇形的中心角度,是按各部分数据百分比占 的相应比例确定的.,例3.3的饼图,用excel 建立饼图的步骤: (1)选择【插入】菜单,并选择【图表】命令. (2)在【图表向导】对话框中,选择【饼图】和所需的图形. (3)当出现对话框时,在【数据区域】内输入各饮料的名称 及相应的频数. (4)单击【标题】选项,在【图表标题】框中输入“不同品 牌饮料的饼图”;单击【数据标题】选项,选择“类别名称”和 “百分比”选项. (5)单击【完成】,得图3-17.,图3-17 不同品牌饮料的饼图,图3-17 不同品牌饮料的饼图,3.2.2 顺序数据的整理与图示,1.累积频数和累
16、积频率,(1)累积频数(cumulative frequencies) 把各类别的频数 逐项累加. (2)累积频率(cumulative percentages) 把各类别的频率 (百分比)逐项累加.,在一项有关住房问题的研究中,研究人员在甲、乙两个城 市各抽样调查300户家庭,其中的一个问题是:“您对您家庭目前的住房状况是否满意?” 1.非常不满意 2.不满意 3.一般 4.满意 5.非常满意,例 3.5,表3-6 甲城市家庭对住房状况的评价,表3-7 乙城市家庭对住房状况的评价,2.顺序数据的图示,(1)累计频数分布图,根据累积频数或累积频率作折线图,例3.5的累计频数分布图,用excel
17、 建立累计频数分布图的步骤: (1)选择【插入】菜单,并选择【图表】命令. (2)在【图表向导】对话框中,选择【折线图】和所需的图形. (3)单击【下一步】,在【数据区域】内输入甲城市的回答类别及相应的频数. (4)单击【下一步】,选择【标题】项,在【图表标题】框中输入“甲城市对住房状况评价的累计分布图” ;在【分类(x)轴】框中输入“(a)向上累计”;在【数值(y)轴】框中输入“累计户数”; (5)单击【数据标志】 项,选择“值” 选项. (6)单击【完成】,得图3-5(a). 并可根据需要,对坐标的刻度和字体等作修改.,图3-18甲城市家庭对住房状况评价的累积分布图,(2)环形图(annu
18、lar chart),环形图用一段圆环表示某一类别的频率,可用于结构比较 研究 ,且可以同时对多组数据作比较.,例3.5的环形图,用excel 建立环形图的步骤: (1)选择【插入】菜单,并选择【图表】命令. (2)在【图表向导】对话框中,选择【圆环图】和所需的图形. (3)单击【下一步】, 当出现对话框时,在【数据区域】内输入甲城市家庭的回答类别及相应的频率. (4)单击【系列】和【添加】选项,在【值】框中输入乙城市家庭的频率. (5)单击【下一步】, 单击【数据标志”】选项,选择 【百分比】选项. (6)单击【完成】,得图3-19.,图3-19 甲、乙两城市家庭对住房状况评价的环形图,图3
19、-19 甲、乙两城市家庭对住房状况评价的环形图,3.3 数值型数据的整理与展示,3.3.1 数据分组,分组方法,单变量值分组,组距分组,等距分组,异距分组,单变量值分组,(1)适用于离散变量且变量值较少(2)把每一变量值作为一组,例3.6 某生产车间名工人日加工零件数(单位:个)如下。试采用单变量值对数据进行分组。,单变量值分组(例题分析),表8某车间名工人日加工零件数分组表,(1)适用连续变量或离散变量且变量值较多. (2)把变量值的变化范围(最大值-最小值)划分为若干个区间, 一个区间作为一组,区间长度可以相等也可以不相等. (3)分组时应“不重不漏”.,组距分组,组距分组(几个概念),缺
20、上限的组中值下限邻组组距/2 缺下限的组中值上限邻组组距/2,1. 下限:一个组的最小值 2. 上限:一个组的最大值 3. 组距:上限与下限之差 4. 组中值:下限与上限之间的中点值,组距分组步骤,1.选择组数,组数的确定应以能够显示数据的分布特征和规律为目的。 在实际分组时,可以按 sturges 提出的经验公式来确定组数k 按数据的个数 n 及数据变化的范围选择组数 k,一般可取 组。,2.确定各组的组距,确定组距:组距(class width)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即 组距( 最大值 - 最小值) 组数 为便于计算,组距宜取5或10的
21、倍数,而且第一组的下限应低于最小变量值,最后一组的上限应高于最大变量值。,把数据归组后得频数分布表,3.归组,例3.7,表3-9是某电脑公司2005年前4个月各天的销售量数据(单位:台),试对数据进行分组.,表3-9 某电脑公司2005年前4个月每天的销售量,例3.7的组距分组,1.选择组数:本例选择 2. 确定各组的组距: 组距( 237 - 141)/10=9.610 3. 用excel制作频数分布表时,【接收区域】为149,159, ,239.,表3-10 某电脑公司销售量的频数分布,(上下组限重叠),表3-11 某电脑公司销售量的频数分布,(上下组限间断),表3-12 某电脑公司销售量
22、的频数分布,(使用开口组),等距分组与不等距分组,1.等距分组,(1)各组的组距都相等 (2)各组的组频数可直接比较,2.不等距分组,(1)各组的组距不都相等 (2)由于各组的组频数受组距大小影响,不能直接比较 (3)为消除组距大小对频数的影响,采用频数密度反映 频数分布的实际状况,其中 频数密度,3.3.2 数值型数据的图示,1.分组数据:直方图(histogram),在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图. 与条形图不同,直方图的各直方相连(点击横坐标,出现 【数据系列格式】对话框,点击【选项】,取【分类间距】为 0即可).,图-2
23、0某电脑公司销售量分布的直方图,图-20某电脑公司销售量分布的直方图,直方图与条形图的差别,(1)条形图用宽度表示类别,宽度都相等,而直方图用宽度 表示组距,宽度可以不相等. (2)条形图通常分开排列,而直方图则是连续排列. (3)条形图主要用于表示分类数据,直方图则主要用于表示 数值型数据.,2.未分组数据:茎叶图和箱线图,(1)茎叶图(stem-and-leaf display),()由“茎”和“叶”两部分组成,把高位数值作为树茎,尾数作为叶. ()按“茎”把一组数据分为若干行,“茎”相同的数据分在同一行. ()茎叶图类似于横置的直方图.,图3-21 某电脑公司销售量数据的茎叶图,图3-2
24、1 某电脑公司销售量数据的茎叶图,()箱线图由一组数据的5个特征值绘制而成,由一只箱子和两条线段组成. ()首先找出一组数据的5个特征值,即最大值、最小值、中位数me 和两个四分位数(下四分位数 和上四分位数 ).先连接下四分位数和上四分位数画出箱子, 在箱子中确定中位数的位置,然后再将最大值和最小值与箱子相连接. ()不仅可表示一组数据的分布,还可以对多组数据作比较.,(2)箱线图(box plot),图3-22简单箱线图,最小值,下四分(位)数,中位数,最大值,上四分(位)数,图3-22简单箱线图,图3-23 某电脑公司销售量数据的箱线图,140 150 160 170 180 190 2
25、00 210 220 230 240,最小值 141,下四分(位)数 170.25,中位数 182,最大值 237,上四分(位)数 197,图3-23 某电脑公司销售量数据的箱线图,图3-24 不同分布的箱线图,左偏分布,对称分布,右偏分布,图3-24 不同分布的箱线图,从某大学经济管理专业二年级学生中随机抽取11人,对8 门主要课程的考试成绩进行调查,所得结果见表3-12试绘制 各科考试成绩的比较箱线图,并分析各科考试成绩的分布特征.,例 3.8,表3-13 11名学生各科的考试成绩数据,表3-14 各学科考试成绩的特征值,图3-258门课程考试成绩的箱线图,英语,统计学,西方 经济学,市场
26、营销学,基础会计学,计算机应用基础,财务管理,经济数学,图3-258门课程考试成绩的箱线图,图3-26 11名学生考试成绩的箱线图,45,55,65,75,85,95,105,学生1,学生2,学生3,学生4,学生5,学生6,学生7,学生8,学生9,学生10,学生11,图3-26 11名学生考试成绩的箱线图,3.时间序列数据:线图(line plot),(1)横轴表示时间,纵轴表示相应的数值 (2)图形长宽比例大致为 10:7 (3)一般纵轴从 0 开始,也可根据实际需要从某一值开 始,并且用折断符号表示,1991-2003年我国城乡居民家庭的人均收入数据如表3-15,试绘制线图. 表3-15
27、1991-2003 年城乡居民家庭人均收入,例3.9,图3-27城乡居民家庭人均收入,图3-27城乡居民家庭人均收入,4.多变量数据的图示,以上介绍的都是单变量数据的图示方法,对于两个或两个以上变量时, 则可采用多变量数据的图示方法. 常用的多变量数据图示方法有散点图、气泡图和雷达图等.,(1)散点图(scatter diagram),对于两个变量 , 散点图用横轴代表 , 纵轴代表 , 每对数据 用一个点表示. 由 对数据形成的 个点称为散点, 而由坐标与散点形成的图称为散点图.,例3.10,小麦的单位面积产量与降雨量和温度有一定关系,根据如下 数据(表3-16),试绘制小麦产量与降雨量的散点图. 表3-16 小麦产量与降雨量和温度的数据,图3-
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年水稳料供应与采购协议3篇
- 2024年智慧社区土地房屋股权置换合作协议书3篇
- 2024年第三方物流配送服务协议
- 专业服务推广协议样本
- 木工散工计时工团队兼职协议
- 空白纸张采购合同
- 广告公司广告市场服务合同
- 食堂设备采购合同范例
- 民间企业贷款合同格式
- 房屋土地购买合同
- 我用的短线选股法(此法选股100%成功)
- 2024年人工智能(AI)训练师职业技能鉴定考试题库(浓缩500题)
- 三级公立医院绩效考核微创手术目录(2022版)
- GB/T 15597.1-2024塑料聚甲基丙烯酸甲酯(PMMA)模塑和挤出材料第1部分:命名系统和分类基础
- 2024版招投标合同范本
- 汉字与对外汉语教学智慧树知到期末考试答案章节答案2024年西北师范大学
- 贵州省黔南州2023-2024学年度上学期期末质量监测八年级物理试卷
- 篮球智慧树知到期末考试答案章节答案2024年温州理工学院
- 统计与数据分析基础-形成性考核三(项目6-项目8阶段性测试权重25%)-国开-参考资料
- JB∕T 4058-2017 汽轮机清洁度
- 保险案件风险排查工作报告总结
评论
0/150
提交评论