统计学 第3章 数据的图表展示_第1页
统计学 第3章 数据的图表展示_第2页
统计学 第3章 数据的图表展示_第3页
统计学 第3章 数据的图表展示_第4页
统计学 第3章 数据的图表展示_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Nankai University1第三章第三章 数据的图表展示数据的图表展示示例:统计研究表明,多种原因会使寿命减少示例:统计研究表明,多种原因会使寿命减少v 文字描述文字描述 未结婚的男性会使寿命减少未结婚的男性会使寿命减少3500天,未结婚的女性天,未结婚的女性则减少则减少1600天;吸烟的男性会使寿命减少天;吸烟的男性会使寿命减少2250天,女天,女性则减少性则减少800天;饮酒会使寿命减少天;饮酒会使寿命减少130天;超重天;超重30%会使寿命减少会使寿命减少1300天,超重天,超重20%则减少则减少900天;滥用天;滥用药物会使寿命减少药物会使寿命减少90天天Nankai Univ

2、ersity2v 表格描述表格描述Nankai University3原因原因寿命减少的天数寿命减少的天数未结婚(男性)3500吸烟(男性)2250未结婚(女性)160030%超重130020%超重900吸烟(女性)800饮酒130滥用药物90v 图形描述图形描述Nankai University405001000150020002500300035004000未结婚(男性) 吸烟(男性) 未结婚(女性) 30%超重 20%超重 吸烟(女性) 饮酒 滥用药物 寿命减少的天数寿命减少的天数 寿命减少的天数 Contents数据的预处理数据的预处理1品质数据的整理与描述品质数据的整理与描述2数值型

3、数据的整理与描述数值型数据的整理与描述3Nankai University51.1.数据的预处理数据的预处理Nankai University6v 数据审核数据审核v 数据筛选数据筛选v 数据排序数据排序v 数据透视表数据透视表数据审核数据审核v 间接来源数据的审核间接来源数据的审核 审核数据的适用性 审核数据的时效性v 直接来源数据的审核直接来源数据的审核 审核数据的完整性 审核数据的准确性Nankai University7数据筛选数据筛选v 数据筛选时根据需要找出符合特定条件的某类数据。v 用Excel进行数据筛选。 选择【数据】菜单,【筛选】命令v 数据筛选示例:例3.1v 例3.1

4、表中是8名学生4门课程的考试成绩数据(单位:分)。试分别找出统计学成绩大于80分的学生;英语成绩最高的前三名学生;四门课程成绩都大于70分的学生。Nankai University8数据排序数据排序v 数据排序可帮助研究者通过浏览数据发现一些明显的特征或趋势,找到解决问题的线索。v 排序还有助于对数据检查纠错,以及为重新归类或分组等提供方便。v 排序后的数据也称为顺序统计量。v 无论是属性型数据还是数值型数据,排序均可借助于Excel很容易的完成。Nankai University9数据透视表数据透视表v 为了从复杂的数据中提取有用的信息,可以利用Excel提供的【数据透视表】工具。v 利用数

5、据透视表,可以对数据表的重要信息按使用者的习惯或分析要求进行汇总和作图,形成一个符合需要的交叉表(列联表)。v 列联表列联表(contingency table):由两个或两个以上变量交叉分类的频数分布表称为列联表。二维的列联表(两个变量交叉分类)也称为交叉表交叉表(cross table)。v 利用数据透视表时,原始数据表中的首行必须有列标题。v 示例3.2Nankai University10v 例3.2 在某大学随机抽取30名学生,调查他们的性别、家庭所在地、平均每月生活费支出、平均每月购买衣物支出和购买衣物时所考虑的首要因素等,试建立一个数据透视表,在表的行变量中给出性别和买衣物首选因

6、素,在列变量中给出学生的家庭所在地,对平均月生活费和月平均衣物支出进行交叉汇总。Nankai University11Nankai University122.2.品质品质数据的整理与描述数据的整理与描述v 分类数据的整理与描述分类数据的整理与描述v 顺序数据的整理与描述顺序数据的整理与描述分类数据的整理与描述分类数据的整理与描述v 分类数据本身就是对事物的一种分类,因此,在整理时首先列出所分的类别,然后计算出每一类别的频数、频率或比例、比率等,即可形成一张频数分布表,最后根据需要选择适当的图形进行展示,以便对数据及其特征有一个初步的了解。Nankai University13分类数据的整理与

7、描述分类数据的整理与描述v 分类数据的整理频数与频数分布 频数频数(frequency):是落在某一特定类别或组中的数据个数。 频数分布频数分布(frequency distribution):把各个类别及落在其中的相应频数全部列出,并用表格形式表现出来。 例3.3 为研究不同类型软饮料的市场销售情况,一家市场调查公司对随机抽取的一家超市进行调查。表中给出调查员随机观察的50名顾客购买的饮料类型及购买者性别的记录。生成频数分布表,观察饮料类型和顾客性别的分布状况,并进行描述性分析。Nankai University14分类数据的整理与描述分类数据的整理与描述v 分类数据的图示描述 1)条形图条

8、形图:是用宽度相同的条形的高度或长短来表示数据多少的图形,可以横置或纵置,纵置时也称柱形图。 2)帕累托图帕累托图(Pareto chart)是按各类别数据出现的频数多少排序后绘制的条形图。 3)饼图饼图:是用圆形及圆内扇形的角度来表示数值大小的图形,主要用于表示一个样本(或总体)中各组成部分的数据占全部数据的比例,用于研究结构性问题十分有用。局限性在于只能显示一个样本各部分所占的比例。 4)环形图环形图:把饼图叠在一起,挖去中间的部分就是环形图。每个样本用一个环来表示,样本中的每一部分数据用环中的一段表示。环形图可显示多个样本各部分所占的相应比例,从而有利于构成的比较研究。Nankai Un

9、iversity15顺序数据的整理与描述顺序数据的整理与描述v 上面介绍的分类数据的频数分布表和图示方法,也都适用于对顺序数据的整理与描述。但一些适用于顺序数据的整理和显示方法,并不适用于分类数据。v 对于顺序数据,还可以计算累积频数和累积频率。v 累积频数累积频数:是将各有序类别或组的频数逐级累加起来得到的频数。通过累积频数,可以很容易的看出某一类别(或数值)以下或某一类别(或数值)以上的频数之和。v 累积频率累积频率/累积百分比累积百分比:是将各有序类别或组的百分比逐级累加起来。Nankai University16v 例3.4 在一项有关城市住房问题的研究中,研究人员在甲乙两个城市各抽样

10、调查了300户,其中一个问题是:“您对您家庭目前的住房状况是否满意?”要求回答的类别依次如下: 1.非常不满意 2.不满意 3.一般 4.满意 5.非常满意 v 根据累积频数或累积概率,可以绘制累积频数分布图或累积频率图。Nankai University17Nankai University183.3.数值型数据的整理与描述数值型数据的整理与描述v 箱线图箱线图v 直方图直方图v 线图线图v 散点图散点图v 气泡图气泡图v 雷达图雷达图箱线图箱线图v 箱线图箱线图(box plot)是由一组数据的最大值、最小值、中位数、两个四分位数这五个特征值绘制而成的,它主要用于反映原始数据分布的特征,还

11、可以进行多组数据分布特征的比较。v 箱线图的绘制方法:先找出一组数据的最大值、最小值、中位数和两个四分位数;然后,连接两个四分位数画出箱子;再将最大值和最小值与箱子相连接,中位数在箱子中间。v 对于多组数据,可以将各组数据的箱线图并列起来,从而进行分布特征的比较。Nankai University19v 例3.5 从某大学经济管理专业二年级学生中随机抽取11人,对8门主要课程的考试成绩进行调查,试绘制各个学生成绩的比较箱线图,并分析各个同学考试成绩的分布特征。Nankai University20直方图直方图v 直方图直方图(histogram)是用于展示分组数据分布的一种图形,它是用矩形的宽

12、度和高度(即面积)来表示频数分布的。v 数据分组是根据统计研究的需要,将原始数据按照某种标准化分成不同的组别,分组后的数据称为分组数据分组数据(grouped data)。v 绘制该图时,在平面直角坐标系中,用横轴表示数据分组,纵轴表示频数或频率,这样,各组与相应的频数就形成了一个矩形,即直方图。Nankai University21v 直方图与条形图的区别: 条形图是用条形的高度(竖置时)表示各类别频数的多少,其宽度(表示类别)则是固定的;直方图用矩形的高度表示每一组的频数或频率,宽度则表示各组的组距。 由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列。 条形图主要

13、用于展示属性型数据,而直方图则主要用于展示数值型数据。Nankai University22v 例3.6 试根据某电脑公司2005年前4个月每天的销售量数据(单位:台),绘制直方图并分析。Nankai University23线图线图v 如果数值型数据是在不同时间上取得的,即时间序列数据,则可以绘制线图。线图线图(line plot)主要用于反映现象随时间变化的特征。v 绘制线图时,时间一般绘制在横轴,观测值绘制在纵轴,一般应绘制成横轴略大于纵轴的长方形。图形过扁或过于瘦高,不仅不美观,而且会给人造成视觉上的错觉,不便于对数据变化的理解。一般情况下,纵轴数据下端应从“0”开始,以便于比较。如果

14、数据与“0”之间的间距过大,可以采取折断的符号将纵轴折断。Nankai University24v 例3.7 已知1991-2003年我国城乡居民家庭的人均收入数据,试绘制线图。Nankai University250.01000.02000.03000.04000.05000.06000.07000.08000.09000.01991199219931994199519961997199819992000200120022003城镇居民农村居民散点图散点图v 上面介绍的一些图形描述的都是单变量数据。当有两个或两个以上变量时,可以采用多变量的图示方法,常见的有散点图、气泡图、雷达图等。v 散点

15、图散点图(scatter diagram)是用二维坐标展示两个变量之间关系的一种图形。v 散点图是用坐标横轴代表变量x,纵轴代表变量y,每组数据(xi,yi)在坐标系中用一个点表示,n组数据在坐标系中形成的n个点称为散点,由坐标及其散点形成的二维数据图称为散点图。Nankai University26v 例3.8 小麦的单位面积产量与降雨量和温度有一定关系。为了了解它们之间的关系,收集到相关数据。试绘制小麦产量与降雨量的散点图,并分析它们之间的关系。Nankai University27010002000300040005000600070008000900002040608010012014

16、0气泡图气泡图v 气泡图气泡图(bubble chart)可用于展示三个变量之间的关系。v 它与散点图类似,绘制时将一个变量放在横轴,另一个变量放在纵轴,而第三个变量则用气泡的大小来表示。Nankai University280204060801001201400510152025雷达图雷达图v 雷达图雷达图(radar chart)是显示多个变量的常用图示方法,也称为蜘蛛图(spider chart)。v 设有n组样本,每个样本测得m个变量,要绘制这m个变量的雷达图,其具体做法是:先画一个圆,然后将圆m等分,得到m个点,令这m个点分别对应m个变量,再将这m个点与圆心相连,得到m个辐射状的半径,这m个半径分别作为m个变量的坐标轴,每个变量值的大小由半径上的点到圆心的距离表示,再将同一样本的值在m个坐标上的点连线。这样,n个样本形成的n个多边形就是一张雷达图。v 雷达

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论