版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第3章数据的整理与展示统计学第3章数据的整理与展示§3.1
数据的预处理§3.2分类和顺序数据的整理与展示§3.3数值型数据的整理与展示§3.4合理使用统计图表§3.1数据的预处理3.1.1数据审核3.1.2数据筛选3.1.3数据排序3.1.4数据透视表数据的预处理1.数据的审核检查数据中的错误2.数据的筛选找出符合条件的数据3.数据排序(1)升序和降序(2)寻找数据的基本特征数据的预处理是在对数据分类或分组之前所做的必要处理,包括以下内容:数据审核—原始数据(rawdata)数据审核就是检查数据中是否有错误。对通过调查取得的原始数据从以下两方面来审核:
1.完整性审核检查应调查的单位或个体是否有遗漏所有的调查项目是否填写齐全
2.准确性审核检查数据是否有错误,是否存在异常值。对异常值的鉴别:若是记录错误,需要纠正;若是正确值,则保留。数据的审核—二手数据二手数据的审核,主要审核数据的适用性和时效性1.适用性弄清数据的来源、数据的口径以及有关的背景确定数据是否符合自己分析的需要。2.时效性对数据的时效性进行审核,对于一些时效性较强的问题,若数据过于滞后,就失去了研究的意义,所以尽可能使用最新的数据。用Excel进行数据筛选
8名学生的考试成绩数据
数据筛选(datafilter)数据筛选是根据需要找出符合特定条件的某类数据。例3.1找出统计学成绩等于75分的学生,英语成绩最高的前三名学生,四门课程成绩都大于70分的学生。数据排序(datarank)1.按一定顺序将数据排列,以发现一些明显的特征或趋势,找到解决问题的线索2.排序有助于对数据检查纠错,以及为重新归类或分组等提供依据3.在某些场合,排序本身就是分析的目的之一例如,美国的《财富》杂志每年都要在世界范围内排出500强企业,通过这一信息,不仅可以了解自己企业所处的位置,清楚自己的差距,还可以从侧面了解对手的状况,从而有效制定企业的发展规划和战略目标。4.排序可借助于计算机完成数据排序的方法分类数据的排序字母型数据,排序有升序降序之分,但习惯上用升序汉字型数据,可按汉字的首位拼音字母排列,也可按笔画排序,其中也有笔画多少的升序降序之分数值型数据的排序递增排序:设一组数据为x1,x2,…,xn,递增排序后可表示为:x(1)<x(2)<…<x(n)递减排序:可表示为:x(1)>x(2)>…>x(n)排序后的数据称为顺序统计量数据透视表1.作用:利用数据透视表,我们可以对数据表的重要信息按使用者的习惯或分析要求进行汇总和作图,以形成一个符合需要的交叉表(列联表)。2.利用数据透视表可以十分灵活地分析数据。3.要求:在利用数据透视表时,数据源表中的首行必须有列标题。数据透视表的编制:如下面的例3.2数据透视表例3.2在某大学随机抽取30名学生,调查他们的性别、家庭所在地、平均每月购买衣物支出和购买衣物时所考虑的首要因素等,得到的数据如表所示。试建立一个数据透视表,在表的行变量中给出性别和购买衣物首选因素,在列变量中给出学生的家庭所在地,对平均月生活支出和购买衣物支出进行交叉汇总。用Excel做数据透视图
上节内容总结1.统计学2.数据的分类:计量尺度,数据来源,时间与空间3.总体、样本,参数、统计量4.数据的生成过程
1)概率抽样:简单随机抽样、分层、整群、系统、多阶段抽样
2)非概率抽样:方便抽样、判断抽样、自愿样本、滚雪球抽样、配额抽样
3)数据搜集方法:自填式、面访式、电话式
4)试验数据:对照组和试验组、匹配原则
5)抽样误差和非抽样误差上节内容总结1.数据的审核:检查数据中的错误原始数据:完整性和准确性二手数据:适用性和时效性2.数据的筛选:找出符合条件的数据3.数据排序:升序和降序数据的预处理3.2.1分类数据的整理与展示3.2.2顺序数据的整理与展示要弄清所面对的数据类型,因为不同类型的数据,所采取的处理方式和方法是不同的对品质数据主要是做分类整理对数值型数据则主要是做分组整理§3.2品质数据的整理与展示分类数据的整理(基本过程)1. 列出各类别2.计算各类别的频数、频率3.制作频数分布表4.用图形显示数据分类频数比例百分比比率ABCDE分类数据的整理(可计算的统计量)1.频数(frequency)
:落在某一特定类别或组中的数据个数。把各个类别及落在其中的相应频数全部列出,并用表格表现出来,称为频数分布。频率是指频数/总数据个数。下面举例来说明。分类数据整理—频数分布表
(例题分析)【例3.3】为研究不同类型软饮料的市场销售情况,一家市场调查公司随机抽取的一家超市进行调查。调查员随机观察的50名顾客购买的饮料类型及购买者性别的记录。生成频数分布表,观察饮料类型和顾客性别的分布情况,进行描述性分析。绿色健康饮品用Excel制作频数分布表
顾客性别饮料类型顾客性别饮料类型顾客性别饮料类型女碳酸饮料女碳酸饮料女其他男绿茶男绿茶女碳酸饮料男矿泉水男其他女其他女矿泉水女碳酸饮料女果汁男碳酸饮料男绿茶男绿茶男矿泉水男绿茶女果汁女碳酸饮料女碳酸饮料女碳酸饮料女绿茶男碳酸饮料女果汁男果汁女绿茶男矿泉水男碳酸饮料男矿泉水女碳酸饮料女矿泉水女绿茶女绿茶女其他女碳酸饮料女其他男碳酸饮料女矿泉水女果汁男绿茶男其他男绿茶男碳酸饮料男碳酸饮料女其他女其他女果汁女矿泉水男矿泉水男矿泉水分类数据的整理(可计算的统计量)2.比例(proportion)(或频率)
:一个样本(或总体)中各个部分与全部数据之比,通常用于反映样本(或总体)的构成或结构。3.百分比(percentage)
:将比例乘以100得到的结果,用%表示。当分子的数值很小而分母的数值很大时,也可用千分数‰来表示比例。4.比率(ratio)
:样本(或总体)中各个不同类别数值之间的比值。比率可以是一个样本(或总体)中各个不同部分的数量对比,一般将分母化为1或100。分类数据的图示—条形图(barChart)1.条形图是用宽度相同的条形的高度或长短来表示数据多少的图形2.条形图可以横置或纵置,纵置时也可称为柱形图。3.条形图有简单条形图、对比条形图等形式。4.条形图是用矩形的高度或长度来表示各类别数据的频数或频数分布的图形。绘制时,各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图。分类数据的图示—条形图
(例题分析)对比条形图对比(复式)条形图(side-by-sidebarchart):当分类变量在不同时间或不同空间上有多个取值时,为对比分类变量的取值在不同时间或不同空间上的差异或变化趋势,我们可以绘制对比条形图。用Excel制作频数分布表
帕累托图帕累托图(Paretochart):是以意大利经济学家V.Pareto的名字而命名的,它是按各类别数据出现的频数多少排序后绘制的柱形图。通过对柱形图的排序,容易看出哪类数据出现得多,哪类数据出现得少。它多用于质量控制中。如不同品牌饮料的频数分布绘制成帕累托图。分类数据的图示—饼图(pieChart)1.饼图是用圆形及圆内扇形的角度来表示数值大小的图形2.主要用于表示一个样本(或总体)中各组成部分的数据占全部数据的比例,对于研究结构性问题十分有用3.绘制饼图时,样本中各部分所占的百分比用圆内的各个扇形角度表示,这些扇形的中心角度,是按各部分百分比占3600的相应比例确定的。分类数据的图示—饼图(例题分析)分类数据的图示—复式饼图(例题分析)分类数据的图示--环形图1.环形图中间有一个“空洞”,样本或总体中的每一部分数据用环中的一段表示。2.环形图与饼图类似,但又有区别:饼图只能显示一个样本或总体各部分所占的比例;环形图则可以同时绘制多个样本或总体的数据系列,每一个样本或总体的数据系列为一个环。3.环形图可用于结构比较研究4.环形图主要用于展示分类和顺序数据分类数据整理—频数分布表
(例题分析)【例3.4】2006年北京、上海和天津地区按收入法计算的地区生成总之(按当年价格计算)数据如右表所示,绘制环形图比较桑格地区的生成总之构成。用Excel制作频数分布表
地区劳动者报酬生成税净额固定资产折旧营业盈余北京3496.571161.551251.091961.07天津1383.36775.09595.091605.61上海3756.561623.361730.513255.94环形图(例题分析)
顺序数据的整理(可计算的指标)1.累积频数(cumulativefrequencies):将各有序类别或组的频数逐级累加起来得到的频数。2.累积频率(cumulativepercentages):将各有序类别或组的百分比逐级累加起来。频数的累积方法有两种:①从类别顺序的开始一方向类别顺序的最后一方累加频数(数值型分组数据则是从变量值小的一方向变量值大的一方累加频数),称为向上累积;②从类别顺序的最后一方向类别顺序的开始一方累加频数(数值型分组数据则是从变量值大的一方向变量值小的一方累加频数),称为向下累积。通过累积频数,我们可以很容易看出某一类别(或数值)以下或某一类别(或数值)以上的频数之和。累积频率也有向上累积和向下累积两种方法。顺序数据的整理(可计算的指标)顺序数据的频数分布表
(例题分析)【例3.5】在一项城市住房问题的研究中,研究人员在甲乙两个城市各抽样调查300户,其中的一个问题是:“您对您家庭目前的住房状况是否满意?
1.非常不满意;2.不满意;3.一般;4.满意;5.非常满意。甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)百分比(%)向上累积向下累积户数(户)百分比(%)户数(户)百分比(%)
非常不满意
不满意
一般
满意
非常满意24108934530836311510241322252703008.044.075.090.0100.03002761687530100.092562510合计300100.0————顺序数据的频数分布表
(例题分析)乙城市家庭对住房状况评价的频数分布回答类别乙城市户数(户)百分比(%)向上累积向下累积户数(户)百分比(%)户数(户)百分比(%)
非常不满意
不满意
一般
满意
非常满意21997864387.033.026.021.312.7211201982623007.040.066.087.3100.030027918010238100.093.060.034.012.7合计300100.0————顺序数据的图示—累计频数分布图(例题分析)243001322252700100200300400
非常不满意
不满意
一般
满意
非常满意累积户数(户)(a)向上累积27616830300750100200300400
非常不满意
不满意
一般
满意
非常满意累积户数(户)(b)向下累积甲城市家庭对住房状况评价的累积频数分布根据累积频数或累积频率,可以绘制频数分布或频率图。§3.3数值型数据的整理与展示3.3.1数据分组3.3.2数值型数据的图示注:品质数据的整理与图示方法,也适用于数值型数据的整理与显示,但数值型数据还有一些特定的整理和图示方法,它们并不适用于品质数据。数据分组1.分组数据:是根据研究的需要,将原始数据按照某种标准化分成不同的组别,则分组后的数据就称为分组数据。2.目的:观察数据的分布特征。3.方法:单变量值分组和组距分组。单变量值分组是把每一个变量值作为一组,这种分组通常只适合离散变量,且变量值较少的情况下使用。组距分组是将全部变量值依次划分为若干个区间,并将这一区间的变量值作为一组,通常用于连续变量或变量值较多的情况。组距分组(步骤)1.确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时,可以按斯特奇斯(Sturges)提出的经验公式来确定组数K2.确定组距:组距(ClassWidth)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即
组距=(最大值-最小值)÷组数
统计出各组的频数并整理成频数分布表组距分组1.组距分组应遵循“不重不漏”的原则
(1)“不重”是指一项数据只能分在其中的某一组,不能在其他组中重复出现;
(2)“不漏”是指组别能够穷尽,即在说分的全部组别中每项数据都能分在其中的某一组,不能遗漏。2.解决不重的方法:统计分组习惯上规定“上组限不在内”;也可根据数据的精度确定上限。3.在组距分组中,如果全部数据中的最大值与最小值与其他数据相差悬殊,为避免出现空白组或个别极端值被漏掉,常设置“以下”或“以上”形式的开口组。开口组通常以相邻组的组距作为其组距。组距分组(几个概念)1.下限(lowlimit)
:一个组的最小值2.上限(upperlimit)
:一个组的最大值3.组距(classwidth)
:上限与下限之差4.组中值(classmidpoint)
:下限与上限之间的中点值等距分组与不等距分组
(在表现频数分布上的差异)1.等距分组(1)各组频数的分布不受组距大小的影响(2)可直接根据绝对频数来观察频数分布的特征2.不等距分组(1)各组频数的分布受组距大小不同的影响(2)各组绝对频数的多少不能反映频数分布的实际状况(3)需要用频数密度(频数密度=频数/组距)反映频数分布的实际状况频数分布表的编制
(例题分析)【例3.6】某电脑公司2005年前四个月各天的销售量数据(单位:台)。试对数据进行分组。
频数分布表的编制
(步骤)1.确定组数:根据斯特奇斯(Sturges)提出的经验公式得组数K为:一般5≤K≤152.确定各组的组距:
组距=(237-141)÷10=9.610用Excel制作频数分布表例3.6等距分组表
(上下组限重叠)等距分组表
(上下组限间断)等距分组表
(使用开口组)数值型数据的图示Excel分组数据—直方图和折线图分组数据—直方图(histogram)用图象来展示数据的分布会更形象、直观。显示分组数据频数分布特征的图形有直方图、折线图和曲线图等。1.直方图是用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布。2.在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图。分组数据的图示
(直方图的绘制)140150210某电脑公司销售量分布的直方图我一眼就看出来了,销售量在170~180之间的天数最多!190200180160170频数(天)25201510530220230240等距分组时,组距为1,高度为频率。非等距分组时,高度为密度除以总频数。直方图与条形图的区别1.条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的2.直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义3.直方图的各矩形通常是连续排列,条形图则是分开排列4.条形图主要用于展示分类数据,直方图则主要用于展示数值型数据未分组数据—茎叶图
(stem-and-leafdisplay)1.茎叶图是反映原始数据分布的图形。它由“茎”和“叶”两部分构成,其图形是由数字组成的。2.通过茎叶图,可以看出数据的分布形状及数据的离散状况,如分布是否对称,数据是否集中,是否有离群点等。3.制作茎叶图方法:以该组数据的高位数值作树茎,低位数字作树叶,且树叶上只保留一位数字4.茎叶图类似于横置的直方图,但又有区别直方图可观察一组数据的分布状况,但没有给出具体的数值茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息未分组数据—茎叶图(例题分析)未分组数据—箱线图(boxplot)箱线图是由一组数据的最大值、最小值、中位数、两个四分位数这五个特征值绘制而成的,它主要反映原始数据分布的特征,还可以进行多组数据分布特征的比较,它由一个箱子和两条线段组成。绘制方法:首先找出一组数据的5个特征值,即最大值、最小值、中位数Me
和两个四分位数(下四分位数QL和上四分位数QU)连接两个四分位数画出箱子,再将两个极值点与箱子相连接,中位数在箱子中间。未分组数据—单批数据箱线图
(箱线图的构成)中位数4681012QUQLX最大值X最小值简单箱线图未分组数据—单批数据箱线图
(例题分析)最小值141最大值237中位数182下四分位数170.25上四分位数197140150160170180190200210220230240某电脑公司销售量数据的箱线图分布的形状与箱线图
对称分布QL中位数
QU左偏分布QL中位数
QU右偏分布QL
中位数
QU不同分布的箱线图U形分布QL
中位数
QU未分组数据—多批数据箱线图
(例题分析)【例3.7】
从某大学经济管理专业二年级学生中随机抽取11人,对8门主要课程的考试成绩进行调查,所得结果如表。试绘制各科考试成绩的比较箱线图,并分析各科考试成绩的分布特征11名学生各科的考试成绩数据课程名称学生编号1234567891011英语经济数学西方经济学市场营销学财务管理基础会计学统计学计算机应用基础76659374687055859095818775739178975176857092688171748869846573957078669073788470936379806087816786918377769070828382928481706972787578918866948085718674687962818155787075687177未分组数据—多批数据箱线图
(例题分析)8门课程考试成绩的箱线图11名学生8门课程考试成绩的箱线图Min-Max25%-75%Medianvalue455565758595105学生1学生2学生3学生4学生5学生6学生7学生8学生9学生10学生11未分组数据—多批数据箱线图
(例题分析)时间序列数据—线图(lineplot)对于时间序列数据,可以绘制线图,主要用于反映现象随时间变化的特征。绘制线图时应注意以下几点时间一般绘在横轴,观测值绘在纵轴图形的长宽比例要适当,其长宽比例大致为10:7一般情况下,纵轴数据下端应从“0”开始,以便于比较。数据与“0”之间的间距过大时,可以采取折断的符号将纵轴折断时间序列数据—线图
(例题分析)【例3.8】已知1991~2003年我国城乡居民家庭的人均收入数据如表。试绘制线图¥
$
年份城镇居民农村居民19911700.6708.619922026.6784.019932577.4921.619943496.21221.019954283.01577.719964838.91926.119975160.32091.119985425.12162.019995854.02210.320006280.02254.420016859.62366.420027702.82475.620038472.22622.2时间序列数据—线图
(例题分析)用Excel制作线图
散点图是用二维坐标展示两个变量之间关系的一种图形。它是用坐标横轴代表变量x,纵轴代表变量y,每组数据(xi,yi)在坐标系中用一个点来表示,n组数据在坐标系中形成的n个点称为散点,由坐标及散点形成的二维数据图称为散点图。如下面的例子。多变量数据的图示—散点图【例3.9】小麦的单位面积产量与降雨量和温度等有一定关系。为了解它们之间的关系形态,收集到如下数据。绘制小麦产量与降雨量的散点图,并分析它们之间的关系。多变量数据的图示—散点图小麦产量与降雨量和温度的数据温度(℃)降雨量(mm)产量(kg/hm2)62522508403450105845001368575014110580016987500211208250多变量数据的图示—散点图用Excel制作散点图
气泡图是用于展示三个变量之间的关系。它与散点图类似,绘制时将一个变量放在横轴,另一个变量放在纵轴,而第三个变量则用气泡的大小来表示。多变量数据的图示—气泡图用Excel制作气泡图
雷达图是显示多个变量的常用图示方法,也称为蜘蛛图。设有n组样本S1,S2,…,Sn,每个样本测得P个变量X1,X2,…,Xp,要绘制这P个变量的雷达图。绘制方法:1.先做一个圆,然后将圆P等分,得到P个点,令这P个点分别对应P个变量,在将这P个点与圆心连线,得到P个幅射状的半径,这P个半径分别作为P个变量的坐标轴,每个变量值的大小由半径上的点到圆心的距离表示
2.再将同一样本的值在P个坐标上的点连线。这样,n个样本形成的n个多边形就是一个雷达图。多变量数据—雷达图(radarchart)多变量数据—雷达图
(例题分析)【例3.10】2003年我国城乡居民家庭平均每人各项生活消费支出构成数据如表。试绘制雷达图。今天的主食是面包2003年城乡居民家庭平均每人生活消费支出构成(%)项目城镇居民农村居民食品37.1245.59衣着9.795.67家庭设备用品及服务6.304.20医疗保健7.315.96交通通讯11.088.36娱乐教育文化服务14.3512.13居住10.7415.87杂项商品与服务3.302.21多变量数据—雷达图
(例题分析)用Excel制作雷达图
数据类型及图示
(小结)数据类型品质数据数值型数据汇总表原始数据分组数据时序数据多变量数据条形图饼图环形图茎叶图箱线图直方图线图散点图气泡图雷达图§2.4合理使用图表3.4.1鉴别图形优劣的准则3.4.2统计表的设计鉴别图形优劣的准则一张精心设计的图形是展示数据的最有效工具,精心设计的图形可以准确表达数据所要传递的信息。在设计图形时,应绘制得尽可能简洁,以能够清晰地显示数据、合理地表达统计目的为依据在绘制图形时,应避免一切不必要的修饰,过于花哨的修饰往往会使人注重图形本身,而掩盖了图形所要表达
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 高中生考试保证书
- 商品砼招标采购条件
- 服务合同范本售后服务承诺
- 2024年度城市环境整治拆除违法广告牌协议
- 软件开发合同协议的中介方权利与义务
- 考试诚信守纪保证书范本
- 蔬菜销售协议格式
- 焦油销售合同模板
- 钢筋购买招标条件
- 防水施工质量长期保证
- 西门子RWD60控制器说明书
- 2022-203学年(中职)《餐饮服务与管理》试题2试卷带答案
- 新疆维吾尔自治区阿克苏地区各县区乡镇行政村村庄村名居民村民委员会明细及行政区划代码
- 2023版北京协和医院重症医学科诊疗常规
- 公路工程冬季安全专项施工方案
- 北师大版四年级劳动教育活动3《膳食营养小专家》课件(定稿)
- 电视台广告播出证明
- 印章启用登记表
- “珍爱生命,我的责任”主题班会课件
- 幼儿园《塑料袋别捂口鼻》
- JJG 880-2006 浊度计检定规程-(高清现行)
评论
0/150
提交评论