版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第3章数据的整理与
图表展示3.1数据的预处理3.2品质数据的整理与展示3.3数值型数据的整理与展示1第3章数据的整理与
图表展示3.1数3.1数据的预处理1.数据审核
■
发现数据中的错误2.数据筛选
■
找出符合条件的数据3.数据排序发现数据的基本特征升序和降序23.1数据的预处理1.数据审核2
数据筛选例3.1表3-1是8名学生4门课程的考试成绩数据(单位:分)。试找出(1)统计学成绩等于80分的学生(2)数学成绩最高的前三名学生,英语成绩最低的三名学生(3)统计学成绩在80-90之间的学生(4)四门课程成绩都大于70分的学生3数据筛选例3.1表3-1是8名学生4门课程的考试成绩数据排序1.分类数据的排序字母型数据,排序有升序降序之分,但习惯上用升序汉字型数据,可按汉字的首位拼音字母排列,也可按笔画排序,其中也有笔画多少的升序降序之分数值型数据的排序4数据排序1.分类数据的排序4
分类汇总
根据不同的研究目的,按照某个类别进行汇总分析。分类汇总之前要先按分类项排序。简单分类汇总多级分类汇总5分类汇总根据不同的研究目的,按照某个类别进行汇数据透视表
利用数据透视表可以按照研究目的不同,进行交叉汇总分析,使研究者可以从各种角度、维度去查看分析数据,从繁杂的数据中挖掘和整合数据。6数据透视表利用数据透视表可以按照研究目的不[例3.2]在某大学随机抽取30名学生,调查他们的性别、家庭所在地、平均月生活费支出、平均每月购买衣物支出和购买衣物时所考虑的首选因素等,得到的数据如表3-2,试建立一个数据透视表,在表的行变量中给出性别和买衣物的首选因素,在列变量中给出学生的家庭所在地区,对平均月生活费和月平均衣物支出进行交叉汇总。7[例3.2]在某大学随机抽取30名学生,调查他们的性别3.2品质数据的整理与展示3.2.1分类数据的整理与图示
1.列出各类别
2.计算各类别的频数
3.制作频数分布表
4.用图形展示83.2品质数据的整理与展示3.2.1分类数据的整理分类数据中需要计算的指标1.频数:落在各类别中的数据个数
频数分布:把各个类别及落在其中的相应频数全部列出,并用表格形式表现出来。2.比例:某一类别数据占全部数据的比值3.百分比:将对比的基数作为100而计算的比值4.比率:不同类别数值之间的比值9分类数据中需要计算的指标1.频数:落在各类别中的数据个数9【例3.3】一家市场调查公司为研究不同品牌饮料的市场占有率,对随机抽取的一家超市进行调查。调查员随机观察了50名顾客购买饮料类型及购买者性别,并进行了记录,如果一个顾客购买某一品牌的饮料,就将这一饮料的品牌名字记录一次。数据见Excel表。要求:对饮料类型和顾客性别的分布状况进行描述分析,求不同品牌饮料的频数分布、比例和百分比。10【例3.3】一家市场调查公司为研究不同品牌饮料的市场占有率,方法一:数据透视表方法利用数据透视表功能,进行频数分析。在数据透视表【布局】对话框中,依次将“饮料类型”拖到“行”区域以及“数据”区域,将“顾客性别”拖到“列”区域。11方法一:数据透视表方法利用数据透视表功能,进行频数分析。11方法二:EXCEL中的函数功能插入——
函数——
COUNTIF数一数COUNTIF要计算某一类别的频数12方法二:EXCEL中的函数功能插入——函数——COU分类数据的图示条形图
条形图是用宽度相同的条形的高度或长短来表示数据多少的图形★各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图★对比条形图(复式条形图):
显示分类变量在不同时间或不同空间上的差异或变化13分类数据的图示条形图1314141515复式条形图16复式条形图16对比条形图17对比条形图17分类数据的图示—帕累托图按各类别数据出现的频数多少排序后绘制的柱形图主要用于展示分类数据的分布18分类数据的图示—帕累托图按各类别数据出现的频数多少排序后绘制饼图饼图:用圆形及圆内扇形的面积来表示数值大小的图形。主要用于表示总体中各组成部分所占的比例,对于研究结构性问题十分有用在绘制圆形图时,总体中各部分所占的百分比用圆内的各个扇形面积表示,这些扇形的中心角度,是按各部分百分比占3600的相应比例确定的19饼图饼图:用圆形及圆内扇形的面积来表示数值大小的图形。192020环形图环形图中间有一个“空洞”,总体中的每一部分数据用环中的一段表示环形图与饼图类似,但又有区别饼图只能显示一个总体各部分所占的比例环形图则可以同时绘制多个总体的数据系列,每一个总体的数据系列为一个环环形图可用于进行比较研究环形图可用于展示分类数据和顺序数据21环形图环形图中间有一个“空洞”,总体中的每一部分数据用环中的8%36%31%15%7%33%26%21%13%10%
非常不满意
不满意
一般
满意
非常满意
图3-4甲乙两城市家庭对住房状况的评价228%36%31%15%7%33%26%21%13%10%非3.2.2顺序数据的整理与图示累积频数:将各有序类别的频数逐级累加起来得到的频数。
向上累积:从类别顺序的开始一方,向类别顺序的最后一方累加频数;
向下累积:从类别顺序的最后一方,向类别顺序的开始一方累加频数。2.累积频率:将各类别的百分比逐级累加233.2.2顺序数据的整理与图示累积频数:将各有序类别的频数【例3.5】在一项城市住房问题的研究中,研究人员在甲乙两个城市各抽样调查300户,其中的一个问题是:“您对您家庭目前的住房状况是否满意?
1.非常不满意;2.不满意;
3.一般;
4.满意;
5.非常满意。24【例3.5】在一项城市住房问题的研究中,研究人员在甲乙两个城甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)百分比(%)向上累积
向下累积
户数(户)百分比(%)户数(户)百分比(%)
非常不满意不满意一般满意非常满意24108934530836311510241322252703008.044.075.090.0100.03002761687530100.092562510合计300100.0————25甲城市家庭对住房状况评价的频数分布回答类别甲城市户数百分比向乙城市家庭对住房状况评价的频数分布回答类别乙城市户数(户)百分比(%)向上累积
向下累积
户数(户)百分比(%)户数(户)百分比(%)
非常不满意不满意一般满意非常满意209812040226.732.74013.37.3合计300100.0————26乙城市家庭对住房状况评价的频数分布回答类别乙城市户数百分比向乙城市家庭对住房状况评价的频数分布回答类别乙城市户数(户)百分比(%)向上累积
向下累积
户数(户)百分比(%)户数(户)百分比(%)
非常不满意不满意一般满意非常满意209812040226.732.74013.37.3201182382783006.739.479.492.7100300280182622210093.360.620.67.3合计300100.0————27乙城市家庭对住房状况评价的频数分布回答类别乙城市户数百分比向243001322252700100200300400
非常不满意
不满意
一般
满意
非常满意累积户数(户)(a)向上累积27616830300750100200300400
非常不满意
不满意
一般
满意
非常满意累积户数(户)(b)向下累积甲城市家庭对住房状况评价的累积频数分布图28243001322252700100200300400非常3.3数值型数据的整理与显示3.3.1数据的分组
分组方法等距分组异距分组单变量值分组组距分组293.3数值型数据的整理与显示3.3.1数据的分组单变量值分组
(要点)★
适合于离散变量★
适合于变量值较少的情况步骤:排序将一个变量值作为一组30单变量值分组
(要点)★适合于离散变量排序将一个
117122124129139107117130122125108131125117122133126122118108110118123126133134127123118112112134127123119113120123127135137114120128124115139128124121【例3.6】某生产车间50名工人日加工零件数如下(单位:个)。试采用单变量值对数据进行分组。
3111712212412913910710710810811011211211311411511711711711811811811912012012112212212212212312312312312412412412512512612612712712712812812913013113313313413413513713913932107108108110112某车间50名工人日加工零件数分组表零件数(个)频数(人)零件数(个)频数(人)零件数(个)频数(人)10710811011211311411511711812121113311912012112212312412512612712144322312812913013113313413513713921112211233某车间50名工人日加工零件数分组表零件数频数零件数频数零件数组距分组
(要点)■
适合于连续变量适合于变量值较多的情况将变量值的一个区间作为一组可采用等距分组,也可采用不等距分组~~~~~~~~~~34组距分组
(要点)■适合于连续变量~~组距分组
(几个概念)1.下限:一个组的最小值2.上限:一个组的最大值3.组距:上限与下限之差4.组中值:下限与上限之间的中点值下限值+上限值2组中值=35组距分组
(几个概念)1.下限:一个组的最小值下组距分组第1步:排序,确定组数(K)
5≤K≤15
能够显示数据的分布特征和规律第2步:确定组距组距=(最大值-最小值)÷组数
★
组距宜取5或10的倍数
36组距分组第1步:排序,确定组数(K)36◆第一组的下限应低于最小值,
◆最后一组的上限应高于最大值。遵循“不重不漏”的原则
第3步:根据分组整理成频数分布表上组限不在内37◆第一组的下限应低于最小值,上组限不在内37等距分组表
(上下组限间断)表3-6某车间50名工人日加工零件数分组表按零件数分组频数(人)频率(%)105~109110~114115~119120~124125~129130~134135~139358141064610162820128合计5010038等距分组表
(上下组限间断)表3-6某车间50名工人等距分组表
(上下组限重叠)表3-5某车间50名工人日加工零件数分组表按零件数分组频数(人)频率(%)105~110110~115115~120120~125125~130130~135135~140358141064610162820128合计5010039等距分组表
(上下组限重叠)表3-5某车间50名工人等距分组表
(使用开口组)表3-7某车间50名工人日加工零件数分组表按零件数分组频数(人)频率(%)110以下110~115115~120120~125125~130130~135135以上358141064610162820128合计5010040等距分组表
(使用开口组)表3-7某车间50名工人日用Excel制作数值型数据的频数分布表【工具】——【数据分析】——【直方图】【输入区域】:输入原始数据区域
【接收区域】:输入各组的上限值
【输出区域】:选择一个空白单元格(想要把输出的结果放在那里)
【柏拉图】、【累积百分率】(不需要时,可不选)选择【图表输出】41用Excel制作数值型数据的频数分布表【工具】——【数据分
利用FREQUENCY函数,制作频数分布表
FREQUENCY(Data_array,Bins_array)Data_array为计算频数的数据区域或数组
Bins_array为数据接收区间的数组,即指定的各分组的组上限值。注意:1.FREQUENCY函数返回的是一个数组;2.在输入函数前,应选定返回数组的区域;3.函数录入以后,应按住Ctrl+Shift+回车(确定)42利用FREQUENCY函数,制作频数分布表42分组数据—直方图用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图(Histogram)43分组数据—直方图用矩形的宽度和高度来表示频数分布的图形,实际直方图与条形图的区别条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义。直方图的各矩形通常是连续排列,条形图则是分开排列。条形图主要用于展示分类数据,而直方图则主要用于展示数值型数据。44直方图与条形图的区别条形图是用条形的长度(横置时)表示各类别分组数据—折线图折线图也称频数多边形图(Frequencypolygon)是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉折线图的两个终点要与横轴相交,具体的做法是第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的45分组数据—折线图折线图也称频数多边形图(Frequency1512963105110115120125130135140日加工零件数(个)频数(人)折线图下的面积与直方图的面积相等!某车间工人日加工零件数的折线图46151296310511011512012513013514未分组数据——茎叶图用于显示未分组的原始数据的分布由“茎”和“叶”两部分构成,其图形是由数字组成的以该组数据的高位数值作树茎,低位数字作树叶4.茎叶图类似于横置的直方图,但又有区别直方图可大体上看出一组数据的分布状况,但没有给出具体的数值茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息47未分组数据——茎叶图用于显示未分组的原始数据的分布4710710810811011211211311411511711711711811811811912012012112212212212212312312312312412412412512512612612712712712812812913013113313313413413513713913948107108108110112树茎树叶788022347778889001222233334445566777889013344579910111213数据个数3132410茎叶图类似横置的直方图某车间工人日加工零件数的茎叶图49树茎树叶78802234777888900122223333零件数Stem-and-LeafPlotFrequencyStem&Leaf
3.0010.788
5.0011.02234
8.0011.57778889
14.0012.00122223333444
10.0012.5566777889
6.0013.013344
4.0013.5799Stemwidth:10Eachleaf:1case(s)5050未分组数据—箱线图1.箱线图由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成2.其绘制方法是:首先找出一组数据的5个特征值,即最大值、最小值、中位数Me和两个四分位数(下四分位数QL和上四分位数QU)连接两个四分位数画出箱子,再将两个极值点与箱子相连接51未分组数据—箱线图1.箱线图由一组数据的5个特征值绘制而成中位数4681012QUQLX最大值X最小值简单箱线图52中位数4681012QUQLX最大值X最小值简单箱线图52分布的形状与箱线图
不同分布的箱线图左偏分布QL中位数
QULeft-skeweddistribution右偏分布QL
中位数
QURight-skeweddistribution对称分布QL中位数
QUBell-shapeddistribution53分布的形状与箱线图不同分布的箱线图左偏分布QL中位数未分组数据—多批数据箱线图【例】
从某大学经济管理专业二年级学生中随机抽取11人,对8门主要课程的考试成绩进行调查,所得结果如表。试绘制各科考试成绩的比较箱线图,并分析各科考试成绩的分布特征11名学生各科的考试成绩数据课程名称学生编号1234567891011英语经济数学西方经济学市场营销学财务管理基础会计学统计学计算机应用基础7665937468705585909581877573917897517685709268817174886984657395707866907378847093637980608781678691837776907082838292848170697278757891886694808571867468796281815578707568717754未分组数据—多批数据箱线图【例】从某大学经济管理专业二年级8门课程考试成绩的Median/Quart./Range箱线图558门课程考试成绩的Median/Quart./Range箱线时间序列数据—线图线图主要用于反映现象随时间变化的特征绘制线图时应注意以下几点时间一般绘在横轴,指标数据绘在纵轴图形的长宽比例要适当,其长宽比例大致为10:7一般情况下,纵轴数据下端应从“0”开始,以便于比较。数据与“0”之间的间距过大时,可以采取折断的符号将纵轴折断56时间序列数据—线图线图主要用于反映现象随时间变化的特征56【例3.5】已知2006~2015年我国城乡居民家庭的人均收入数据如表3-17。试绘制线图¥
$
年份农村城镇消费水平城镇居民消费水平2006306610739200735381248020084065140612009440215127201049411710420116187199122012696421861201377732360920148711254242015967927210表3-172006-2015年我国城乡居民人均消费水平57【例3.5】已知2006~2015年我国城乡居民家庭的人均收图3-23我国城乡居民人均消费水平58图3-23我国城乡居民人均消费水平58多变量数据的图示1.散点图:用二维坐标展示两个变量之间关系的图形。每组数据(xi,yi)在坐标系中用一个点表示。2.气泡图:可用于展示三个变量之间的关系,一个变量放在x轴,另一个变量放在y轴,第三个变量用气泡的大小表示。3.雷达图:可显示多个变量之间的关系,也称为蜘蛛图。59多变量数据的图示1.散点图:用二维坐标展示两个变量之间关系60606161雷达图的制作
设有n组样本S1,S2,…Sn,每个样本测得P个变量X1,X2,Xp,要绘制这P个变量的雷达图,其具体做法是★先做一个圆,然后将圆P等分,得到P个点,令这P个点分别对应P个变量,在将这P个点与圆心连线,得到P个幅射状的半径,这P个半径分别作为P个变量的坐标轴,每个变量值的大小由半径上的点到圆心的距离表示
★再将同一样本的值在P个坐标上的点连线。这样,n个样本形成的n个多边形就是一个雷达图62雷达图的制作设有n组样本S1,S2,…Sn,每个样本0500100015002000
食品
衣着
家庭设备用
品及服务
医疗保健
交通通讯
娱乐教育
文化服务
居住
杂项商品
与服务城镇居民农村居民
图3-151997年城镇居民家庭消费支出
(元)630500100015002000食品6464统计表的结构表3-202002~2003年城镇居民家庭抽样调查资料项目单位2002年2003年
调查户数平均每户家庭人口平均每户就业人口平均每户就业面平均一名就业者负担人数平均每人全部年收入#可支配收入平均每人消费性支出户人人%人元元元453173.041.5851.971.928177.407702.806029.88480283.011.5852.491.919061.228472.206510.94资料来源:《中国统计年鉴2004》,中国统计出版社,2004,第359页。注:本表为城市和县城的城镇居民家庭抽样调查资料。
65统计表的结构表3-202002~2003年城镇居民第3章数据的整理与
图表展示3.1数据的预处理3.2品质数据的整理与展示3.3数值型数据的整理与展示66第3章数据的整理与
图表展示3.1数3.1数据的预处理1.数据审核
■
发现数据中的错误2.数据筛选
■
找出符合条件的数据3.数据排序发现数据的基本特征升序和降序673.1数据的预处理1.数据审核2
数据筛选例3.1表3-1是8名学生4门课程的考试成绩数据(单位:分)。试找出(1)统计学成绩等于80分的学生(2)数学成绩最高的前三名学生,英语成绩最低的三名学生(3)统计学成绩在80-90之间的学生(4)四门课程成绩都大于70分的学生68数据筛选例3.1表3-1是8名学生4门课程的考试成绩数据排序1.分类数据的排序字母型数据,排序有升序降序之分,但习惯上用升序汉字型数据,可按汉字的首位拼音字母排列,也可按笔画排序,其中也有笔画多少的升序降序之分数值型数据的排序69数据排序1.分类数据的排序4
分类汇总
根据不同的研究目的,按照某个类别进行汇总分析。分类汇总之前要先按分类项排序。简单分类汇总多级分类汇总70分类汇总根据不同的研究目的,按照某个类别进行汇数据透视表
利用数据透视表可以按照研究目的不同,进行交叉汇总分析,使研究者可以从各种角度、维度去查看分析数据,从繁杂的数据中挖掘和整合数据。71数据透视表利用数据透视表可以按照研究目的不[例3.2]在某大学随机抽取30名学生,调查他们的性别、家庭所在地、平均月生活费支出、平均每月购买衣物支出和购买衣物时所考虑的首选因素等,得到的数据如表3-2,试建立一个数据透视表,在表的行变量中给出性别和买衣物的首选因素,在列变量中给出学生的家庭所在地区,对平均月生活费和月平均衣物支出进行交叉汇总。72[例3.2]在某大学随机抽取30名学生,调查他们的性别3.2品质数据的整理与展示3.2.1分类数据的整理与图示
1.列出各类别
2.计算各类别的频数
3.制作频数分布表
4.用图形展示733.2品质数据的整理与展示3.2.1分类数据的整理分类数据中需要计算的指标1.频数:落在各类别中的数据个数
频数分布:把各个类别及落在其中的相应频数全部列出,并用表格形式表现出来。2.比例:某一类别数据占全部数据的比值3.百分比:将对比的基数作为100而计算的比值4.比率:不同类别数值之间的比值74分类数据中需要计算的指标1.频数:落在各类别中的数据个数9【例3.3】一家市场调查公司为研究不同品牌饮料的市场占有率,对随机抽取的一家超市进行调查。调查员随机观察了50名顾客购买饮料类型及购买者性别,并进行了记录,如果一个顾客购买某一品牌的饮料,就将这一饮料的品牌名字记录一次。数据见Excel表。要求:对饮料类型和顾客性别的分布状况进行描述分析,求不同品牌饮料的频数分布、比例和百分比。75【例3.3】一家市场调查公司为研究不同品牌饮料的市场占有率,方法一:数据透视表方法利用数据透视表功能,进行频数分析。在数据透视表【布局】对话框中,依次将“饮料类型”拖到“行”区域以及“数据”区域,将“顾客性别”拖到“列”区域。76方法一:数据透视表方法利用数据透视表功能,进行频数分析。11方法二:EXCEL中的函数功能插入——
函数——
COUNTIF数一数COUNTIF要计算某一类别的频数77方法二:EXCEL中的函数功能插入——函数——COU分类数据的图示条形图
条形图是用宽度相同的条形的高度或长短来表示数据多少的图形★各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图★对比条形图(复式条形图):
显示分类变量在不同时间或不同空间上的差异或变化78分类数据的图示条形图1379148015复式条形图81复式条形图16对比条形图82对比条形图17分类数据的图示—帕累托图按各类别数据出现的频数多少排序后绘制的柱形图主要用于展示分类数据的分布83分类数据的图示—帕累托图按各类别数据出现的频数多少排序后绘制饼图饼图:用圆形及圆内扇形的面积来表示数值大小的图形。主要用于表示总体中各组成部分所占的比例,对于研究结构性问题十分有用在绘制圆形图时,总体中各部分所占的百分比用圆内的各个扇形面积表示,这些扇形的中心角度,是按各部分百分比占3600的相应比例确定的84饼图饼图:用圆形及圆内扇形的面积来表示数值大小的图形。198520环形图环形图中间有一个“空洞”,总体中的每一部分数据用环中的一段表示环形图与饼图类似,但又有区别饼图只能显示一个总体各部分所占的比例环形图则可以同时绘制多个总体的数据系列,每一个总体的数据系列为一个环环形图可用于进行比较研究环形图可用于展示分类数据和顺序数据86环形图环形图中间有一个“空洞”,总体中的每一部分数据用环中的8%36%31%15%7%33%26%21%13%10%
非常不满意
不满意
一般
满意
非常满意
图3-4甲乙两城市家庭对住房状况的评价878%36%31%15%7%33%26%21%13%10%非3.2.2顺序数据的整理与图示累积频数:将各有序类别的频数逐级累加起来得到的频数。
向上累积:从类别顺序的开始一方,向类别顺序的最后一方累加频数;
向下累积:从类别顺序的最后一方,向类别顺序的开始一方累加频数。2.累积频率:将各类别的百分比逐级累加883.2.2顺序数据的整理与图示累积频数:将各有序类别的频数【例3.5】在一项城市住房问题的研究中,研究人员在甲乙两个城市各抽样调查300户,其中的一个问题是:“您对您家庭目前的住房状况是否满意?
1.非常不满意;2.不满意;
3.一般;
4.满意;
5.非常满意。89【例3.5】在一项城市住房问题的研究中,研究人员在甲乙两个城甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)百分比(%)向上累积
向下累积
户数(户)百分比(%)户数(户)百分比(%)
非常不满意不满意一般满意非常满意24108934530836311510241322252703008.044.075.090.0100.03002761687530100.092562510合计300100.0————90甲城市家庭对住房状况评价的频数分布回答类别甲城市户数百分比向乙城市家庭对住房状况评价的频数分布回答类别乙城市户数(户)百分比(%)向上累积
向下累积
户数(户)百分比(%)户数(户)百分比(%)
非常不满意不满意一般满意非常满意209812040226.732.74013.37.3合计300100.0————91乙城市家庭对住房状况评价的频数分布回答类别乙城市户数百分比向乙城市家庭对住房状况评价的频数分布回答类别乙城市户数(户)百分比(%)向上累积
向下累积
户数(户)百分比(%)户数(户)百分比(%)
非常不满意不满意一般满意非常满意209812040226.732.74013.37.3201182382783006.739.479.492.7100300280182622210093.360.620.67.3合计300100.0————92乙城市家庭对住房状况评价的频数分布回答类别乙城市户数百分比向243001322252700100200300400
非常不满意
不满意
一般
满意
非常满意累积户数(户)(a)向上累积27616830300750100200300400
非常不满意
不满意
一般
满意
非常满意累积户数(户)(b)向下累积甲城市家庭对住房状况评价的累积频数分布图93243001322252700100200300400非常3.3数值型数据的整理与显示3.3.1数据的分组
分组方法等距分组异距分组单变量值分组组距分组943.3数值型数据的整理与显示3.3.1数据的分组单变量值分组
(要点)★
适合于离散变量★
适合于变量值较少的情况步骤:排序将一个变量值作为一组95单变量值分组
(要点)★适合于离散变量排序将一个
117122124129139107117130122125108131125117122133126122118108110118123126133134127123118112112134127123119113120123127135137114120128124115139128124121【例3.6】某生产车间50名工人日加工零件数如下(单位:个)。试采用单变量值对数据进行分组。
9611712212412913910710710810811011211211311411511711711711811811811912012012112212212212212312312312312412412412512512612612712712712812812913013113313313413413513713913997107108108110112某车间50名工人日加工零件数分组表零件数(个)频数(人)零件数(个)频数(人)零件数(个)频数(人)10710811011211311411511711812121113311912012112212312412512612712144322312812913013113313413513713921112211298某车间50名工人日加工零件数分组表零件数频数零件数频数零件数组距分组
(要点)■
适合于连续变量适合于变量值较多的情况将变量值的一个区间作为一组可采用等距分组,也可采用不等距分组~~~~~~~~~~99组距分组
(要点)■适合于连续变量~~组距分组
(几个概念)1.下限:一个组的最小值2.上限:一个组的最大值3.组距:上限与下限之差4.组中值:下限与上限之间的中点值下限值+上限值2组中值=100组距分组
(几个概念)1.下限:一个组的最小值下组距分组第1步:排序,确定组数(K)
5≤K≤15
能够显示数据的分布特征和规律第2步:确定组距组距=(最大值-最小值)÷组数
★
组距宜取5或10的倍数
101组距分组第1步:排序,确定组数(K)36◆第一组的下限应低于最小值,
◆最后一组的上限应高于最大值。遵循“不重不漏”的原则
第3步:根据分组整理成频数分布表上组限不在内102◆第一组的下限应低于最小值,上组限不在内37等距分组表
(上下组限间断)表3-6某车间50名工人日加工零件数分组表按零件数分组频数(人)频率(%)105~109110~114115~119120~124125~129130~134135~139358141064610162820128合计50100103等距分组表
(上下组限间断)表3-6某车间50名工人等距分组表
(上下组限重叠)表3-5某车间50名工人日加工零件数分组表按零件数分组频数(人)频率(%)105~110110~115115~120120~125125~130130~135135~140358141064610162820128合计50100104等距分组表
(上下组限重叠)表3-5某车间50名工人等距分组表
(使用开口组)表3-7某车间50名工人日加工零件数分组表按零件数分组频数(人)频率(%)110以下110~115115~120120~125125~130130~135135以上358141064610162820128合计50100105等距分组表
(使用开口组)表3-7某车间50名工人日用Excel制作数值型数据的频数分布表【工具】——【数据分析】——【直方图】【输入区域】:输入原始数据区域
【接收区域】:输入各组的上限值
【输出区域】:选择一个空白单元格(想要把输出的结果放在那里)
【柏拉图】、【累积百分率】(不需要时,可不选)选择【图表输出】106用Excel制作数值型数据的频数分布表【工具】——【数据分
利用FREQUENCY函数,制作频数分布表
FREQUENCY(Data_array,Bins_array)Data_array为计算频数的数据区域或数组
Bins_array为数据接收区间的数组,即指定的各分组的组上限值。注意:1.FREQUENCY函数返回的是一个数组;2.在输入函数前,应选定返回数组的区域;3.函数录入以后,应按住Ctrl+Shift+回车(确定)107利用FREQUENCY函数,制作频数分布表42分组数据—直方图用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图(Histogram)108分组数据—直方图用矩形的宽度和高度来表示频数分布的图形,实际直方图与条形图的区别条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义。直方图的各矩形通常是连续排列,条形图则是分开排列。条形图主要用于展示分类数据,而直方图则主要用于展示数值型数据。109直方图与条形图的区别条形图是用条形的长度(横置时)表示各类别分组数据—折线图折线图也称频数多边形图(Frequencypolygon)是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉折线图的两个终点要与横轴相交,具体的做法是第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的110分组数据—折线图折线图也称频数多边形图(Frequency1512963105110115120125130135140日加工零件数(个)频数(人)折线图下的面积与直方图的面积相等!某车间工人日加工零件数的折线图111151296310511011512012513013514未分组数据——茎叶图用于显示未分组的原始数据的分布由“茎”和“叶”两部分构成,其图形是由数字组成的以该组数据的高位数值作树茎,低位数字作树叶4.茎叶图类似于横置的直方图,但又有区别直方图可大体上看出一组数据的分布状况,但没有给出具体的数值茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息112未分组数据——茎叶图用于显示未分组的原始数据的分布47107108108110112112113114115117117117118118118119120120121122122122122123123123123124124124125125126126127127127128128129130131133133134134135137139139113107108108110112树茎树叶788022347778889001222233334445566777889013344579910111213数据个数3132410茎叶图类似横置的直方图某车间工人日加工零件数的茎叶图114树茎树叶78802234777888900122223333零件数Stem-and-LeafPlotFrequencyStem&Leaf
3.0010.788
5.0011.02234
8.0011.57778889
14.0012.00122223333444
10.0012.5566777889
6.0013.013344
4.0013.5799Stemwidth:10Eachleaf:1case(s)11550未分组数据—箱线图1.箱线图由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成2.其绘制方法是:首先找出一组数据的5个特征值,即最大值、最小值、中位数Me和两个四分位数(下四分位数QL和上四分位数QU)连接两个四分位数画出箱子,再将两个极值点与箱子相连接116未分组数据—箱线图1.箱线图由一组数据的5个特征值绘制而成中位数4681012QUQLX最大值X最小值简单箱线图117中位数4681012QUQLX最大值X最小值简单箱线图52分布的形状与箱线图
不同分布的箱线图左偏分布QL中位数
QULeft-skeweddistribution右偏分布QL
中位数
QURight-skeweddistribution对称分布QL中位数
QUBell-shapeddistribution118分布的形状与箱线图不同分布的箱线图左偏分布QL中位数未分组数据—多批数据箱线图【例】
从某大学经济管理专业二年级学生中随机抽取11人,对8门主要课程的考试成绩进行调查,所得结果如表。试绘制各科考试成绩的比较箱线图,并分析各科考试成绩的分布特征11名学生各科的考试成
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度年福建省高校教师资格证之高等教育心理学高分通关题型题库附解析答案
- 山西省煤矿建设六个标准目录3篇
- 高三综评自我陈述报告
- 期货入门知识
- 地板砖买卖协议2024年
- 2024商业借款保障协议规范
- 新人教版数学第二十五章-概率初步全章教学设计
- 2024年制定商品销售返购协议样例
- 2024年度房产项目融资安排协议
- 2024年化建筑工程施工承包协议
- 2024年江苏苏州高新区(虎丘区)城乡发展局公益性岗位招聘3人历年高频考题难、易错点模拟试题(共500题)附带答案详解
- 人教版(2024)七年级地理上册2.2《地形图的判读》精美课件
- 黄河商品交易市场介绍稿
- 人格障碍(分析“人格障碍”)49
- 2024中国海油校园招聘2024人(高频重点提升专题训练)共500题附带答案详解
- 孙中山诞辰纪念日主题班会主题班会
- 派出所外观建设形象规范
- 2024-2030年全球及中国半导体级磷烷行业现状动态及产销需求预测报告
- 2024年团务附有答案
- 液压动力滑台的PLC控制新版专业系统设计
- 2024年北京出版集团有限责任公司招聘笔试冲刺题(带答案解析)
评论
0/150
提交评论