应用统计学-第2章数据的图表展示_第1页
应用统计学-第2章数据的图表展示_第2页
应用统计学-第2章数据的图表展示_第3页
应用统计学-第2章数据的图表展示_第4页
应用统计学-第2章数据的图表展示_第5页
已阅读5页,还剩111页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

陈小慧管理学院应用统计学经过《喜羊羊与灰太狼》全集统计,灰太狼一共被红太狼的平底锅砸过9544次,被喜羊羊捉弄过2347次,被食人鱼追过769次,被电过1755次,捉羊想过2788个办法,奔波过19658次,足迹能绕地球954圈,至今一只羊也没吃到,他并没有放弃。想想灰太狼,我们现在的一点苦又算什么呢?本·拉登的英文名字是0sama,奥巴马的英文名字是0bama,一字之差,天壤之别。一个是s,一个是b,加起来是sb。。。沃德(AbrahamWald)和许多统计学家一样,在第二次世界大战时也处理了战争与相关的问题。他发明的一些统计方法在战时被视为军事机密。以下是他提出的概念中较简单的一种沃德被咨询飞机上什么部位应该加强钢板时,开始研究从战役中返航的军机上受敌军创伤的弹孔位置。他画了飞机的轮廓,并且标识出弹孔的位置。资料累积一段时间后,几乎把机身各部位都填满了。于是沃德建议,把剩下少数几个没有弹孔的部位补强。因为这些部位被击中的飞机都没有返航了解数据预处理的内容和目的掌握分类和顺序数据的整理与显示方法掌握数值型数据的整理与显示方法用Excel和SPSS作频数分布表和图形合理使用图表问卷调查:又称为民意调查,是以社会成员对一定社会经济现象的看法和意愿为对象,从而推断社会心态动向的一种调查。问卷通常由3部分组成:说明词:列于问卷前面,说明调查目的、内容和要求等主题问句:用来搜集资料的一系列问句,是问卷的主体作业记录:问卷执行完成情况的记录说明词:列于问卷前面,说明调查目的、内容和要求等主题问句:用来搜集资料的一系列问句,是问卷的主体作业记录:问卷执行完成情况的记录例如:说明词

员工满意度问卷调查尊敬的员工:每年我们都对员工进行调查以有助于我们为您提供最好的工作环境。请花费一点时间填写如下简短的调查表。对您的回答内容我们会绝对保密。提前谢谢您对本研究的参与和支持!问卷编排顺序时间顺序内容顺序,先易后难类别顺序:静态、行为、态度先封闭后开放等问卷的类型按结构分类无结构型问卷即问卷的内容结构较为松散或较为简单的问卷,便于被调查者自由发表意见结构型问卷即根据调查研究的目的和调查对象的特点而设计的具有结构的问卷,易于量化和进行数据的统计处理结构型问卷按提问方式分:封闭型提问对问卷的调查项目都列出备选答案由被调查者选择例如:您家里安装了空调吗安装了没有安装目前的工作给我一种成就感。很同意

同意

很难说

不同意

您的年收入是多少?2万元以下2万-3万3万-4万4万元以上非结构型问卷开放型提问即指所提问题不列出备选答案,答题类型也不作出任何具体规定,而由被调查者根据自己的想法用文字表达自己的意见。例如:您认为当前我国股票市场存在的主要问题是什么?您的主要投资意向是什么?您认为应用统计学这门课该怎么上才有好的效果?

影响问卷效果的因素被调查者的主观倾向测量工具即问卷本身的问题

如:问卷问题过多,使人疲乏;

问句选项内容层次不清,设计不科学;

问句涉及个人情感、隐私等。问卷环境

如:问卷现场的条件和特点,避免被调查者交头接耳,相互影响;*问卷组织者的行为和态度,不能对被调查者产生引导作用。问句常用的方式是否式:用是、否、能、不能表示;例:这种学习方式是否帮助您解决了学习矛盾?

是()否()选择式:包括类别型、条件型、等距型等;例:类别型

如:您最喜欢的面对面的教学方式是:

系统讲授()总结归纳()讨论()

答疑()辅导()其他()例:等距型

如:学校提供的上网服务适合您的需要吗?适合()基本适合()一般()基本不适合()不适合()

例:条件型如:1)您是否在网上学习?是()否()

如果是,请回答第二题;如果不是请回答第三题;2)您在哪里上网学习?家里()工作单位()学校()其他()

例:5点量表型如:您利用图书馆网站上的教学信息吗?从未利用很少利用有时利用较多利用一直利用12345

例:表格型排序式:列出对某一问题不同层次的答案,由被调查者排出次序,表示自己的态度和倾向;

例:请按您喜欢的程度,对下面的教学方式排序系统讲授()总结归纳()答疑()辅导()填空式:适用于对静态的情况提问,如基本情况:姓名、年龄、性别、学历、条件、设施、制度、机构等。态度量表通过逐个问题的回答,量化主观态度,获取整个态度的总分。其量化的结果,一是态度的方向,如对某种商业服务满意或不满意的基本倾向;二是态度的深度,即被调查者所持某种态度的数量程度。李克特量表(LikertScales)1.数据的预处理2.品质型数据的整理与显示3.数值型数据的整理与显示4.如何合理使用统计图表数据审核检查数据中的错误数据筛选找出符合条件的数据数据排序升序和降序寻找数据的基本特征数据透视按需要汇总LX:统计成绩考核表2.1数据的预处理完整性审核应调查的单位或个体是否有遗漏所有的调查项目或变量是否填写齐全准确性审核数据是否真实反映实际情况,内容是否符合实际数据是否有错误,计算是否正确等适用性审核弄清楚数据的来源、数据的口径以及有关的背景材料确定数据是否符合自己分析研究的需要时效性审核尽可能使用最新的数据确认是否有必要做进一步的加工整理2.1数据的预处理按一定顺序将数据排列,以发现一些明显的特征或趋势,找到解决问题的线索排序有助于对数据检查纠错,以及为重新归类或分组等提供依据在某些场合,排序本身就是分析的目的之一排序可借助于计算机完成1.分类数据的排序字母型数据,习惯上用升序汉字型数据,可按汉字的首位拼音字母排列,也可按笔画排序,其中也有笔画多少的升序降序之分2.数值型数据的排序递增排序:设一组数据为x1,x2,…,xn,递增排序后可表示为:x(1)<x(2)<…<x(n)递减排序:可表示为:x(1)>x(2)>…>x(n)2.1数据的预处理当数据中的错误不能予以纠正,或者有些数据不符合调查的要求而又无法弥补时,需要对数据进行筛选数据筛选的内容将某些不符合要求的数据或有明显错误的数据予以剔除将符合某种特定条件的数据筛选出来,而不符合特定条件的数据予以剔除2.1数据的预处理可以从复杂的数据中提取有用的信息可以对数据表的重要信息按使用者的习惯或分析要求进行汇总和作图形成一个符合需要的交叉表(列联表)在利用数据透视表时,数据源表中的首行必须有列标题2.2.1分类数据的整理与图示2.2.2数值型数据的整理与图示要弄清所面对的数据类型不同类型的数据,采取不同的处理方式和方法对分类数据和顺序数据主要是作分类整理对数值型数据则主要是作分组整理适合于低层次数据的整理和显示方法也适合于高层次的数据;但适合于高层次数据的整理和显示方法并不适合于低层次的数据频数(frequency):落在各类别中的数据个数比例(proportion):某一类别数据个数占全部数据个数的比值百分比(percentage):将对比的基数作为100而计算的比值比率(ratio):不同类别数值个数的比值在2008年8月北京举办的第29届奥运会上,中国体育代表团共获得51枚金牌,占中国队获得奖牌总数的51%。这里的“51%”是()

A.平均数

B.频数

C.比例

D.比率某地区2008年新生婴儿中,男性婴儿为25万,女性婴儿为20万。男性婴儿与女性婴儿的人数之比为1.25:1,这个数值属于()

A.比例

B.比率

C.频数

D.平均数CB1. 列出各类别2.计算各类别的频数3.生成频数分布表【例2.3】为研究不同类型的软饮料的市场销售情况,一家市场调查公司对随机抽取的一家超市进行调查。下面的表2—1是调查员随机观察的50名顾客购买的饮料类型及购买者性别的记录。生成频数分布表,观察饮料类型和消费者性别的分布状况,并进行描述性分析

制作频数分布表绿色健康饮品Excel第1步:选择【插入】菜单中的【数据透视表和数据透视图】第2步:确定数据源区域第4步:在【向导—3步骤之3】中选择数据透视表的输出位置。然后选择【布局】第5步:在【向导—布局】对话框中,依次将“分类变量“(这里是“饮料品牌”)连续拖放两次:一次拖至左边的“行”区域,一次拖至“数据”区域第6步:然后单击【确定】,自动返回【向导—3步骤之3】对话框。然后单击【完成】,即可输出数据透视表整理EXCEL文件“例2-1.xls”将“例2-1.xls”转换成SPSS文件分析—描述统计—频率分析—描述统计—交叉表不同类型饮料和顾客性别的频数分布

绿色健康饮品用宽度相同的条形的高度或长短来表示各类别数据各类别可放在纵轴,称为条形图,可以放在横轴,称为柱形图(columnchart)饮料类型和顾客性别的条形图

(SPSS的输出)

按各类别数据出现的频数多少排序后绘制的柱形图用于展示分类数据的分布

用圆形及圆内扇形的角度来表示数值大小的图形,主要用于表示一个样本(或总体)中各组成部分的数据占全部数据的比例用于研究结构问题练习题按各类别数据出现的频数多少排序后绘制的柱形图称为()。下面图形中最适合描述结构性问题的图形是()。A、条形图B、饼图C、帕累托图D、对比条形图1.累积频数(cumulativefrequencies):各类别频数的逐级累加2.累积频率(cumulativepercentages):各类别频率(百分比)的逐级累加例:频数频率向上累计向下累计124232385085018——向上累计向下累计【例2.4】在一项城市住房问题的研究中,研究人员在甲乙两个城市各抽样调查300户,其中的一个问题是:“您对您家庭目前的住房状况是否满意?”

1.非常不满意;2.不满意;3.一般;4.满意;5.非常满意。甲城市家庭对住房状况评价的累积频数分布环形图中间有一个“空洞”,样本或总体中的每一部分数据用环中的一段表示与饼图类似,但又有区别饼图只能显示一个总体各部分所占的比例环形图则可以同时绘制多个样本或总体的数据系列,每一个样本或总体的数据系列为一个环用于结构比较研究用于展示分类和顺序数据练习题下列哪个图形适合于比较研究两个或多个总体或结构性问题的图形是()。A、环形图B、饼图C、帕累托图D、对比条形图2.3.1数据分组2.3.2数值型数据的图示分组方法等距分组异距分组单变量值分组组距分组1.将一个变量值作为一组2.适合于离散变量3.适合于变量值较少的情况将变量值的一个区间作为一组适合于连续变量适合于变量值较多的情况需要遵循“不重不漏”的原则可采用等距分组,也可采用不等距分组~~~~~“上限不在内”原则当相邻两组的上下限重叠时,恰好等于某一组上限的变量值不算在本组内,而计算在下一组内。例如:150不算在“140~150”150算在“150~160”1.

下限(lowlimit):一个组的最小值2.上限(upperlimit):一个组的最大值3.组距(classwidth):上限与下限之差4.组中值(classmidpoint):下限与上限之间的中点值下限值+上限值2组中值=例:1.第一组的组距为多少?2.销售额38应分到哪一组?3.“30~34”的上限值为多少?4.“42~46”的下限值为多少?5.“34~38”的组中值为多少?6.“30以下”组中值为多少?1.某连续变量数列,其末组为开口组,下限为500,相邻组的组中值为480,则末组的组中值为()A520B510C500D540A2.按连续变量分组,第一组400~500,第二组500~600,第三组600~700,第四组700以上,则()A500在第一组B500在第二组C700在第三组D600在第二组B【例2.5】某电脑公司2005年前四个月各天的销售量数据(单位:台)。试对数据进行分组确定组数:组数的确定应以能够显示数据的分布特征为目的。在实际分组时,组数一般为5K15。本例中由于数据较多,可考虑分为10组。Sturges经验公式确定组数确定组距:组距=(最大值-最小值)÷组数

本例组距=(237-141)÷10=9.6。为便于计算,组距宜取5或10的倍数第一组的下限应低于最小变量值,最后一组的上限应高于最大变量值因此组距可取10。确定组数确定组距:3.统计出各组的频数每个组的数据满足上组限值不在内原则不重不漏原则课本P39第6题1.

以组距为5进行等距分组,整理频数分布表2.

绘制直方图某电脑公司销售额的频数分布Excel的【直方图】工具的缺陷是:频数分布及直方图没有与数据链接,当改变任何一个数据时,频数分布表和直方图不会跟着改变使用统计函数【FREQUENCY】创建频数分布表和直方图可解决这一问题。具体步骤是选择与接受区域相临近的单元格区域,作为频数分布表输出的区域选择统计函数中的【FREQUENCY】函数在对话框【Date-array】后输入数据区域,在【Bins-array】后输入接受区域同时按下“ctrl-shift-Enter”组合键,即得到频数分布Excel用于展示分组数据分布的一种图形用矩形的宽度和高度来表示频数分布本质上是用矩形的面积来表示频数分布在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图第1步:选择【图形】下拉菜单,并选择

【直方图】选项进入主对话框第2步:在主对话框中将变量选入【变量】

,点击【完成】140150210某电脑公司销售量分布的直方图我一眼就看出来了,销售量在170~180之间的天数最多!190200180160170频数(天)25201510530220230240用于显示未分组的原始数据的分布由“茎”和“叶”两部分构成,其图形是由数字组成的以该组数据的高位数值作树茎,低位数字作树叶树叶上只保留最后一位数字某电脑公司销售量分布的茎叶图第1步:选择【分析】下拉菜单,并选择

【描述统计-探索】

选项进入主对话框第2步:在主对话框中将变量选入【因变量】,点击【绘图】,在对话框中选择【茎叶图】

(根据需要可选【直方图】以给出直方图)。点击【继续】回到主对话框。点击【完成】课本P39第6题3.制作茎叶图,与直方图进行比较用于显示未分组的原始数据的分布箱线图是由一组数据的最大值(maximum)、最小值(minimum)、中位数(median)、两个四分位数(quartiles)这5个值绘制而成的中位数是一组数据排序后处于中间位置上的变量值四分位数是一组数据排序后处在数据25%位置和75%位置上的两个分位数值

绘制方法首先找出一组数据的5个特征值,即最大值、最小值、中位数Me和两个四分位数(下四分位数QL和上四分位数QU)连接两个四分位数画出箱子,再将两个极值点与箱子相连接4681012Median/Quart./Range箱线图中位数Q75%Q25%XMaxXMin不同分布的箱线图对称分布Bell-shapeddistributionLeft-skeweddistribution左偏分布右偏分布Right-skeweddistribution【例】

从某大学经济管理专业二年级学生中随机抽取11人,对8门主要课程的考试成绩进行调查,所得结果如表。试绘制各科考试成绩的批比较箱线图,并分析各科考试成绩的分布特征第1步:选择【图形】下拉菜单,并选择【箱图】第2步:在出现的对话框中选择【简单】,在

【图中的数据为】中选择【各个变量的摘要】

,点击【定义】

返回主对话框第3步:在主对话框将所有变量(这里是11个学生)选入

【框的表征】,将“课程名称”选入

【标签个案依据】。点击【OK】8门课程考试成绩的箱线图11名学生考试成绩的箱线图1.中位数:看平均考试成绩2.长度:看离散程度,集中程度3.分布形状:看对称情况4.离群点:看特殊时间序列数据【例2.7】我国1991~2003年城乡居民家庭的人均收入数据如表。试绘制线图¥

表示时间序列数据趋势的图形时间一般绘在横轴,数据绘在纵轴图形的长宽比例大致为10:7一般情况下,纵轴数据下端应从“0”开始,以便于比较。数据与“0”之间的间距过大时,可以采取折断的符号将纵轴折断展示两个变量之间的关系用横轴代表变量x,纵轴代表变量y温度降雨量产量显示三个变量之间的关系图中数据点的大小依赖于第三个变量也称为蜘蛛图(spiderchart)显示多个变量的图示方法在显示或对比各变量的数值总和时十分有用假定各变量的取值具有相同的正负号,总的绝对值与图形所围成的区域成正比可用于研究多个样本之间的相似程度【例2.9】2003年我国城乡居民家庭平均每人各项生活消费支出构成数据如表。试绘制雷达图今天的主食是面包数据类型品质数据数值型数据汇总表原始数据分组数据时序数据多元数据条形图饼图茎叶图箱线图直方图折线图线图散点图气泡图雷达图环形图2.4合理使用图表

2.4.1鉴别图形优劣的准则

2.4.2统计表的设计5种鉴别图表优劣的准则:一张好的图表应当精心设计、有助于洞察问题的实质使复杂的观点得到简明、确切、高效的阐述能在最短的时间内以最少的笔墨给读者提供最大量的信息是多维的表述数据的真实情况一张好的图表应包括以下基本特征显示数据让读者把注意力集中在图表的内容上,而不是制作图表的程序上避免歪曲,强调数据之间的比较服务于一个明确的目的有对图表的统计描述和文字说明行标题列标题数字资料表头附加数据预处理的内容和目的分类和顺序数据的整理与显示方法数值型数据的整理与显示方法合理使用图表用Excel与SPSS作频数分布表和图形在2008年8月北京举办的第29届奥运会上,中国体育代表团共获得51枚金牌,占中国队获得奖牌总数的51%。这里的“51%”是()

A.平均数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论