《统计学基础》课件项目3-用图表展示数据-_第1页
《统计学基础》课件项目3-用图表展示数据-_第2页
《统计学基础》课件项目3-用图表展示数据-_第3页
《统计学基础》课件项目3-用图表展示数据-_第4页
《统计学基础》课件项目3-用图表展示数据-_第5页
已阅读5页,还剩71页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

图并没有说谎,是说谎者在画图。——本杰明·迪斯雷利项目三

用图表展示数据任务一任务二任务三任务四数据的预处理数值型数据的整理与展示品质数据的整理与展示合理使用图表知识目标:1.能理解统计数据的图表展示意义。2.能描述数据的类型和质量要求,理解不同数据的分类方法。3.能描述数据来源、数据收集方法和统计调查方式。技能目标:1.能根据所给数据编制统计表。2.能根据所给数据绘制各种统计图表。知识结构:案例:某市就电脑辅助应用软件在本市各建筑施工企业的应用进行了调研,供采集了50家建筑施工企业的数据,反馈的有效数据为48组。任务1数据的预处理3.1.1数据审核数据审核就是检查数据中是否有错误。对于通过调查取得的原始数据(rawdata),主要从完整性和准确性两个方面去审核。完整性审核主要是检查的单位或个体是否有遗漏,所有的调查项目是否填写齐全等。准确性审核主要是检查数据是否有错误,是否存在异常值等。对于异常值要仔细进行鉴别:如果异常值属于记录时的错误,在分析之前应予以纠正;如果异常值是一个正确的值,则应予以保留。对于通过其他渠道取得的二手数据,应着重审核数据的适用性和时效性。例3.1.1表3-1是10名学生6门课程的考试成绩数据(单位:分)。试找出商品学等于70分的学生,管理学成绩最高的前三名学生,六门课程都大于70分的学生。第1步:【数据】菜单,并选择【筛选】命令。如果要筛选出满足给定条件的数据,可使用【自动筛选】命令

第2步:在下拉箭头框内选择要筛选出的数据。3.1.3数据排序数据排序是按一定顺序将数据排列,以便研究者通过浏览数据发现一些明显的特征或趋势,找到解决问题的线索,除此之外,排序还有助于对数据检查纠错以及为重新归类或分组提供方便。美国的《财富》杂志每年都要在全世界范围内排出五百强企业,通过这一信息不仅可以了解自己企业所处的地位,还可以从一个侧面了解到竞争对手的状况,有效制定企业的发展规划和战略目标。拓展阅读3-1:《财富》世界500强排行榜一直是衡量全球大型公司的最著名、最权威的榜单,被誉为“终极榜单”,由《财富》杂志每年发布一次。3.1.4数据透视表为了从复杂的数据中提取有用的信息,可以利用Excel提供的【数据透视表】(pivottable)工具。利用数据透视表,可以对数据表的重要信息按使用者的习惯或分析要求进行汇总和作图,形成一个符合要求的交叉表(列联表)。在利用数据透视表时,数据源表中的首行必须有列标题。例:在某大学随机抽取20名学生,调查他们的性别、民族、家庭所在地、平均月生活费、月愿意支付摄影费用、影响摄影的因素等,得到的数据如表3—2所示。试建立一个数据透视表,在表的行变量中给出性别平均月生活费和月愿意支付摄影费用,在列变量中给出学生的家庭所在地区,对影响摄影的因素进行交叉汇总。数据透视表创建步骤第一步:从“插入”菜单栏中选取“数据透视表”第二步:“数据透视表”对话窗口的设置“数据透视表”字段选择思考3.1:什么是统计图?解析:统计图(StatisticalDiagram/StatisticalGraph),是指利用几何图形或具体事物的形象和地图等形式来表现社会经济现象数量特征和数量关系的图形。为了使市场调研资料的表达直观生动、通俗易懂、便于分析比较等,可以利用统计图进行市场调研分析、预测和分析现象之间的数量关系及变化发情情况。任务2品质数据的整理与展示数据经过预处理后,可根据需要进一步做分类或分组。在对数据进行整理时,首先要弄清楚所面对的是什么类型的数据,因为不同类型的数据,所采取的处理方式和所适用的处理方法是不同的。对品质数据主要是做分类整理,对数值型数据则主要是做分组整理。品质数据包括分类数据和顺序数据,它们整理和图形展示的方法上大多上是相同的,但也有些微小差异。1)频数与频数分布频数(frequency)是落在某一特定类别或组中的数据个数。把个别类别及落在其中的相应频数全部列出,并用表格形式表现出来,称为频数分布(frequencydistribution)。例:为研究性别与愿意和谁一起拍照,进行了抽样调查。下表是调查员随机调查的100名学生愿意一起合拍对象及性别的记录。生成频数分布表,合拍对象和性别的分布状况,并进行描述性分析。使用数据透视表进行技术和汇总。具体做法是:在【数据透视】对话框中,依次将“合拍对象”加入“行”(或列)区域,将“性别”加入到“列”(或行)区域,将“合拍对象”加入“数据”区域。使用【数据分析】工具中(Excel【数据分析】工具安装。Excel【数据分析】工具提供了一些常用统计方法的程序。如果你的及其还没有安装此项功能,需要安装后才能使用。步骤如下:第一步:在Excel工作表界面中点击【工具】下拉菜单,找到【加载宏】选项并单击。第二步:在【可用加载宏】选项中选中【分析工具库】,然后单击【确定】,系统会提示你安装。第三步:将office安装盘插入光驱,然后单击【确定】即可。【直方图】命令也可以生成频数分布表。“行”是“合拍对象”变量,“列”是“性别”变量(当然,行和列可以交换,也可以生成只含一个变量的频数分布表)。这种由两个或两个以上变量交叉分类的频数分布表也称为列联表(contingencytable)。二维的列联表(两个变量交叉分类)也称为交叉表(crosstable)。分类数据图示如果用图形来显示频数分布,就会更形象和直观。一张好的统计图表,往往胜过冗长的文字表述。统计图的类型有很多,多数统计图除了可以绘制而为平面图,还可以绘制三维立体图。图形的制作均可由计算机来完成。这里首先介绍分类数据的图示方法,其中包括条形图、帕累托图、饼图等。如果有两个总体或两个样本的分类相同问题且问题可比,还可以绘制环形图。(1)条形图条形图(barchart)是用宽度相同的条形的高度或长度来表示数据多少的图形。条形图可以横置或纵置,纵置时也可以称为柱形图(columnchart)。此外,条形图有简单条形图、复式条形图等形式。(2)帕累托图帕累托图(paretochart)是以意大利经济学家V.Pareto的名字命名的,该图是按照类别数据出现的频数多少排序后绘制的条形图。通过对条形的排序,容易看出哪类数据出现的多,哪类数据出现的少。(3)饼图饼图(piechart)是用圆形及圆内扇形的角度来表示数值大小的图形,它主要用于表示一个样本(或总体)中各组成的数据占全部数据的比例,对于研究结构性问题十分有用。比较男女合拍对象的构成状况,可以绘制复式饼图。它是简单饼图的嵌套,主要用于展示两个或多个分类变量的构成比较,比如,在男女分类的基础上又增加了合拍对象的分类。(4)环形图简单饼图只能显示一个样本各部分所占的比例。比如,把5个地区的人口分别按高收入,中等收入和低收入划分成3部分,要比较5个地区不同收入的人口构成,则需要绘制5个饼图,这种做法既不经济也不便于比较。能否用一个图形比较出5个地区不同收入的人口构成呢?把饼图叠在一起,挖去中间的部分就可以了,这就是环形图(doughnutchart)。环形图与饼图类似,但又有区别。环形图中有一个“空洞”,每个样本用一个环来表示,样本中的每一部分数据用环中的一段表示。因此环形图可显示多个样本各部分所占的相应比例,从而有利于构成比较研究。顺序数据的整理与图示上面介绍的分类数据的频数分布表和图示方法,如频数、比例、百分比、比率、条形图和饼图等,也都适用于对顺序数据的整理与显示。但适用于顺序数据的整理和显示方法,还可以计算累积频数和累积频率(百分比)。累积频数(cumulatiefrequencies)是将各有序类别或组的频数逐级累加起来得到的频数,频数的累积方法有两种:一是从类别顺序的开始一方向类别顺序的最后一方累加频数(数值型分组则是从变量值小的一方向变量值大的一方累加频数),称为向上累积;二是从类别顺序的最后一方向类别顺序的开始一方累加频数(数值型分组数据则是从变量值大的一方向变量值小的一方累加频数),称为向下累积。通过累积频数,可以很容易看出某一类别(或数值)以下或某一类别(或数值)以上的频数之和。例:在一项有关校师生对学校教学设备评价、管理水平和质量评价研究中,研究人员调查在校师生200名,一个问题是:“您对学校管理水平和质量评价是否满意?”要求回答的类别依次如下:1.非常不满意;2.不满意;3.一般;4.满意;5非常满意。另一个问题是:“您对学校教学设备评价是什么?”要求回答的类别依次是:⒈非常齐全;2齐全.;3.一般;4.不齐全;5.非常不齐全回答类别人数(人)频率(%)向上累计向下累计人数(人)频率(%)人数(人)频率(%)非常不齐全84.0084.00200100.00不齐全189.002613.0019296.00一般12361.5014974.5017487.00齐全4422.0019396.505125.50非常齐全73.50200100.0073.50合计200100.00----回答类别人数(人)频率(%)向上累计向下累计人数(人)频率(%)人数(人)频率(%)非常不满意63.0063.00200100.00不满意126.00189.0019297.00一般14070.0015879.0018291.00满意3417.0019296.004221.00非常满意84.00200100.0084.00合计200100.00----任务3数值型数据的整理与展示3.3.1数据分组数据分组是根据统计研究的需要,将原始数据按照某种标准化分成不同的组别,分组后的数据称为分组数据(groupeddata)。数据分组的主要目的是观察数据的分布特征。数据经分组后再计算出各组中数据出现的频数,就形成了一张频数分布表。数据分组的方法有单变量值分组和组距分组两种。单变量分组单变量分组数列,简称单项数列,它是指数列中每一个组的变量值只有一个,即一个变量值代表一个组。单变量值分组是把每一个变量值作为一组,这种分组通常只适合离散变量,且在变量值较少的情况下使用。有20个工人看管机器台数资料如下:2,5,4,4,3,4,3,4,4,2,2,4,3,4,6,3,4,5,2,4。如按以上资料编制频数分布表。工人看管机器情况频数分布表看管机器(台)人数(人)频率向上累积向下累计人数(人)频率人数(人)频率2420%420%20100%3420%840%1680%4945%1785%1260%5210%1995%315%615%20100%15%合计20100%————————组距式分组组距式分组变量数列,简称组距数列,它是指每个组是用两个变量值所确定的一个区间范围来表示,在连续变量或变量值较多的离散变量情况下,通常采用组距分组。它是将全部变量值依次划分为若干个区间,并将这一区间的变量值作为一组。如果各组的组距相等,就叫等距数列。若不等就叫做非等距数列。我国第五次人口普查我国大陆人口年龄分布学生按成绩分组成绩(分)人数(人)频率60——7038%70——802768%80——90820%90——10025%合计40100%1、组限:在组距分组中,一个组的最小值称为下限(lowerlimit):一个组的最大值称为上限(upperlimit)。A、组限的表示方法有:(1)重叠组限:如:10——2020——30…归下原则:当某个标志值刚好是相邻两组上下限数值时,一般把此值归并到下限组。(2)不重叠组限(只适用于离散变量):如:10——2021——30…B.组的表示方法:(1)闭口组:上、下限都有(2)开口组:上、下限有一缺一组距式分组的有关概念组距式分组的有关概念2、组距计算公式:组距(i)=上限–下限种类:根据各组组距是否相等,组距数列可分为:等距数列、非等距数列表示方法:一般用5.10、20、50、100等类似数字表示。另一相似的概念:全距(R)=最大变量值–最小变量值组距式分组的有关概念3.组中值概念:每组中点的数值计算公式:对于开口组,需先假定其所缺的上限或下限(假设开口组的组距与其相邻组的组距相等)。(缺上限)组中值=下限+邻组组距/2(缺下限)组中值=上限-邻组组距/24.组数(K)组数、组距、全距之间存在如下关系:

可用经验公式来确定:K=1+3.322lgn但最佳决定还是依据常识和数列使用的目的而定。一般情况下,不应少于5组且不多于15组。组距式分组的有关概念3.3.2数值型数据的图示上面介绍的条形图、饼图、环形图及累积分布图等都适用于显示数值型数据。此外,对数值型数据还有下面的一些图示方法,这些方法并不适用于分类数据和顺序数据。(一)分组数据:直方图用图形来展示数据的分布会更形象、直观。显示分组数据频数分布特征的图形直方图、直线图和曲线图。直方图(histogram)是用来展示分组数据分布的一种图形,它是用矩形的宽度和高度(即面积)来表示频数分布的。绘制该图时,在平面直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,这样,各组与相应的频数就形成了一个矩形,即直方图。例如,根据表3—7中的分组数据用Excel绘制的直方图如图3—17所示。直方图与条形图不同。首先,条形图条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或频率,宽度则表示各组的组距,因此其高度与宽度均有意义。其次,由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列。最后,条形图主要用于展示分类数据,而直方图则主要用于展示数值型数据。(二)未分组数据:茎叶图1.茎叶图茎叶图(stem-and-leafdisplay)是反映原始数据分布的图形。它由茎和叶两部分构成,其图形是有数字组成的。通过茎叶图,可以看出数据的分布形状以及数据的离散状况,比如,分布是否对称,数据是否集中,是否有离群点,等等。绘制茎叶图的关键是设计好茎。制作茎叶图时,首先把一个数字分成两部分,通常是以该数据的高位数值作为树茎,而且叶上只保留该数值的最后一个数字。2.箱线图。箱线图(boxplot)是由一组数据的最大值(maximum)、最小值(mini-mum)、中位数(mediam)、两个四分位数(quartiles)这五个特征值绘制而成的,它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较。箱线图的绘制方法是:先找出一组数据的最大值、最小值、中位数和两个四分位数;然后,连接两个四分位数画出箱子,再把最大值和最小值相连,中位数放在箱子中间。(三)时间序列数据:线图如果数值型数据是在不同时间上取得的,即时间序列数据,则可以绘制线图。线图(lineplot)主要于反映现象随时间变化的特征。(四)多变量数据的图示上面介绍的一些图形描述的都是单变量数据。当有两个或两个以上变量时,可以采用多变量的图示方法,常见的有散点图、气泡图、雷达图等。1.散点图散点图(scatterdiagram)是用二维坐标展示两个变量之间关系的一种图形。它是用坐标横轴代表变量x,纵轴代表变量y,每组数据(xⅰ,yⅰ)在坐标系中用一个点表示,n组数据在坐标系中形成的n个点称为散点,由坐标及其散点形成的二维数据图称为散点。2.雷达图(radarchart)是显示多个变量的常用图示方法,也称为蜘蛛图(spiderchart)。设有n组样本S1,S2,…….Sn,每个样本测得P个变量X1,X2,……..Xn,要绘制这P个形成的变量的雷达图,其具体做法是:先画一个圆,然后将圆P平等分,得到P个点,令P个点分别对应P个变量,再将这P个点与圆心连线,得到P个辐射状的半径,这P个半径分别作为P个变量的坐标轴,每个变量值的大小由半径上的点到圆心得距离表示,再将同一样本的值在P个坐标上的点连线。这样,n个样本形成的n个多边形就是一张雷达图。雷达图显示或对比各变量的数值总和时十分有用。假定各变量的取值具有相同的正负号,则总的绝对值与图形所围成的区域成正比。此外,利用雷达图也可以研究多个样本之间的相似度。2006年我国西部地区城镇居民生活消费支出(元)项目支出食品2770.24衣著818.14家庭设备460.85医疗保健513.88交通通信900.74教育娱乐1021.43居住756.42杂项262.7任务4合理使用图表统计图和统计表是展示数据的两种方式。在生活中,阅读报纸杂志,或者在看电视、查阅计算机网络时,我们都能看到大量的统计图表。统计表把杂乱的数据有条理地组织在一张简明的表格内。在对某些实际问题进行研究时,也经常要使用统计表和统计图。正确地使用统计表和统计图是做好分析的最基本技能。3.4.1.鉴别图形优劣的准则一张精心设计的图形是展示数据的有效工具。上面介绍了用图形来展示数据的方法,借助计算机可以绘制出漂亮的图表。但是注意的是,初学者往往会在图形的修饰上花费时间和精力,这样做得不尝失,或许会画蛇添足。精心设计的图形可以准确表达数据所要传递的信息。设计图形时,应绘制得尽可能简洁。塔夫特指出,一张好的图形具有以下的基本特征:(1)显示数据。(2)把注意力集中在图形的内容上,而不是在制作图形的程序上。(3)避免歪曲。(4)强调数据间比较。(5)服务于明确的目的。(6)对图形的统计描述和文字说明。五条鉴别图形优劣的准则:(1)一张好图应当精心设计,有助于观察问题

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论