数据分析方法与案例课件_第1页
数据分析方法与案例课件_第2页
数据分析方法与案例课件_第3页
数据分析方法与案例课件_第4页
数据分析方法与案例课件_第5页
已阅读5页,还剩73页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据分析

(方法与案例)

作者贾俊平统计学统

Statistics数据分析

(方法与案例)

作者贾俊平统计学统计

图并没有说谎,是说谎者在画图。

——BenjaminDisraeli

统计名言*图并没有说谎,是说谎者在画图。统计名言*第2章用图表展示数据2.1

用图表展示定性数据2.2用图表展示定量数据2.3合理使用图表Display第2章用图表展示数据2.1用图表展示定性数据学习目标定性数据的频数分布表定性数据的图示方法定量数据的频数分布表定量数据的图示方法用Excel和SPSS作频数分布表和图形合理使用图表*学习目标定性数据的频数分布表*用哪些图形展示奖牌?2009年7月26日至8月3日第13届世界游泳锦标赛在意大利罗马举行。美国的泳坛霸主地位难以撼动,中国军团也创造了史上第二的佳绩在本届游泳世锦赛上,中国代表团取得金牌数和奖牌与美国并列第一、奖牌榜排名第二的好成绩,而且中国男子游泳首次夺得世界性大赛的冠军并一举打破世界纪录。本届游泳世锦赛共设有奖牌227枚,其中金牌75枚、银牌75枚、铜牌77枚。下表是本届游泳世锦赛金牌总数取得前三名的国家所获得奖牌的分布情况*用哪些图形展示奖牌?2009年7月26日至8月3日第13届世用哪些图形展示奖牌?根据上面的数据,你认为可以选择哪些图形来展示三个国家所获得的奖牌情况?学完本章的图表展示技术,这样的问题就会迎刃而解*用哪些图形展示奖牌?根据上面的数据,你认为可以选择哪些图形来统计应用

把数据画图之后,要用用脑袋沃德(AbrahamWald)和许多统计学家一样,在第二次世界大战时也处理了战争与相关的问题。他发明的一些统计方法在战时被视为军事机密。以下是他提出的概念中较简单的一种沃德被咨询飞机上什么部位应该加强钢板时,开始研究从战役中返航的军机上受敌军创伤的弹孔位置。他画了飞机的轮廓,并且标识出弹孔的位置。资料累积一段时间后,几乎把机身各部位都填满了。于是沃德建议,把剩下少数几个没有弹孔的部位补强。因为这些部位被击中的飞机都没有返航资料来源:DavidS.Mroore*统计应用

把数据画图之后,要用用脑袋沃德(AbrahamW2.1用图表展示定性数据

2.1.1生成频数分布表

2.1.2定性数据的图示第2章用图表展示数据2.1用图表展示定性数据第2章用图表展示数据2.1.1生成频数分布表2.1用图表展示定性数据2.1.1生成频数分布表2.1用图表展示定性数据生成频数分布表

(定性数据)1. 列出各类别

2.计算各类别的频数3.生成频数分布表分类频数比例百分比比率ABCDE*生成频数分布表

(定性数据)1. 列出各类别定性数据的描述统计量频数(frequency)

:落在各类别中的数据个数比例(proportion)

:某一类别数据个数占全部数据个数的比值百分比(percentage)

:将对比的基数作为100而计算的比值比率(ratio)

:不同类别数值个数的比值*定性数据的描述统计量频数(frequency):落在各类别生成频数分布表

(定性数据)【例2-1】为研究人们对不同类型软饮料的偏好情况,一家调查公司在某超市随机调查了50名消费者。右表是顾客性别及其所偏好的饮料类型记录。生成频数分布表,观察不同性别的消费者及其所偏好的饮料类型的分布状况,并进行描述性分析

制作频数分布表Excel*生成频数分布表

(定性数据)【例2-1】为研究人们对不同类型使用Excel数据透视表计数

(pivottable)第1步:选择【数据】菜单中的【数据透视表和数据透视图】第2步:确定数据源区域(在操作前将光标放在任意数据单元格内,系统会自动选定数据源区域)第3步:在【向导—3步骤之3】中选择数据透视表的输出位置,然后选择【布局】第4步:在【向导—布局】对话框中,依次将“饮料类型”拖至左边的“行”(或列)区域,将“顾客性别”拖至“列”(或行)区域,将“饮料类型”拖至“数据”区域。第5步:单击【确定】,自动返回【向导—3步骤之3】对话框。单击【完成】用数据透视表生成定性数据的频数分布表Excel*使用Excel数据透视表计数

(pivottable)第生成频数分布表

(列联表—Excel)不同类型饮料和不同性别消费者的频数分布

用数据透视表生成定性数据的频数分布Excel*生成频数分布表

(列联表—Excel)不同类型饮料和不同性别用SPSS生成定性数据的频数分布表

(单变量频数分布表)第1步:选择【分析】

【描述统计—频率】进入主对话框第2步:将“饮料类型”或“顾客性别”选入

【变量】;选中【显示频率表格】第3步(若需要描述统计量或图形)主点【统计量】

或【图表】,并选择相应的选项。点击

【确定】生成频数分布表SPSS*用SPSS生成定性数据的频数分布表

(单变量频数分布表)第1生成频数分布表

(定性数据—SPSS)生成频数分布表SPSS*生成频数分布表

(定性数据—SPSS)生成频数分布表SPSS用SPSS生成定性数据的列联表

(Crosstabulation—交叉表)第1步:选择【分析】

【描述统计-交叉表】进入主对话框第2步:将“饮料类型”选入【行】,将“顾客性别”选入【列】(行列可以互换)第3步:

(若需要对列联表进行描述性分析)点击

【单元格】,在【百分比】下选中需要的统计量,如【行】、【列】、【总计】等;(若需要图形)点击【复式条形图】。点击【确定】

生成交叉频数分布表SPSS*用SPSS生成定性数据的列联表

(Crosstabulat列联表的描述性分析

(例题分析—SPSS)列联表的统计描述

*列联表的描述性分析

(例题分析—SPSS)列联表的统计描述列联表的描述性分析

(例题分析—SPSS)列联表的统计描述

*列联表的描述性分析

(例题分析—SPSS)列联表的统计描述数据透视表

(pivottable)可以从复杂的数据中提取有用的信息可以对数据表的重要信息按使用者的习惯或分析要求进行汇总和作图形成一个符合需要的交叉表(列联表)在利用数据透视表时,数据源表中的首行必须有列标题数据透视表Excel*数据透视表

(pivottable)可以从复杂的数据中提取生成频数分布表

(列联表—Excel)大学生生活费支出的频数分布

*生成频数分布表

(列联表—Excel)大学生生活费支出的频数2.1.2定性数据的图示2.1用图表展示定性数据2.1.2定性数据的图示2.1用图表展示定性数据条形图

(barChart)用宽度相同的条形的高度或长短来表示各类别数据各类别可放在纵轴,称为条形图,可以放在横轴,称为柱形图(columnchart)

*条形图

(barChart)用宽度相同的条形的高度或长短来复式条形图

(barChart)饮料类型和消费者性别的条形图

(SPSS的输出)

*复式条形图

(barChart)饮料类型和消费者性别的条形帕累托图

(paretochart)按各类别数据出现的频数多少排序后绘制的条形图用于展示分类数据的分布*帕累托图

(paretochart)按各类别数据出现的频数简单饼图

(pieChart)

用圆形及圆内扇形的角度来表示数值大小的图形,主要用于表示一个样本(或总体)中各组成部分的数据占全部数据的比例

用于研究结构问题*简单饼图

(pieChart)

用圆形及圆内扇形的角度来环形图

(doughnutchart)环形图中间有一个“空洞”,样本或总体中的每一部分数据用环中的一段表示与饼图类似,但又有区别饼图只能显示一个总体各部分所占的比例环形图则可以同时绘制多个样本或总体的数据系列,每一个样本或总体的数据系列为一个环用于结构比较研究*环形图

(doughnutchart)环形图中间有一个“空环形图

(doughnutchart)【例2-2】2019年北京、天津、上海和重庆地区按收入法计算的地区生产总值(按当年价格计算)数据。绘制环形图比较四个地区的生产总值构成绘制环形图Excel*环形图

(doughnutchart)【例2-2】2019环形图

(doughnutchart

)北京、天津、上海和重庆地区按收入法计算的地区生产总值*环形图

(doughnutchart)北京、天津、上海2.2用图表展示定量数据

2.2.1生成频数分布表

2.2.2定量数据的图示第2章用图表展示数据2.2用图表展示定量数据第2章用图表展示数据2.2.1生成频数分布表2.2用图表展示定量数据2.2.1生成频数分布表2.2用图表展示定量数据生成频数分布表

(例题分析)【例2-3】某电脑公司120天的销售额数据(单位:万元)。生成一张频数分布表观察销售额分布的特征*生成频数分布表

(例题分析)【例2-3】某电脑公司120天的生成频数分布表

(例题分析)确定组数:组数的确定应以能够显示数据的分布特征为目的。一般来说,组数大致等于样本量的平方根比较合适。本例可考虑分为10组确定组距:组距(ClassWidth)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即

组距=(最大值-最小值)÷组数

例如,本例最大值为237,最小值为141,组距=(237-141)÷10=9.6。为便于计算,组距宜取5或10的倍数,且第一组的下限应低于最小变量值,最后一组的上限应高于最大变量值,因此组距可取10统计出各组的频数。每个组的数据满足a

x<b(上限值不在内(Excel的计数规则是a<x

b)*生成频数分布表

(例题分析)确定组数:组数的确定应以能够显示分组中的几个概念1.下限(lowerlimit)

:一个组的最小值2.上限(upperlimit)

:一个组的最大值3.组距(classwidth)

:上限与下限之差4.组中值(classmidpoint)

:下限与上限之间的中点值下限值+上限值2组中值=制作频数分布Excel*分组中的几个概念1.下限(lowerlimit):一生成频数分布表

(例题分析)某电脑公司销售额的频数分布

*生成频数分布表

(例题分析)某电脑公司销售额的频数分布*使用Excel频数函数

(FREQUENCY)Excel的【直方图】工具的缺陷是:频数分布及直方图没有与数据链接,当改变任何一个数据时,频数分布表和直方图不会跟着改变使用统计函数【FREQUENCY】创建频数分布表和直方图可解决这一问题。具体步骤是选择与接受区域相临近的单元格区域,作为频数分布表输出的区域选择统计函数中的【FREQUENCY】函数在对话框【Date-array】后输入数据区域,在【Bins-array】后输入接受区域同时按下“ctrl-shift-Enter”组合键,即得到频数分布统计函数—FREQUENCYExcel*使用Excel频数函数(FREQUENCY)Excel的【用SPSS生成分组数据频数分布表

(命令:重新编码为不同变量)第一步:点击【转换】【重新编码为不同变量】第二步:将变量选入【输入变量->输出变量】,并在【输出变量】【名称】中写入输出变量的名称(如“分组区间”),单击【更改】第三步:单击【新值和旧值】。在【旧值】下单击【范围】,并写入分组区间的下限和上限值(注意,计数时每个组包含下限和上限值,即a=<X<=b)。单击【输出变量为字符串】。在【新值】后输入分组的区间,如140-150等(注意:为了和传统的统计分组相适应,这里不包含上限值。也可以输入140-149等),并单击【增加】……重复上一步骤,直至将所有分组区间增加完毕。单击【继续】。单击【确定】(此时“分组区间”变量会保存在SPSS的【数据视图】窗口中)第四步:单击【分析】【描述统计】【频率】。将分组区间变量选入【变量】。单击【确定】(注:在【频率】中选择【图表】可以绘制条形图,修改条形图的宽度至100%即为直方图)*用SPSS生成分组数据频数分布表

(命令:重新编码为不同变量用SPSS生成频数分布表

(命令:重新编码为不同变量)*用SPSS生成频数分布表

(命令:重新编码为不同变量)*用SPSS生成分组数据频数分布表

(命令:可视离散化)第一步:点击【转换】【可视离散化】第二步:将变量选入【要离散的变量】,单击【继续】第三步:在【离散的变量】后输入离散后要保存的变量名称,如“所属组别”。单击【生成分割点】,在【第一个分割点】后输入第一组的上限值,如149(注意,隐含为【包含】,计数时每个组包含下限和上限值,即a=<X<=b;如果输入上限值为150,则应该选择【排除<】);在【分割点数量】后输入要分的组数,如10;在【宽度】后输入分组的组距,如10。单击【应用】返回主对话框,并单击【生成标签】。单击【确定】(注:也可以直接在【网格】【值】中输入组的上限值,在【标签】中输入分组的区间。这样比较麻烦,不推荐使用)第四步:单击【分析】【描述统计】【频率】。将“所属组别”变量选入【变量】。单击【确定】(注:在【频率】中选择【图表】可以绘制条形图,修改条形图的宽度至100%即为直方图)*用SPSS生成分组数据频数分布表

(命令:可视离散化)第一步用SPSS生成频数分布表

(命令:重新编码为不同变量)*用SPSS生成频数分布表

(命令:重新编码为不同变量)*2.2.2定量数据的图示2.2用图表展示定量数据Excel2.2.2定量数据的图示2.2用图表展示定量数据分组数据看分布—直方图

(histogram)用于展示分组数据分布的一种图形用矩形的宽度和高度来表示频数分布本质上是用矩形的面积来表示频数分布在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数或频率就形成了一个矩形,即直方图*分组数据看分布—直方图

(histogram)用于展示分组数分组数据看分布—直方图

(SPSS绘制的直方图)

绘制直方图SPSS*分组数据看分布—直方图

(SPSS绘制的直方图)绘制直方分组数据看分布—直方图

(直方图与条形图的区别)条形图中的每一矩形表示一个类别,其宽度没有意义,而直方图的宽度则表示各组的组距由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列条形图主要用于展示定性数据,而直方图则主要用于展示定量数据*分组数据看分布—直方图

(直方图与条形图的区别)条形图中的每未分组数据看分布—茎叶图

(stem-and-leafplot)用于显示未分组的原始数据的分布由“茎”和“叶”两部分构成,其图形是由数字组成的以该组数据的高位数值作树茎,低位数字作树叶树叶上只保留最后一位数字茎叶图类似于横置的直方图,但又有区别直方图可观察一组数据的分布状况,但没有给出具体的数值茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息直方图适用于大批量数据,茎叶图适用于小批量数据*未分组数据看分布—茎叶图

(stem-and-leafpl未分组数据看分布—茎叶图

(例题分析)某电脑公司销售额分布的茎叶图*未分组数据看分布—茎叶图

(例题分析)某电脑公司销售额分布的未分组数据看分布—茎叶图

(例题分析)第一列给出每个茎上叶子的频数第二列是“茎”,第三列是“叶”下面标出了1个极端值237、茎的宽度10、每个叶代表一个数据(案例)SPSS自动将每个茎重复了一次,使分布的细节看的更清楚一些。当然,在数据较少时茎的数值也可以不重复*未分组数据看分布—茎叶图

(例题分析)第一列给出每个茎上叶未分组数据看分布—箱线图

(boxplot)用于显示未分组的原始数据的分布箱线图是由一组数据的最大值(maximum)、最小值(minimum)、中位数(median)、两个四分位数(quartiles)这5个值绘制而成的中位数是一组数据排序后处于中间位置上的变量值四分位数是一组数据排序后处在数据25%位置和75%位置上的两个分位数值绘制方法首先找出一组数据的5个特征值,即最大值、最小值、中位数Me和两个四分位数(下四分位数QL和上四分位数QU)连接两个四分位数画出箱子,再将两个最值点与箱子相连接*未分组数据看分布—箱线图

(boxplot)用于显示未分组未分组数据看分布—箱线图

(箱线图的构成)*未分组数据看分布—箱线图

(箱线图的构成)*未分组数据看分布—箱线图

(例题分析)贾俊平著《统计学》第五版*未分组数据看分布—箱线图

(例题分析)贾俊平著《统计学》第五分布的形状与箱线图*分布的形状与箱线图*未分组数据看分布—多批数据箱线图

(例题分析)【例2-4】

从某大学经济管理专业二年级学生中随机抽取11人,对8门主要课程的考试成绩进行调查,所得结果如表。试绘制各科考试成绩的比较箱线图,并分析各科考试成绩的分布特征11名学生各科的考试成绩数据课程名称学生编号1234567891011英语经济数学西方经济学市场营销学财务管理基础会计学统计学计算机应用基础76659374687055859095818775739178975176857092688171748869846573957078669073788470936379806087816786918377769070828382928481706972787578918866948085718674687962818155787075687177

绘制箱线图SPSS

绘制箱线图SPSS*未分组数据看分布—多批数据箱线图

(例题分析)【例2-4】用SPSS绘制多批数据箱线图第1步:选择【图形】下拉菜单,并选择【箱线图】第2步:在出现的对话框中选择【简单】,在

【图表中的数据为】中选择【各个变量的摘要】,点击【定义】返回主对话框第3步:在主对话框将所有变量(这里是11个学生)选入

【框的表征】,将“课程名称”选入

【标签个案依据】。点击【确定】

绘制箱线图SPSS*用SPSS绘制多批数据箱线图第1步:选择【图形】下拉菜单,未分组数据—多批数据箱线图

(例题分析—Median/Quart./Range)8门课程考试成绩的箱线图*未分组数据—多批数据箱线图

(例题分析—Median/Qua11名学生考试成绩的Median/Quart./Range箱线图未分组数据—多批数据箱线图

(SPSS绘制的箱线图)*11名学生考试成绩的Median/Quart./Range箱离群点和极值的定义中位数Q75%Q25%离群点:某个数据与四分位数(Q25%或Q75%)的距离(即差值)超过1.5倍的四分位差超过1.5倍的四分位差极值:某个数据与四分位数(Q25%或Q75%)的距离(即差值)超过3倍的四分位差离群点Xi*离群点和极值的定义中位数Q75%Q25%离群点:超过1.5倍垂线图可用于展示多个变量或多个样本取值的分布状况将属于同一样本或类别的多个取值的散点用一条垂线连接起来,用垂线的长度及垂线上的各个点来反映某个样本或类别取值的差异及其变动状况未分组数据—垂线图

(drop-line)用SPSS制作垂线图第1步:选择【图形】菜单,并选择【线图】第2步:在出现的对话框中选择【垂直线图】,在【图表中的数据为】中选择【个案值】,点击【定义】返回主对话框第3步:在主对话框中将所有变量选入【点的表征】。在【类别标签】下选择【个案号】,点击【确定】*垂线图可用于展示多个变量或多个样本取值的分布状况未分组数据—未分组数据—垂线图

(例题分析)11名学生8门课程考试成绩的垂线图*未分组数据—垂线图

(例题分析)11名学生8门课程考试成绩误差图是以均值为中心,加减一定倍数的标准差(也可以是加减一定倍数的标准误差)绘制而成的(该图也可以绘制均值的一定置信水平的置信区间)用于展示多个样本或分类的不同取值的分布状况和离散状况未分组数据—误差图

(errorbar)用SPSS制作误差图第1步:选择【图形】菜单,并选择【误差条形图】。第2步:在出现的对话框中选择【简单】,在【图表中的数据为】中选择【各个变量的摘要】,点击【定义】返回主对话框。第3步:在主对话框中将所有变量选入【误差条】。在【条的表征】下选择【标准差】,在【乘数】框内输入所需的标准差倍数。点击【确定】。*误差图是以均值为中心,加减一定倍数的标准差(也可以是加减一定未分组数据—误差图

(例题分析)11名学生8门课程考试成绩的误差图(均值加减2倍的标准差)*未分组数据—误差图

(例题分析)11名学生8门课程考试成绩两个变量间的关系—二维散点图

(2DScatterplots)展示两个变量之间的关系用横轴代表变量x,纵轴代表变量y,每组数据(xi

,yi)在坐标系中用一个点表示,n组数据在坐标系中形成的n个点称为散点,由坐标及其散点形成的图有2维、3维、矩阵等形式*两个变量间的关系—二维散点图

(2DScatterplo两个变量间的关系—二维散点图

(2DScatterplots)【例2-5】

我国31个地区2019年的固定资产投资额、地区生产总值(GDP)和最终消费支出数据。绘散点图并观察它们之间的关系*两个变量间的关系—二维散点图

(2DScatterplo用SPSS绘制重叠散点图

(OverlayScatter)第1步:选择【图形】菜单,并选择【散点/点状】第2步:如果绘制两个变量的简单散点图,点击【简单分布】,点击【定义】,将两个变量分别选入【Y轴】和【X轴】,点击【确定】如果要绘制重叠散点图,点击【重叠分布】,点击【D定义】,将所要配对的数据依次选入【Y-X对】(本例为“固定资产投资额-地区生产总值”和“固定资产投资额-最终消费支出”),点击【确定】如果要绘制矩阵散点图,点击【矩阵分布】,将几个变量(本例为“固定资产投资额”、“地区生产总值”和“固定资产投资额”)同时选入【矩阵变量】,将区分坐标轴的样本(本例为“地区”)选入【标注个案】,点击【确定】

绘制重叠散点图SPSS*用SPSS绘制重叠散点图

(OverlayScatter两个变量间的关系—二维散点图

(2DScatterplots)

绘制散点图SPSS*两个变量间的关系—二维散点图

(2DScatterplo如果想比较几个变量之间的关系,也可以把它们的散点图绘制在同一张图里,绘制成重叠散点图(OverlayScatter)(注意:绘制重叠散点图时,变量值之间的数值差异不能过大,否则不便于比较)比如,如果想比较固定资产投资额与地区生产总值和最终消费支出的关系,可以把固定资产投资作为共同的一个坐标轴,地区生产总值和最终消费支出作为另一个坐标轴也可以绘制散点图矩阵(MatrixScatter)两个变量间的关系—重叠散点图

(用SPSS绘制重叠散点图)*如果想比较几个变量之间的关系,也可以把它们的散点图绘制在同一两个变量间的关系—重叠散点图

(OverlayScatter)*两个变量间的关系—重叠散点图

(OverlayScatte两个变量间的关系—矩阵散点图

(Matri

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论