《统计学:思想方法与应用》第章分类数据的描述分析_第1页
《统计学:思想方法与应用》第章分类数据的描述分析_第2页
《统计学:思想方法与应用》第章分类数据的描述分析_第3页
《统计学:思想方法与应用》第章分类数据的描述分析_第4页
《统计学:思想方法与应用》第章分类数据的描述分析_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、一张好图胜过千言万语一张好图胜过千言万语15:541第第 3 章章 分类数据的描述分析分类数据的描述分析3.1 数据的预处理数据的预处理3.2 频数表频数表3.3 统计图统计图 3.4 列联表列联表 15:542学习目标学习目标 用频数表描述数据的分布;用频数表描述数据的分布; 用条形图、饼图、百分条图等图形来展用条形图、饼图、百分条图等图形来展示数据;示数据; 用列联表分析两个分类指标之间的关系;用列联表分析两个分类指标之间的关系; 相关理论在统计软件中的应用;相关理论在统计软件中的应用; 相应统计分析结果的解读。相应统计分析结果的解读。15:543用哪些图形展示奖牌?用哪些图形展示奖牌?

2、在在2012年年伦敦奥运会上,中国队以伦敦奥运会上,中国队以38金金27银银22铜位列奥运金牌榜和奖牌铜位列奥运金牌榜和奖牌榜第二位,这也是中国境外参赛以来榜第二位,这也是中国境外参赛以来取得的取得的最好最好成绩,美国队以成绩,美国队以46金金29银银29铜铜104奖牌高居榜首。奖牌高居榜首。 东道主英国东道主英国位居第三位居第三15:544用哪些图形展示奖牌?用哪些图形展示奖牌? 根据上面的数据,你认为可以选择哪些根据上面的数据,你认为可以选择哪些图图形形来展示三个国家所获得的奖牌情况?学完本来展示三个国家所获得的奖牌情况?学完本章的图表展示技术,这样的问题就会迎刃而解章的图表展示技术,这样

3、的问题就会迎刃而解排名排名国家及地区国家及地区男子男子女子女子混合混合金金银银铜铜金金银银铜铜金金银银铜铜1 1美国美国1717151513132929141415150 00 01 12 2中国中国17178 811112020181812121 11 10 03 3英国英国17179 913139 96 65 53 32 21 115:545数据分析包括三种形式数据分析包括三种形式 为数据画一个图为数据画一个图 制作一个表制作一个表 计算一些我们感兴趣的东西计算一些我们感兴趣的东西15:5463.1数据的预处理数据的预处理 主要包括:数据的主要包括:数据的审核、筛选、排队审核、筛选、排队(

4、1)数据的审核与筛选)数据的审核与筛选 a、审核、审核: 对对 第一手资料第一手资料(直接调查或试验取得):审核其(直接调查或试验取得):审核其完整性完整性与与准确性准确性 完整性完整性审核:应调查的单位或个体是否有遗漏;审核:应调查的单位或个体是否有遗漏;所调查的项目是否填齐全。所调查的项目是否填齐全。 准确性准确性审核:内容是否符合实际;计算是否正确。审核:内容是否符合实际;计算是否正确。 如如:文化程度:小学文化程度:小学 职业:大学教师职业:大学教师 对对第二手资料第二手资料(获取他人的资料):审核其(获取他人的资料):审核其完整完整性、准确性、适用性、时效性性、准确性、适用性、时效性

5、15:547b、筛选:、筛选: 剔除不符合要求的数据或有明显错误的数据;剔除不符合要求的数据或有明显错误的数据; 将符合特定条件的数据筛选出来。将符合特定条件的数据筛选出来。15:548(2)数据的排序)数据的排序 数据排序数据排序是按一定顺序将数据排列是按一定顺序将数据排列。排序排序方式方式: 数字型数据数字型数据/字母型数据字母型数据升序或降序升序或降序 汉字型数据汉字型数据多种多种排序排序目的目的: a、通过浏览数据发现一些明显的特征、通过浏览数据发现一些明显的特征趋势趋势或或解决问题的线索;解决问题的线索; b、有助于数据的检查、有助于数据的检查纠错纠错; c、为分组提供依据。、为分组

6、提供依据。15:549 统计分组统计分组是将预处理过的数据按照是将预处理过的数据按照某种特征或标某种特征或标准准分成不同的组别。分成不同的组别。 统计分组变量统计分组变量:分组时所依据的特征或标准,有:分组时所依据的特征或标准,有定性变量定性变量和和定量变量定量变量。 频数分布表频数分布表:对分组后的数据,计算各组中数据对分组后的数据,计算各组中数据出现的次数或频数所形成的汇总表。出现的次数或频数所形成的汇总表。 预处理数据分组计算频数描述统计描述统计3.2 频数分布表频数分布表15:54103.2 频数分布表(定性数据)频数分布表(定性数据)1. 列出各类别列出各类别搜索引擎搜索引擎访问量访

7、问量访问比例访问比例Google5062954.34%Direct2217323.80%Yahoo72727.80%MSN31663.40%SnapLink9461.02%其他其他898789879.65%总计总计9317393173100%定义:选择一个定义:选择一个变量变量对对总体分组,并计算落在总体分组,并计算落在各组中的频数所形成的各组中的频数所形成的分布。分布。分组频数15:5411频数分布表频数分布表1.频数频数(frequency) :落在各类别中的:落在各类别中的数据数据个数个数2.比例(比例(proportion) :某一类别数据个数占:某一类别数据个数占全部数据个数的比值全

8、部数据个数的比值3.百分比(百分比(percentage) :将对比的基数作为:将对比的基数作为100而计算的比值而计算的比值15:5412用用Excel生成频数分布表生成频数分布表态度态度频数频数不知道不知道9 9既不反对也不赞成既不反对也不赞成173173完全不赞成完全不赞成5050完全赞成完全赞成235235有些不赞成有些不赞成8282有些赞成有些赞成223223总计总计77277215:5413使用数据透视表使用数据透视表(实例)(实例) 如果想获得更生动的展示,我们可以使用如果想获得更生动的展示,我们可以使用统计图统计图。 统计图统计图是用是用几何图形几何图形或或具体事物具体事物的形

9、象来表现的形象来表现统计数据的一种形式。统计数据的一种形式。 统计图既可以统计图既可以节省节省大量文字叙述,又可大量文字叙述,又可便于便于数数据的对比分析与积累。利用统计图表现统计数据,据的对比分析与积累。利用统计图表现统计数据,能能更为更为鲜明醒目、一目了然、形象具体地显示现象鲜明醒目、一目了然、形象具体地显示现象之间的相互关系。之间的相互关系。 按照图形的形式,统计图大体上可以分为按照图形的形式,统计图大体上可以分为几何图、几何图、象形图象形图和和统计地图统计地图三种。三种。15:54143.3 3.3 统计图统计图 (1)几何图几何图。几何图是利用。几何图是利用几何的形和线几何的形和线来

10、表明统计数据的来表明统计数据的图形,包括图形,包括条形图、饼图条形图、饼图等。等。 (2)象形图象形图。象形图是以表示。象形图是以表示现象本身形象现象本身形象的长度、大小、的长度、大小、多少来表示数值大小的一种图形。多少来表示数值大小的一种图形。 (3)统计地图统计地图。统计地图是用不同的颜色或纹理表示变量或。统计地图是用不同的颜色或纹理表示变量或某种指标在某种指标在地域上的分布特征及规律,地域上的分布特征及规律,用以用以显示不同地域事显示不同地域事物数量的分布情况物数量的分布情况。例如可以利用颜色的深浅来表示某地区。例如可以利用颜色的深浅来表示某地区各县某种产品的生产情况。如右图所示:各县某

11、种产品的生产情况。如右图所示:15:5415条形图条形图1.用用宽度相同宽度相同的条形的条形的的高度高度或或长短长短来表来表示各类别数据示各类别数据2.各类别可放在纵轴,各类别可放在纵轴,称为称为条形图条形图,可以,可以放在横轴,称为放在横轴,称为柱柱形 图 (形 图 ( c o l u m n chart) 15:5416复式条形图复式条形图15:5417百分条图百分条图多组百分比的比较多组百分比的比较15:5418帕累托图帕累托图-关键的少数和次要的多数关键的少数和次要的多数 1.按各类别数按各类别数据出现的频据出现的频数多少数多少排序排序后绘制的柱后绘制的柱形图形图 2.用于展示用于展示

12、分分类数据类数据的分的分布布 该帕累托图该帕累托图表明表明:对网站的访问主要途径依靠:对网站的访问主要途径依靠Google和和Direct,KEEN公司需要在这两个途径上进行加强和改进。公司需要在这两个途径上进行加强和改进。图图3.8 不同类型搜索引擎的频数分布表绘制的帕累托图不同类型搜索引擎的频数分布表绘制的帕累托图15:5419关键的少数关键的少数次要的多数次要的多数简单饼图简单饼图 用圆形及用圆形及圆内扇形的圆内扇形的角度来表示角度来表示数值大小的数值大小的图形,主要图形,主要用于表示一用于表示一个样本(或个样本(或总体)中总体)中各各组成部分的组成部分的数据占全部数据占全部数据的比例数

13、据的比例 用于研究用于研究结构结构问题问题15:5420复合饼图(示例)复合饼图(示例)环形图环形图1. 环形图中间有一个环形图中间有一个“空洞空洞”,样本或总,样本或总体中的每一部分数据用环中的一段表示体中的每一部分数据用环中的一段表示2. 与饼图类似,但又有与饼图类似,但又有区别区别饼图只能显示一个总体各部分所占的比饼图只能显示一个总体各部分所占的比例例环形图则可以同时绘制环形图则可以同时绘制多个多个样本或总体样本或总体的数据系列,每一个样本或总体的数据的数据系列,每一个样本或总体的数据系列为一个环系列为一个环3. 用于结构比较研究用于结构比较研究 15:5421环形图环形图多个总体的结构

14、多个总体的结构15:5422多变量数据多变量数据雷达图雷达图(实例)(实例)【例例】甲乙甲乙两班成绩如两班成绩如下下。试绘制。试绘制雷达图。雷达图。成绩成绩甲班人数甲班人数 乙班人数乙班人数优优3 36 6良良6 61515中中18189 9及及9 98 8不及格不及格4 42 215:5423多变量数据多变量数据雷达图雷达图15:54243.4 列联表列联表 之之初始初始数据数据 一般一般,若若总体中的个体可按两个属性总体中的个体可按两个属性A与与B分类,分类,A有有r个等级个等级A1,A2,,Ar;B有有个等级个等级B1,B2,,Bc,从从总体中抽取大小为总体中抽取大小为n的样本,设的样本

15、,设其中有其中有nij个属个属于等级于等级Ai和和Bj,nij称为频数,将称为频数,将r个个nij(i=1,2,,r;j=1,2,,)排列为一个排列为一个r行行列的二维列的二维列联表,列联表,简简称称r表表15:54253.4 列联表列联表 之之初始初始数据数据 为为了解了解不同地区或市场对一款新凉鞋款式的接受不同地区或市场对一款新凉鞋款式的接受程度,程度, 调查调查了了5个国家个国家772名顾客名顾客 收集两个变量:收集两个变量:态度态度和和国家国家 态度有态度有“完全赞成、有些赞成、既不反对也不赞完全赞成、有些赞成、既不反对也不赞成、有些不赞成、完全不赞成、不知道成、有些不赞成、完全不赞成

16、、不知道”6个个水平水平 国家类别有国家类别有5个个国家,表示该变量有国家,表示该变量有5个水平个水平15:5426见练习(初始数据见练习(初始数据)【例例2-1】对对初始数据初始数据前面数据生成前面数据生成频数分布表频数分布表,观察,观察不同国家的顾客及态度分布状况,并进行描述性分析不同国家的顾客及态度分布状况,并进行描述性分析 3.4 列联表列联表 之频数分布表之频数分布表15:5427态度态度汇总汇总比例比例累积比例累积比例不知道不知道91.2%100.0%既不反对也不赞成既不反对也不赞成 17323.4%98.8%完全不赞成完全不赞成506.5%76.4%完全赞成完全赞成23530.4

17、%69.9%有些不赞成有些不赞成8210.6%39.5%有些赞成有些赞成22328.9%28.9%能否看出不同国家的人态度是否不同?使用数据透视表(例)3.4 列联表列联表表表3.7 对新凉鞋的接受态度的调查数据表(列联表)对新凉鞋的接受态度的调查数据表(列联表)对新凉鞋的态度对新凉鞋的态度完全赞完全赞成成有些赞成有些赞成既不反对既不反对也不赞成也不赞成有些不赞有些不赞成成完全不赞完全不赞成成不知道不知道 总计总计国国家家中国中国5258251231151法国法国3548402192154印度印度9628137100154英国英国21415023183156美国美国31484519103156

18、总计总计23522317382509772 列联表列联表(contingency table)是由两个或两个以上变量进行交叉分)是由两个或两个以上变量进行交叉分类得到的频数分布表。类得到的频数分布表。 列联表中间的各个变量不同水平的交汇处,就是这种水平组合出现列联表中间的各个变量不同水平的交汇处,就是这种水平组合出现的的频数频数或计数(或计数(count)。)。 构成列联表的变量都是分类变量或顺序变量。一个构成列联表的变量都是分类变量或顺序变量。一个 r 行行 c 列的列联列的列联表表称为称为 rc 列联表列联表,一般的把,一般的把22的二维列联表又称为交叉表。的二维列联表又称为交叉表。 列联

19、表可以有很多维。维数多的叫做列联表可以有很多维。维数多的叫做高维列联表高维列联表。15:54 28能否看出不同国家的人态度是否不同?用SPSS生成定性数据的列联表 (Crosstabulation交叉表)第第1步:步:选择【Analyze】【Descriptive Statistics- Crosstabs】进入主对话框第第2步:步:将“国家”选入【Row(s)】,将“态度”选 入【Column(s)】(行列可以互换)第第3步:步: (若需要对列联表进行描述性分析)点击 【Cells】,在【Percentages】下选中需要的统计 量,如【Row】、【Column】、【Total】等;(若 需

20、要图形)点击【Display clustered bar chart】。 点击【OK】15:54293.4 列联表列联表之之总的百分数总的百分数 为了更便于理解,我们可以把对应于为了更便于理解,我们可以把对应于总的百分数总的百分数的这的这部分数据单独拿出来,见表部分数据单独拿出来,见表3.9。 表表3.9 展示总的百分数的列联表展示总的百分数的列联表对新凉鞋的态度对新凉鞋的态度完全赞成完全赞成 有些赞成有些赞成既不反对既不反对也不赞成也不赞成有些不赞成有些不赞成 完全不赞成完全不赞成 不知道不知道总计总计国国家家中国中国6.74%7.51%3.24%1.55%0.39%0.13% 19.56%

21、法国法国4.53%6.22%5.18%3.72%1.17%0.26% 19.95%印度印度 13.44%3.63%1.68%0.91%1.30%0.00% 19.95%英国英国3.72%5.31%6.48%3.98%3.33%0.39% 20.21%美国美国4.02%6.22%5.83%3.46%1.30%0.39% 20.21%总计总计 30.44%28.89%23.41%10.62%6.48%1.17%100%3.4 列联表列联表 使用列联表更感兴趣的问题是了解使用列联表更感兴趣的问题是了解变量之间有变量之间有没有关联。没有关联。 比如,我们希望知道比如,我们希望知道中国人完全赞成新款式的

22、中国人完全赞成新款式的比例与美国人完全赞成新款式的比例有没有区别,比例与美国人完全赞成新款式的比例有没有区别,换句话说,被调查者对新款式的赞成是否依赖于被换句话说,被调查者对新款式的赞成是否依赖于被调查者所在的国家。调查者所在的国家。 可以从两方面看这个问题。首先,每个国家的可以从两方面看这个问题。首先,每个国家的对新凉鞋态度的分布是怎样的,这需要看表对新凉鞋态度的分布是怎样的,这需要看表3.8的的行百分数,于是得到表行百分数,于是得到表3.10。15:55313.4 列联表列联表之条件分布之条件分布表表3.10 两个国家对新凉鞋态度的条件分布两个国家对新凉鞋态度的条件分布态度态度合计合计完全

23、赞成完全赞成有些赞成有些赞成既不反对也不赞既不反对也不赞成成有些不赞成有些不赞成完全不赞完全不赞成成不知道不知道中国中国占比占比%52525858252512123 31 115115134.4%34.4%38.4%38.4%16.6%16.6%7.9%7.9%3.0%3.0%.7%.7%100%100%美国美国占比占比%313148484545191910103 315515519.9%19.9%30.8%30.8%28.8%28.8%13.2%13.2%6.4%6.4%1.9%1.9%100%100%15:553215:5533中美态度条形对比图中美态度条形对比图15:553415:553

24、5哪个环代表哪个环代表中国中国/美国?美国?中美态度环形对比图中美态度环形对比图3.4 列联表列联表之案例之案例 列联表中的一个经典例子就是著名的列联表中的一个经典例子就是著名的泰坦尼泰坦尼克号克号邮轮的海难数据。邮轮的海难数据。 该数据有该数据有4个个定性变量:定性变量: (1) 仓位等级(仓位等级(Class):分一等舱():分一等舱(1st)、二)、二等舱(等舱(2nd)、三等舱()、三等舱(3rd)、船员()、船员(Crew)四个水)四个水平;平; (2) 性别(性别(Sex):有男():有男(Male)、女()、女(Female) 两个水平;两个水平; (3) 年龄:有儿童(年龄:有儿童(Child)、成年人()、成年人(Adult)两个水平;两个水平; (4) 是否生还(是否生还(Survived):分否():分否(No)、是)、是(Yes)两个水平。)两个水平。15:5536 该数据最简单的表格是该数据最简单的表格是两维两维的表格。下面是的表格。下面是基于性别与否生还两个变量得到的基于性别与否生还两个变量得到的22

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论