描述统计学:表格法和图形法_第1页
描述统计学:表格法和图形法_第2页
描述统计学:表格法和图形法_第3页
描述统计学:表格法和图形法_第4页
描述统计学:表格法和图形法_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第3章 描述统计学 表格法和图形法 3.1 品质型数据汇总 3.2 数量型数据汇总 3.3 交叉分组表(选学) 3.4 散点图表1 50次饮料购买的样本数据可口可乐可口可乐可口可乐雪碧可口可乐加多宝凉茶康师傅冰红茶 加多宝凉茶康师傅冰红茶 加多宝凉茶百事可乐雪碧可口可乐百事可乐百事可乐加多宝凉茶可口可乐雪碧加多宝凉茶百事可乐可口可乐加多宝凉茶百事可乐百事可乐百事可乐可口可乐可口可乐可口可乐可口可乐百事可乐康师傅冰红茶可口可乐可口可乐可口可乐可口可乐加多宝凉茶雪碧可口可乐可口可乐康师傅冰红茶百事可乐可口可乐百事可乐百事可乐百事可乐百事可乐加多宝凉茶可口可乐康师傅冰红茶 雪碧3.1 品质型数据汇总

2、3.1.1 频数分布频数分布频数分布:频数分布是一种数据的表格汇总,频数分布:频数分布是一种数据的表格汇总,表示在几个互不重叠组别中的每一组项目的个数表示在几个互不重叠组别中的每一组项目的个数(即频数)。(即频数)。软件操作:软件操作:EXCELEXCEL中的函数中的函数countif(range, criteria)的应用的应用表1 50次饮料购买的样本数据可口可乐可口可乐可口可乐雪碧可口可乐加多宝凉茶康师傅冰红茶 加多宝凉茶康师傅冰红茶 加多宝凉茶百事可乐雪碧可口可乐百事可乐百事可乐加多宝凉茶可口可乐雪碧加多宝凉茶百事可乐可口可乐加多宝凉茶百事可乐百事可乐百事可乐可口可乐可口可乐可口可乐可

3、口可乐百事可乐康师傅冰红茶可口可乐可口可乐可口可乐可口可乐加多宝凉茶雪碧可口可乐可口可乐康师傅冰红茶百事可乐可口可乐百事可乐百事可乐百事可乐百事可乐加多宝凉茶可口可乐康师傅冰红茶 雪碧表2 饮料购买次数的频数分布饮料频数可口可乐19加多宝凉茶8百事可乐13康师傅冰红茶5雪碧5总计503.1.2 3.1.2 相对频数分布和百分数频数分布相对频数相对频数:一组的相对频数是所属组别的项目个数占总数的比例。对一个有n个观测值的数据集, 每每一一组的相对频数组的相对频数= =每一组的频数每一组的频数/n/n百分数频数百分数频数:一组的百分数频数是相对频数乘以100相对频数分布相对频数分布是表示每一组的相

4、对频数数据的表格汇总。百分数频数分布百分数频数分布是每一组的百分数频数数据的表格汇总。表3 3 饮料购买次数的相对频数和百分比频数饮料频数相对频数百分数频数可口可乐190.38 38加多宝凉茶80.16 16百事可乐130.26 26康师傅冰红茶50.10 10雪碧50.10 10总计501.00 1003.1.3 3.1.3 条形图和饼形图条形图条形图:用来描绘已汇总的品质型数据的频数分布、相对频数分布或百分数频数分布。画法画法:横轴横轴对数据分组的标记对数据分组的标记纵轴纵轴频数、相对频数或百分数频数的刻度频数、相对频数或百分数频数的刻度固定宽度绘制的长条放置在每一组的标记上,固定宽度绘制

5、的长条放置在每一组的标记上,长条的高度为该组的频数、相对频数或百分数长条的高度为该组的频数、相对频数或百分数频数。频数。对于品质型数据,应将这些长条分隔开,以强对于品质型数据,应将这些长条分隔开,以强调每一组是相互独立这一事实。调每一组是相互独立这一事实。0.002.004.006.008.0010.0012.0014.0016.0018.0020.00可口可乐加多宝凉茶百事可乐康师傅冰红茶雪碧频数频数饮料饮料图图1 饮料购买次数的条形图饮料购买次数的条形图图图2 饮料购买次数的条形图饮料购买次数的条形图饼形图:描绘品质型数据的相对频数和百分数频数分布的图形方法。画法:(1)一个圆形代表所有的

6、数据(2)圆形内包括若干扇形部分(3)扇形与每一组的相对频数相对应可口可乐38%加多宝凉茶16%百事可乐26%康师傅冰红茶10%雪碧10%图图3 3 饮料饮料购买次数的饼形图购买次数的饼形图可口可乐38%加多宝凉茶16%百事可乐26%康师傅冰红茶10%雪碧10%图图3 3 饮料饮料购买次数的饼形图购买次数的饼形图练习:1.1.根据根据某某媒体调查,在某段时间内,收视率最媒体调查,在某段时间内,收视率最高的高的4 4个电视娱乐节目是中国好声音、非你莫个电视娱乐节目是中国好声音、非你莫属、属、非诚勿扰非诚勿扰和天天向上。一个有和天天向上。一个有5050名电视观名电视观众的样本数据参见电视节目众的样

7、本数据参见电视节目.xls.xls.请回答:请回答:(1 1)这些数据是品质型数据还是数量型数据?)这些数据是品质型数据还是数量型数据?(2 2)给出这些数据的频数分布和百分数频数)给出这些数据的频数分布和百分数频数分布分布(3 3)画出这些数据的条形图和饼形图?)画出这些数据的条形图和饼形图?(4 4)以样本为基础,哪个节目拥有最大的市)以样本为基础,哪个节目拥有最大的市场份额?那个位居第二?场份额?那个位居第二?2.20112.2011年某家商业银行顾客满意度调查,要求顾年某家商业银行顾客满意度调查,要求顾客说明对他们的理财顾问是否满意。回答的等级客说明对他们的理财顾问是否满意。回答的等级

8、从从1 1到到7 7,其中,其中1 1表示非常不满意,表示非常不满意,7 7表示极其满意。表示极其满意。假设对某个指定的理财顾问,由假设对某个指定的理财顾问,由6060个人回答结果个人回答结果参见数据集,银行参见数据集,银行.xls.xls。请回答:。请回答:(1 1)说明这些数据为什么是品质型数据)说明这些数据为什么是品质型数据(2 2)做出汇总数据的频数分布和相对频数分布)做出汇总数据的频数分布和相对频数分布(3 3)画出汇总数据的条形图和饼形图。)画出汇总数据的条形图和饼形图。(4 4)在你汇总的基础上,说明顾客对理财顾问)在你汇总的基础上,说明顾客对理财顾问的综合评价。的综合评价。3.

9、2 数量型数据汇总3.2.1 频数分布频数分布的定义与品质型数据一样,关键在于对于频数分布的互不重叠的组的确定。步骤:(1)确定互不重叠组的个数(分组)(2)确定每一组的组距(3)确定组限根据数量型变量是离散性的还是连续性的,可以分成两种情况:(1)单项式分组:就是把每一个变量值作为一组。这种方法通常只适于离散变量且变量值较少的情况。例3.1 某车间50个工人看管机床台数资料如下:3 6 2 4 3 2 6 4 3 2 4 2 5 2 6 2 3 5 4 3 2 3 6 5 4 2 4 3 2 2 3 5 4 5 6 2 2 6 4 3 2 6 3 4 5 4 5 2 3 52) 组距式分组组

10、距式分组就是将全部变量值依次划分为若干区间,并将这一区间的变量值作为一组。适用于:连续变量离散变量且变量值较多组距:等距分组适用于变量值的变动比较均匀 不等距分组适用于变动很不均匀,且变动幅度大例:对学生成绩的分组可以分为020分、2040分、4060分、6080分、80100 例:学生成绩分组也可分为060(D) 6080(C) 8090(B) 90100(A)关键问题:分组数目的确定组距的确定表4 分组组数参考表N15242544458990179180359k56789以下主要介绍等距分组的基本步骤: 第一,数据排序; 第二,分组数目的确定;使每组所包含的数据个数,平均不少于4个或5个,

11、或采用斯特吉斯经验公式,即 k = 1+3.322lgNk为组数;N为总体中的个体数。第三,组距的确定组距=(最大值-最小值)组数第四,组限的确定组限的选择应做到第一组的下限应略低于最小变量值,最后一组的上限应高于最大变量值。离散型变量:相邻组的上下限可以不重叠连续型变量:相邻两组的组限可以重叠,即上一组的上限同时也是下一组的下限。用“上限不在内”原则解决重复问题。当变量值变动范围较大时,最小组为“以下”,最大组为“以上”的开口组。第五,组中值的确定 组中值=(上限+下限 )2 开口组的组中值: 组中值=下限+邻组组距/2(缺上限) 组中值=上限邻组组距/2(缺下限)3.2.2 3.2.2 相

12、对频数分布和百分数频数分布相对频数:一个组的观测值占总数的比例。对于n个观测值,组的相对频数=组频数/n组的百分数频数是相对频数乘以100.例:一家会计师事务所,对其一个包含20个客户的样本,完成年终审计所需求的时间的数据集,通过对表中的审计时间数据构建频数分布来演示步骤。 表5 年末审计时间(天数)频数的求法:函数 countif ( range, criteria )1214191815151817202722232221332814181613表6 审计时间数据的频数分布审计时间/天频数相对频数百分数频数10-1440.20 2015-1980.40 4020-2450.25 2525-

13、2920.10 1030-3410.05 5总计201.00 1003.2.4 直方图直方图是一种常用的数量型数据的图形描绘方式。由先前已汇总出的频数分布、相对频数分布或百分数频数分布等资料可构建直方图。画法:(1)所关心的变量放置在横轴上(2)频数、相对频数或百分数频数放置在纵轴上(3)每组的频数、相对频数或百分数频数用一个长方形绘制,长方形的底放置在横轴上,以组距为底,以每组相应的频数、相对频数或百分数频数为高。(4)与条形图不同,直方图相邻组的长方形之间没有自然的间隔。直方图的一个最重要的应用是提供了关于分布形态的信息。图图5 四种不同分布的直方图四种不同分布的直方图3.2.5 累积分布

14、累积频数分布表示的是小于或等于每一组上组限的数据项个数,是数值型数据的另一种表格汇总方式。审计时间/天频数累积频数10-14小于或等于1444 15-19小于或等于1984+8=12 20-24小于或等于2454+8+5=1712+5=17 25-29小于或等于2924+8+5+2=1917+2=19 30-34小于或等于3414+8+5+2+1=2019+1=20 累积相对频数表示小于或等于每一组上组限的数据项的比例,可以对相对频数分布中的相对频数求和,也可以用累积频数除以数据总数求得。审计时间(天)相对频数累积频数累积相对频数累积百分数频数10-14小于或等于140.20 44/20=0.

15、202015-19小于或等于190.40 1212/20=0.600.20+0.40=0.606020-24小于或等于240.25 1717/20=0.850.60+0.25=0.858525-29小于或等于290.10 1919/20=0.950.85+0.10=0.959530-34小于或等于340.05 2020/20=1.000.95+0.05=1.00100总计1.003.2.6 累积曲线累积曲线是显示累积分布的一种图形。它的横轴显示数值,它的纵轴显示累积频数、累积相对频数或累积百分数频数。审计时间(天)审计时间(天)频数频数纵轴纵轴累积频数累积频数0-90010-144415-19

16、81220-2451725-2921930-34120图图6 累积分布直方图及累积分布曲线累积分布直方图及累积分布曲线3.3 3.3 交叉分组表3.3.1 交叉分组表交叉分组表是一种汇总两个变量数据的方法,用以理解两个变量间的关系。例:表Restaurant.xls给出300家饭店组成的一个样本,搜集了这300家饭店的质量等级和餐价数据。质量等级是一个品质变量,等级类别有良好、很好和极好;餐价是一个数量变量,其变化范围是10-49美元。质量等级餐价 (元)总计10-1920-2930-3940-49良好42402084很好3464466150极好214282266总计781187628300表

17、表7 300家洛杉矶饭店的质量等价和餐价的交叉分组表家洛杉矶饭店的质量等价和餐价的交叉分组表3.3.2 辛普森悖论两个或两个以上的交叉分组表中的数据可以生成一个新的交叉分组表,以显示两个变量间的相关性,但有时会出现辛普森悖论。辛普森悖论:在有些情形中,依据从综合的交叉分组表中得出的结论可能与依据未综合数据得出的结论截然相反,这一现象就是著名的辛普森悖论。例:在过去的三年中,法官A和法官B在民事庭和市政庭主持审理案件,他们判决的部分案件要求上诉。上诉法庭对大多数上诉案件维持原来的判决,但也有部分判决被推翻。根据两个变量裁决(维持或推翻)和法庭类型(民事庭或市政庭)可构建每位法官的交叉分组表,综合

18、两位法官后的交叉分组表包含两个变量:裁决(维持或推翻)和法官(A或B)。裁决裁决法官法官总计总计AB维持129(86%)110(88%)239推翻21(14%)15(12%)36总计(%)150(100%)125(100%)275裁决裁决法官法官A A总计总计民事庭市政庭维持29(91%)100(85%)129推翻3(9%)18(15%)21总计(%)32(100%)118(100%)150裁决裁决法官法官B B总计总计民事庭市政庭维持90(90%)20(80%)110推翻10(10%)5(20%)15总计(%)100(100%)25(100%)1253.4 3.4 散点图和趋势线散点图是对两

19、个数量变量间的关系的图形表述,趋势线是显示相关性近似程度的一条直线。例:某音像设备商店的广告次数与销售额的数据参见 stereo.xls,该商店在过去的3个月内有10次利用周末电视广告进行促销。管理人员想证实广告播出次数和下一周商店销售额之间是否由关系。图图7 广告次数与销售额的散点图广告次数与销售额的散点图习题:某期刊专门报道家用技术,它的个人用户年龄在12岁及以上。下列数据是在一个50人的样本中,调查一周时间内使用个人计算机的小时数,数据集见computer.xls,构建下列项目汇总数据。a. 频数分布(以3小时为组宽)b.相对频数分布c.直方图d.累积曲线e.分析个人计算机在家的使用情况,上述数据显示出了什么问题。全美橄榄球联盟使用一种取值为5-9的测量制度来评估有希望的候选人的水平。有关评分的解释如下:8-9表明第一年应该参加比赛;7-7.9表明

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论