第2章 描述统计-表格及图形_第1页
第2章 描述统计-表格及图形_第2页
第2章 描述统计-表格及图形_第3页
第2章 描述统计-表格及图形_第4页
第2章 描述统计-表格及图形_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第2章描述性统计:表格与图形本章要点:单变量数据的汇总分类变量,数值型变量双变量数据的整理与显示

分类变量+数值型变量涉及概念:频数分布表、条形图、直方图、茎叶图、点图、列联表等。July30,2010男学生更容易逃课吗?读完四年大学,一次课也没有逃过,这样的学生恐怕不多。2004年5月,中国人民大学财政金融学院的3名学生就逃课问题做了一次调查。调查的对象是财政金融学院的大一,大二,大三本科生。样本的抽取方式是分层抽样与简单随机抽样结合,先根据年级划分层次,然后对各个班级简单随机抽样,共抽取151名学生组成一个样本,并对每个学生采用问卷调查。问卷内容包括每周逃课次数、所逃课程的类型(选修课、专业课等等)和逃课原因等。调查得到的男女学生每周平均逃课次数的汇总表如下July30,2010男学生更容易逃课吗?逃课情况男女合计几乎一次不逃2849771到3次2431553到5次64105次以上336其他123合计6289151你认为男学生更容易逃课吗?用哪些简单的统计描述支持你的看法?如果要用图形表现上面的数据,反映男女学生逃课方面的差异、逃课次数的构成以及男女学生在逃课方面是否具有相似性等等,有哪些图形可供你选择使用呢?数据的整理与显示(基本问题)要弄清所面对的数据类型,因为不同类型的数据,所采取的处理方式和方法是不同的对分类数据主要是做分类整理3.对数值型数据则主要是做分组整理一、单个分类数据的汇总(基本过程)

1.

列出各类别

2.计算各类别的频数3.制作频数分布表4.用图形显示数据分类频数相对频数百分比频数ABCDE相对频数分布和百分比频数分布

分类数据的汇总例如:由以下40个人的血型资料

OOABAOAAAOBOBOOAOOAAAAABABAAOOAOOAAAOAOOAB整理可得频数分布表如右血型频数相对频数百分比频数(%)A180.4545AB20.055B40.110O160.440合计401100【例】一家市场调查公司为研究不同品牌饮料的市场占有率,对随机抽取的一家超市进行了调查。调查员在某天对50名顾客购买饮料的类型进行了记录,如果一个顾客购买某一种类的饮料,就将这一饮料的种类名字记录一次

。右边就是记录的原始数据分类数据的汇总碳酸饮料碳酸饮料其他矿泉水绿茶绿茶绿茶碳酸饮料其他碳酸饮料矿泉水其他其他碳酸饮料矿泉水矿泉水碳酸饮料果汁绿茶其他碳酸饮料绿茶绿茶碳酸饮料碳酸饮料矿泉水绿茶果汁其他果汁碳酸饮料碳酸饮料碳酸饮料矿泉水矿泉水绿茶碳酸饮料果汁绿茶绿茶果汁绿茶矿泉水其他其他碳酸饮料矿泉水碳酸饮料果汁矿泉水分类数据的图示—条形图与饼图条形图(barchart):在横轴上标记组名,纵轴标记频数、相对频数或百分比频数,以相同宽度的长方形代表每一类别。对于分类数据,为强调每组是彼此相互独立的类别,应该将这些长方形分隔开频数分布表定义饼图(piechart):先画一个圆圈表示所有数据,根据相对频数将整个圆分成若干个扇形,这些扇形角度与每一组的相对频数一致。分类数据的图示—条形图与饼图每个扇区可以是频数、相对频数或百分比频数饮料类别购买记录结构图课后作业1请对P46练习22数据用Excel完成:a)构建频数分布表b)画出条形图c)画出饼图统计图表11

步骤确定互不相叠的分组的组数确定每组的组距确定每一组的界限二、单个数值型数据的汇总表2-4年终审计所需时间(天)

3.确定组限选择合理的分组界限以保证每个观测值仅属于唯一的组针对数值型数据,分类数据无需指定组限对于表2-4,第一组以10作为该组下限,14作为该组上限,10~14代表这一组。以此类推确定所有分组统计落入每组的数据频数,得频数分布表2-5所示:

4.组中值组中值(classmidpoint):在每个组的下限和上限之间的中间值。在表2-4数据中,5个组的组中值分别为12、17、22、27、32

可以看出的信息有:最普遍的审计时间介于15~19天之间,20次审计时间中有8次处在这个范围内只有一次审计时间需要30天或者更长价值:增加我们对数据的理解,而观察原始的,杂乱无章的原始数据是不容易得到的

相对频数分布和百分比频数分布

从表中可以得到的信息有:有40%的审计时间需要15~19天只有5%的审计需要30天或者更长的时间点图定义点图(dotplot):横轴表示观测值的范围,每个观测值由位于坐标轴上方的点表示点图显示了数据的详细信息,在比较两个或更多变量的数据分布的时候是非常有利的直方图定义直方图(histogram):对频数分布,相对频数分布,百分比频数分布表的图形概括。把所研究的变量放在横轴上,把频数、相对频数或百分数放在纵轴上来绘制。用矩形表示每个组的频数、相对频数或百分比频数。矩形的底边是横轴各组组距,矩形的高度就是各组对应的频数、相对频数或百分比频数。直方图直方图与条形图直方图中相邻的长方形都是彼此相邻,不能断开(因为组限相邻,其含义是第一组的下限和最后一组的上限之间任意一个值都是可能取到的)条形图针对分类数据,长方形之间是断开的,代表不同的类别直方图直方图能解释数据分布的形状或形态中度左偏中度右偏对称严重右偏累积分布定义累积频数分布(cumulativefrequencydistribution):不超过每个组的上限的观测值的数量例子考虑“小于或等于24”这个组。该组的累积频数就是观测值小于或等于24的所有组的频数之和。对于表2-5的频数分布,分组10~14、15~19、20~24的频数之和为4+8+5=17,表明共有17个观测值“小于或等于24”,因此,该组的累积频数为17。累积分布累积相对频数分布(cumulativerelativefrequencydistribution):观测值小于或等于每个组上限的个数占总数的比例累积百分比频数(cumulativepercentfrequencydistribution):观测值小于或等于每个组上限的个数占总数的百分数累积频数分布曲线定义累积频数分布曲线(ogive):数据值标记在横轴上,纵轴则以累积频数、累积相对频数或累积百分比频数表示“我最恨数学了,都是数字。这是一句常听到的话,可是从来没有人说过,我最恨钱了,都是数字。”数字不是坏东西,看它在哪里出现,如果在老师发的习题中有数字,而且很多,那么——哼的怨声就出来了。如果数字印在钞票或支票上,数字则越多越好。统计图表25定义茎叶图(stem-and-leafdisplay):对数据进行快速概括的一种图形,既可以对数据进行排序,又能显示数据的分布形状例子申请霍斯金斯公司某一职位的面试人员测试结果。本测试需面试者回答150个问题,这些数据记录了个面试人员回答正确的问题个数三、探索性数据分析—茎叶图

茎叶图步骤将每个数据的前面数字列在一条竖线的左边在右侧记录每个数据的最后一个数字(0~9)比如,上表中的第一行数据(112\72\69\97\107)可以构造如下茎叶图茎叶图最终得到的茎叶图为对竖线右侧每一行数字排序,就可得出如下形式的茎叶图茎叶茎叶图茎叶图隐含的分布形态逆时针旋转90度,与直方图类似容易手工绘制能够显示原始数值茎叶图茎叶图的推广茎叶图没有固定数目的行和固定的单位若原先的数据过于集中,则可以将每一行拆分成两行或多行(对[0,9]区间进行划分)扩展茎叶图叶子的单位可以是0.1、1、10、100等(还原数值时需注意单位)

一般茎叶图茎叶图扩展茎叶图以9为首的第一根茎以9为首的第二根茎茎叶图一般茎叶图特别说明了单位是10

如果没有特别说明,茎叶图的单位都是1

例:由右表数据可汇总饮料类型和顾客性别的列联表:双变量数据的汇总-列联表与散点图

联列表

续例:由右表数据可绘制饮料类型和顾客性别的复式条形图:双分类变量数据的汇总

联列表“查格美食指南”共收集了洛杉矶地区300家饭店的菜肴价格与质量等级的数据。其中质量等级是一个分类变量,分为:良好、优秀和非常好。菜肴价格是一个数值型变量,范围为10~49美元。例子:可以得到的信息:质量等级为“很好”,菜肴价格在“20~29”这一类的饭店数量最多,共64家质量等级为“非常好”,菜肴价格在“10~19”美元之间的饭店只有两家最右和最底行分别给出了质量等级和菜肴价格的频数分布辛普森悖论联列表常用来显示两个变量的相关性注意!可能得出与原有数据完全相反的结论辛普森悖论例子在过去三年中,法官勒吉特和肯德尔判决的部分案件被提出上诉。上诉法庭对大多数上诉案件维持原来的判决,但也有部分判决被推翻。以两个变量:判决(维持或推翻)和法庭类型(民事庭或市政庭)为依据,对每位法官构建联列表。假设通过综合法庭类型数据将两个联列表合并。综合后的表包含两个变量:判决(维持或推翻)和法官(勒吉特或肯德尔)。该表给出了两位法官的上诉案件被判决维持或推翻的数量:辛普森悖论88%>86%,肯德尔做的比较好综合表未综合表91%>85%,勒吉特做的比较好90%>80%,勒吉特做的比较好矛盾?辛普森悖论分析对两位法官来说,上诉案件被推翻的比例在市政庭比民事庭要高;法官勒吉特审理的案件大多数的市政庭,因此综合后的数据偏向于法官肯德尔;对最初的联列表,法庭类型是一个隐藏的变量,且其效果不可忽视。启发根据未综合和综合的数据得出的结论可能完全相反。需要审查是否存在可能影响结论的隐藏变量。散点图和趋势线定义散点图(scatterplot):是描述两个数值型变量间关系的一种图形趋势线(trendline):是显示变量间关系密切程度的一条直线如下的一组数据,你能分析人体的脂肪含量与年龄之间有怎样的关系吗?

从上表发现,对某个人不一定有此规律,但对很多个体放在一起,就体现出“人体脂肪随年龄增长而增加”这一规律.而表中各年龄对应的脂肪数是这个年龄人群的样本平均数.我们也可以对它们作统计图、表,对这两个变量有一个直观上的印象和判断.下面我们以年龄为横轴,脂肪含量为纵轴建立直角坐标系,作出各个点,称该图为散点图。如图:O20253035404550556065年龄脂肪含量510152025303540从刚才的散点图发现:年龄越大,体内脂肪含量越高,点的位置散布在从左下角到右上角的区域。称它们成正相关。

但有的两个变量的相关,如下图所示:如高原含氧量与海拔高度的相关关系,海平面以上,海拔高度越高,含氧量越少。作出散点图发现,它们散布在从左上角到右下角的区域内。又如汽车的载重和汽车每消耗1升汽油所行使的平均路程,称它们成负相关.O42例子探究旧金山市一个音响设备商店的广告次数与销售额的关系。该商店在过去的3个月内有10次在周末播出了电视广告来推动商店的销售,商家向证实广告播出次数和商店在下一周的销售额之间是否存在着关联?散点图和趋势线根据上表中数据描绘出的散点图和趋势线如下可以得到的信息:广告次数和销售额之间存在着正相关关系,并非所有的点都落在一条线上,所以不是完全相关二:散点图1、散点图:将样本中n个数据点(xi,yi)(i=1,2,…,n)描在平面直角坐标系中,以表示具有相关关系的两个变量的一组数据的图形叫做散点图.2、正相关、负相关正相关:如果散点图的点散布在从左下角到右上角的区域,即一个变量

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论