第三章应用统计学图表法_第1页
第三章应用统计学图表法_第2页
第三章应用统计学图表法_第3页
第三章应用统计学图表法_第4页
第三章应用统计学图表法_第5页
已阅读5页,还剩66页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章应用统计学图表法第1页,共71页,2023年,2月20日,星期一第三章 用表格法和图形法

描述统计数据第一节数据的预处理第二节品质数据的整理和描述第三节数值型数据的整理和描述第四节统计表第2页,共71页,2023年,2月20日,星期一学习目标了解数据预处理的内容和目的掌握品质数据整理和描述的方法掌握数量数据整理和描述的方法用Excel作频数分布表和分布图合理使用统计表第3页,共71页,2023年,2月20日,星期一统计数据为什么要用图表描述?1、原始数据反映个体特征,庞大而杂乱,单从原始数据中无法得到总体特征和数量规律2、图表描述的结果能反映样本分布特征3、图表描述的结果可用于研究变量之间的关系第4页,共71页,2023年,2月20日,星期一数据的预处理发现数据中的错误处理数据中的错误数据审核数据筛选数据排序发现数据基本特征数据整理数据展示品质数据:分类数量数据:分组用图表展示数据数据的描述用图表法描述数据的一般过程第5页,共71页,2023年,2月20日,星期一本章内容第一节数据的预处理第二节用图表法描述品质数据第三节用图表法描述数量数据第6页,共71页,2023年,2月20日,星期一第一节数据的预处理一、数据的审核二、数据的筛选三、数据的排序第7页,共71页,2023年,2月20日,星期一检查应调查的单位或个体是否有遗漏所有的调查项目或指标是否填写齐全完整性审核

检查数据是否真实地反映了客观实际情况,内容是否符合实际检查数据是否有错误,计算是否正确等准确性审核一、数据的审核原始数据第8页,共71页,2023年,2月20日,星期一应弄清楚数据的来源、数据的口径以及有关的背景材料确定这些数据是否符合自己分析研究的需要适用性审核应尽可能使用最新的统计数据时效性审核确认是否有必要做进一步的加工整理第二手数据一、数据的审核第9页,共71页,2023年,2月20日,星期一计算检查——主要用于对数量数据的审核检查调查表中的各项数据在计算结果和计算方法上有无错误A省B省…合计国内漫游出访通话量812…324国内漫游来访通话量107…289统计学SomethingWrong!!!审核数据准确性的方法第10页,共71页,2023年,2月20日,星期一审核数据准确性的方法逻辑检查——主要用于对品质数据的审核从定性角度,审核数据是否符合逻辑,内容是否合理,各项目或数字之间有无相互矛盾的现象姓名性别地址余小姐女香洲区罗先生男香洲吴女士女香州他们住在同一区STATISTICA不,他们住在三个区!第11页,共71页,2023年,2月20日,星期一二、数据的筛选——处理数据中的错误数据错误能否纠正能纠正错误能筛选数据不能剔除不符合要求或有明显错误的数据将符合某种特定条件的数据筛选出来,而不符合特定条件的数据予以剔出第12页,共71页,2023年,2月20日,星期一按一定顺序将数据排列,以发现一些明显的特征或趋势,找到解决问题的线索排序有助于对数据检查纠错,以及为重新归类或分组等提供依据在某些场合,排序本身就是分析的目的之一排序可借助于计算机完成三、数据的排序——发现数据的基本特征8315724612345678第13页,共71页,2023年,2月20日,星期一一、数据的整理要弄清所面对的数据类型,因为不同类型的数据,所采取的处理方式和方法是不同的对品质数据主要是做分类整理对数量数据主要是做分组整理适合于低层次数据的整理和显示方法也适合于高层次的数据;但适合于高层次数据的整理和显示方法并不适合于低层次的数据第14页,共71页,2023年,2月20日,星期一第二节用图表法描述品质数据一、品质数据的整理二、品质数据的展示第15页,共71页,2023年,2月20日,星期一品质数据的整理确定分类标志整理过程计算各类别中的数据个数(频数)将数据归类制作频数分布表用图形展示数据第16页,共71页,2023年,2月20日,星期一数据整理中计算的指标数据类型和指标

定类数据定序数据频数频率累计频数累计频率指标含义

落在各类别中数据的个数将对比的基数作为100而计算的比值将各类别的频数逐级累加将各类别的频率(百分比)逐级累加第17页,共71页,2023年,2月20日,星期一实例1:定类数据的频数分布表【例3.1】某市移动公司为研究移动数据业务集团客户的行业分布状况,搜集了该城市90个集团客户的客户资料。将其所属行业分为下列类别:1.金融(银行证券保险)2.政府,工商、税务3.制造业4.教育科研5.交通运输6.批发零售7.公用事业8.旅游酒店移动数据业务集团客户行业类型的频数分布行业类型

客户数(户)

频率(%)金融(银行证券保险)政府,工商、税务制造业教育科研交通运输批发零售公用事业旅游酒店12532119921013.35.635.612.210.010.02.211.1合计90100第18页,共71页,2023年,2月20日,星期一实例2:定序数据的频数分布表【例3.2】在一项关于用户移动业务支出情况的调查中,研究人员在某城市抽样调查了330名移动用户,对其中的一个问题:“手机话费一个月多少钱?”设了七个选项:1、100元以内2、

101-200元3、201-300元4、301-500元5、501-600元6、601-1200元7、1501元以上某城市330名用户每月手机话费支出的频数分布用户数(个)频率(%)向上累积向下累积用户数(个)频率(%)用户数(个)频率(%)

100元以内101-200元201-300元301-500元501-600元601-1200元1501元以上161114291464248.834.68.84.31.81.20.616127530431832432833048.883.392.196.498.299.4100.033016955261262100.051.216.67.83.61.80.6合计330100————第19页,共71页,2023年,2月20日,星期一二、数据的展示3to5years第20页,共71页,2023年,2月20日,星期一数据类型与图示数量数据品质数据分组数据分组数据茎叶图条形图柱形图圆形图直方图箱线图折线图原始数据时序数据线图雷达图多元数据数据类型与图示第21页,共71页,2023年,2月20日,星期一品质数据的图示─条形图(BarGraph)在表示品质数据的分布时,条形图是用条形图的高度或长短来表示各类别数据的频数或频率绘制时,各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图条形图和柱形图有单式、复式等形式3to5years第22页,共71页,2023年,2月20日,星期一用EXCEL制作的条形图第23页,共71页,2023年,2月20日,星期一柱形图的应用——

FixedrevenueevolutionVoiceDataandInternetWholesaleOtherFixednetworkrevenuemix70%9%6%15%40%40%10%10%VoiceWholesaleOther3to5years

DataandInternet61%21%7%11%2007年上半年中国移动增值业务占运营总收入的25.2%,中国电信非话业务收入占比34.5%第24页,共71页,2023年,2月20日,星期一品质数据的图示─圆形图(PieGraph)圆形图也称饼图,主要用于表示总体中各组成部分所占的比例,对于研究结构性问题十分有用用圆及圆内扇形的面积来表示数值大小的图形这些扇形的中心角度,是按各部分百分比占3600的相应比例确定的第25页,共71页,2023年,2月20日,星期一品质数据的图示─环形图

(DoughnutPie)环形图可用于进行比较研究环形图有若干个圆环,总体中的每一部分数据用环中的一段表示环形图与圆形图类似,但又有区别圆形图只能显示一个总体各部分所占的比例环形图则可以同时绘制多个总体的数据系列,每一个总体的数据系列为一个环第26页,共71页,2023年,2月20日,星期一第三节用图表法描述数量数据一.频数分布表的编制二、数量数据的展示三、频数分布的类型第27页,共71页,2023年,2月20日,星期一频数分布表的编制第28页,共71页,2023年,2月20日,星期一频数分布表反映

数量数据分布特征某移动公司大客户月使用移动业务支出分组表月支出(元)频数(人)频率(%)累计频数(人)累计频率(%)300~400400~500500~600600~700700~800800~900310191062620382012431332424850626648496100合计50100————417 822 324 529 539507 617 430 522 725708 431 425 517 522533 626 422 518 808610 618 523 526 633634 527 323 518 612712 734 627 423 519513 520 523 527 435337 414 520 528 624415 439 628 724 721第29页,共71页,2023年,2月20日,星期一编制频数分布表的步骤确定组数确定组距计算频数编制表格第30页,共71页,2023年,2月20日,星期一频数分布表的编制

(实例)例:某移动公司有50名大客户。他们月使用移动业务支出见右侧数据(单位:元)。试编制频数分布表。

417 822 324 529 539507 617 430 522 725708 431 425 517 522533 626 422 518 808610 618 523 526 633634 527 323 518 612712 734 627 423 519513 520 523 527 435337 414 520 528 624415 439 628 724 721第31页,共71页,2023年,2月20日,星期一分组方法分组方法等距分组异距分组单变量值分组组距分组第32页,共71页,2023年,2月20日,星期一单变量值分组

(要点)1.将一个变量值作为一组2.适合于离散变量3.适合于变量值较少的情况第33页,共71页,2023年,2月20日,星期一单变量值分组表

(实例)月支出(元)频数(人)月支出(元)频数(人)月支出(元)频数(人)月支出(元)频数(人)323324337414415417422423425430431435111111111111439507513517518519520522523526527528111121222121529533539610612617618624626627628633111111111111634708712721724725734808822111111111第34页,共71页,2023年,2月20日,星期一组距分组

(要点)将变量值的一个区间作为一组适合于连续变量适合于变量值较多的情况必须遵循“不重不漏”的原则可采用等距分组,也可采用不等距分组~~~~~第35页,共71页,2023年,2月20日,星期一组距分组

(步骤)确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时,可以按Sturges提出的经验公式来确定组数K:确定各组的组距:组距(ClassWidth)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即

组距=(最大值-最小值)÷组数

Log(n)Log(2)K=1+根据分组整理成频数分布表

第36页,共71页,2023年,2月20日,星期一组距分组

(几个概念)1.下限:一个组的最小值2.上限:一个组的最大值3.组距:上限与下限之差4.组中值:下限与上限之间的中点值下限值+上限值2组中值=第37页,共71页,2023年,2月20日,星期一等距分组表

(上下组限重叠)某移动公司大客户月使用移动业务支出分组表月支出(元)频数(人)频率(%)累计频数(人)累计频率(%)300~400400~500500~600600~700700~800800~900310191062620382012431332424850626648496100合计50100————第38页,共71页,2023年,2月20日,星期一等距分组表

(上下组限间断)某移动公司大客户月使用移动业务支出分组表月支出(元)频数(人)频率(%)累计频数(人)累计频率(%)300~399400~499500~599600~699700~799800~899310191062620382012431332424850626648496100合计50100————第39页,共71页,2023年,2月20日,星期一等距分组表

(使用开口组)某移动公司大客户月使用移动业务支出分组表月支出(元)频数(人)频率(%)累计频数(人)累计频率(%)400以下400~500500~600600~700700~800800以上310191062620382012431332424850626648496100合计50100————第40页,共71页,2023年,2月20日,星期一等距分组与不等距分组

(在表现频数分布上的差异)等距分组各组频数的分布不受组距大小的影响可直接根据绝对频数来观察频数分布的特征和规律不等距分组各组频数的分布受组距大小不同的影响各组绝对频数的多少不能反映频数分布的实际状况需要用频数密度(频数密度=频数/组距)反映频数分布的实际状况第41页,共71页,2023年,2月20日,星期一数据类型与图示数量数据品质数据分组数据分组数据茎叶图条形图柱形图圆形图直方图箱线图折线图原始数据时序数据线图雷达图多元数据数据类型与图示第42页,共71页,2023年,2月20日,星期一分组数据—直方图

(直方图的制作)用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布在平面直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图直方图下的总面积等于1第43页,共71页,2023年,2月20日,星期一分组数据—直方图

(直方图的绘制)月移动业务支出(元)频数(人)1512963300400500600700800900直观发现多数大客户月使用移动服务大约在五、六百元第44页,共71页,2023年,2月20日,星期一分组数据—直方图

(直方图与条形图的区别)条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义直方图的各矩形通常是连续排列,条形图则是分开排列第45页,共71页,2023年,2月20日,星期一分组数据—折线图

(折线图的制作)折线图也称频数多边形图(Frequencypolygon)是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉折线图的两个终点要与横轴相交,具体的做法是第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的第46页,共71页,2023年,2月20日,星期一分组数据—折线图

(折线图的绘制)月移动业务支出(元)频数(人)1512963300400500600700800900第47页,共71页,2023年,2月20日,星期一数据类型与图示数量数据品质数据分组数据分组数据茎叶图条形图柱形图圆形图直方图箱线图折线图原始数据时序数据线图雷达图多元数据数据类型与图示第48页,共71页,2023年,2月20日,星期一未分组数据—茎叶图

(茎叶图的制作)用于显示未分组的原始数据的分布由“茎”和“叶”两部分构成,其图形是由数字组成的以该组数据的高位数值作树茎,低位数字作树叶对于n(20≤n≤300)个数据,茎叶图最大行数不超过

L=[10×log10n

]

5.茎叶图类似于横置的直方图,但又有区别直方图可大体上看出一组数据的分布状况,但没有给出具体的数值茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息第49页,共71页,2023年,2月20日,星期一未分组数据—茎叶图

(茎叶图的制作)树茎树叶242337173031252223351415392939072217223318232627181913202327202817261018333412272428300400500600数据个数3茎叶图类似横置的直方图250812342421220870080010191062第50页,共71页,2023年,2月20日,星期一未分组数据—箱线图

(箱线图的制作)用于显示未分组的原始数据或分组数据的分布箱线图由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成其绘制方法是:首先找出一组数据的5个特征值,即最大值、最小值、中位数Me

和两个四分位数(下四分位数QL和上四分位数QU)连接两个四分(位)数画出箱子,再将两个极值点与箱子相连接第51页,共71页,2023年,2月20日,星期一未分组数据—单批数据箱线图

(箱线图的构成)中位数4681012QUQLX最大值X最小值图3-9简单箱线图第52页,共71页,2023年,2月20日,星期一未分组数据—单批数据箱线图

(实例)最小值323最大值822中位数524.5下四分位数438上四分位数626.25第53页,共71页,2023年,2月20日,星期一分布的形状与箱线图

对称分布QL中位数

QU左偏分布QL中位数

QU右偏分布QL

中位数

QU图3-11不同分布的箱线图第54页,共71页,2023年,2月20日,星期一未分组数据—多批数据箱线图

(实例)【例3.4】

从某大学经济管理专业二年级学生中随机抽取11人,对8门主要课程的考试成绩进行调查,所得结果如表3-8。试绘制各科考试成绩的批比较箱线图,并分析各科考试成绩的分布特征表3-811名学生各科的考试成绩数据课程名称学生编号1234567891011英语经济数学西方经济学市场营销学财务管理基础会计学统计学计算机应用基础76659374687055859095818775739178975176857092688171748869846573957078669073788470936379806087816786918377769070828382928481706972787578918866948085718674687962818155787075687177第55页,共71页,2023年,2月20日,星期一未分组数据—多批数据箱线图图3-128门课程考试成绩的箱线图第56页,共71页,2023年,2月20日,星期一图3-1311名学生8门课程考试成绩的箱线图Min-Max25%-75%Medianvalue455565758595105学生1学生2学生3学生4学生5学生6学生7学生8学生9学生10学生11未分组数据—箱线图第57页,共71页,2023年,2月20日,星期一数据类型与图示数量数据品质数据分组数据分组数据茎叶图条形图柱形图圆形图直方图箱线图折线图原始数据时序数据线图雷达图多元数据数据类型与图示第58页,共71页,2023年,2月20日,星期一时间序列数据—线图

(线图的制作)绘制线图时应注意以下几点时间一般绘在横轴,指标数据绘在纵轴图形的长宽比例要适当,其长宽比例大致为10:7一般情况下,纵轴数据下端应从“0”开始,以便于比较。数据与“0”之间的间距过大时,可以采取折断的符号将纵轴折断第59页,共71页,2023年,2月20日,星期一雷达图(RadarChart)是显示多个变量的常用图示方法在显示或对比各变量的数值总和时十分有用假定各变量的取值具有相同的正负号,总的绝对值与图形所围成的区域成正比可用于研究多个样本之间的相似程度多变量数据—雷达图

(要点)第60页,共71页,2023年,2月20日,星期一设有n组样本S1,S2,…Sn,每个样本测得P个变量X1,X2,Xp,要绘制这P个变量的雷达图,其具体做法是多变量数据—雷达图

(雷达图的制作)先做一个圆,然后将圆P等分,得到P个点,令这P个点分别对应P个变量,在将这P个点与圆心连线,得到P个幅射状的半径,这P个半径分别作为P个变量的坐标轴,每个变量值的大小由半径上的点到圆心的距离表示再将同一样本的值在P个坐标上的点连线。这样,n个样本形成的n个多边形就是一个雷达图第61页,共71页,2023年,2月20日,星期一多变量数据—雷达图

(实例)地区人均交寄函件(件/人)电话普及率(部/百人)主线普及率(线/百人移动电话普及率(部/百人)公用电话普及率(部/万人)全国6.925.913.911.427.0北京50.991.037.544.751.0上海54.279.936.836.734.0天津17.850.927.321.569.0第62页,共71页,2023年,2月20日,星期一多变量数据—雷达图

(由Excel绘制的雷达图)第63页,共71页,2023年,2月20日,星期一数据类型及图示

(小结)数据类型与显示数量数据品质数据分组数据分组数据茎叶图条形图圆形图环形图直方图箱线图折线图原始数据时序数据线图雷达图多元数据第64页,共71页,2023年,2月20日,星期一使用Excel

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论