统计学数据的搜集整理与显示_第1页
统计学数据的搜集整理与显示_第2页
统计学数据的搜集整理与显示_第3页
统计学数据的搜集整理与显示_第4页
统计学数据的搜集整理与显示_第5页
已阅读5页,还剩129页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计学数据的搜集整理与显示第一页,共一百三十四页,2022年,8月28日统计研究的过程收集数据(取得数据)整理数据(处理数据)解释数据(结果说明)分析数据(研究数据)实际问题第二页,共一百三十四页,2022年,8月28日统计分析方法统计方法描述统计推断统计参数估计假设检验第三页,共一百三十四页,2022年,8月28日描述统计

(descriptivestatistics)内容整理数据展示数据描述性分析

目的描述数据特征找出数据的基本规律02550Q1Q2Q3Q4¥x=30s2=105第四页,共一百三十四页,2022年,8月28日推断统计

(inferentialstatistics)内容参数估计假设检验目的对总体特征作出推断样本总体第五页,共一百三十四页,2022年,8月28日描述统计与推断统计的关系反映客观现象的数据总体内在的数量规律性推断统计(利用样本信息和概率论对总体的数量特征进行估计和检验等)概率论(包括分布理论、大数定律和中心极限定理等)描述统计(统计数据的搜集、整理、显示和分析等)总体数据样本数据第六页,共一百三十四页,2022年,8月28日统计的应用领域统计学经济学管理学医学工程学社会学…第七页,共一百三十四页,2022年,8月28日统计数据的分类统计数据的分类按计量层次分类的数据顺序的数据数值型数据按时间状况截面的数据时序的数据按收集方法观察的数据试验的数据第八页,共一百三十四页,2022年,8月28日统计数据的分类

(按计量尺度分)分类数据(categoricaldata)

对事物进行分类的结果数据表现为类别,用文字来表述例如,人口按性别分为男、女两类

顺序数据(rankdata)

对事物类别顺序的测度数据表现为类别,用文字来表述例如,产品分为一等品、二等品、三等品、次品等数值型数据(metricdata)

对事物的精确测度结果表现为具体的数值例如:身高为175cm、168cm、183cm第九页,共一百三十四页,2022年,8月28日统计数据的分类

(按收集方法分)观测的数据(observationaldata)

通过调查或观测而收集到的数据在没有对事物人为控制的条件下而得到的有关社会经济现象的统计数据几乎都是观测数据试验的数据(experimentaldata)

在试验中控制试验对象而收集到的数据比如,对一种新药疗效的试验,对一种新的农作物品种的试验等自然科学领域的数据大多数都为试验数据第十页,共一百三十四页,2022年,8月28日统计数据的分类

(按时间状况分)截面数据(cross-sectionaldata)

在相同或近似相同的时间点上收集的数据描述现象在某一时刻的变化情况比如,2002年我国各地区的国内生产总值数据时间序列数据(timeseriesdata)

在不同时间上收集到的数据描述现象随时间变化的情况比如,1996年至2002年国内生产总值数据第十一页,共一百三十四页,2022年,8月28日总体和样本总体(population)所研究的全部元素的集合,其中的每一个元素称为个体分为有限总体和无限总体有限总体的范围能够明确确定,且元素的数目是有限的无限总体所包括的元素是无限的,不可数的样本(sample)从总体中抽取的一部分元素的集合构成样本的元素的数目称为样本容量第十二页,共一百三十四页,2022年,8月28日参数和统计量参数(parameter)研究者想要了解的总体的某种特征值所关心的参数主要有总体均值()、标准差()、总体比例()等总体参数通常用希腊字母表示统计量(statistic)根据样本数据计算出来的一个量所关心的样本统计量有样本均值(x)、样本标准差(s)、样本比例(p)等样本统计量通常用小写英文字母来表示第十三页,共一百三十四页,2022年,8月28日变量

(Variable)

说明现象某种特征的概念如商品销售额、受教育程度、产品的质量等级等变量的具体表现称为变量值,即数据变量可以分为分类变量(categoricalvariable)

:说明事物类别的一个名称顺序变量(rankvariable

)

:说明事物有序类别的一个名称数值型变量(metricvariable

)

:说明事物数字特征的一个名称离散变量:取有限个值连续变量:可以取无穷多个值第十四页,共一百三十四页,2022年,8月28日统计中的几个基本概念平均数标准差比例参数统计量xsp总体样本第十五页,共一百三十四页,2022年,8月28日几种常用的统计软件

(Software)典型的统计软件SASSPSSMINITABSTATISTICAS-PLUSRExcel第十六页,共一百三十四页,2022年,8月28日第十七页,共一百三十四页,2022年,8月28日§1数据的搜集§1.1数据的来源§1.2调查数据§1.3实验数据§1.4数据的误差§1.5数据文件第十八页,共一百三十四页,2022年,8月28日学习目标数据的来源搜集数据的调查方法问卷设计搜集数据的实验方法数据的误差数据的质量要求第十九页,共一百三十四页,2022年,8月28日系统外部的数据统计部门和政府部门公布的有关资料,如各类统计年鉴各类经济信息中心、信息咨询机构、专业调查机构等提供的数据各类专业期刊、报纸、书籍所提供的资料各种会议,如博览会、展销会、交易会及专业性、学术性研讨会上交流的有关资料从互联网或图书馆查阅到的相关资料数据的间接来源§1.1数据的来源第二十页,共一百三十四页,2022年,8月28日系统内部的数据业务资料,如与业务经营活动有关的各种单据,记录经营活动过程中的各种统计报表各种财务,会计核算和分析资料等第二十一页,共一百三十四页,2022年,8月28日二手数据的特点搜集容易,采集成本低作用广泛分析所要研究的问题提供研究问题的背景帮助研究者更好地定义问题检验和回答某些疑问和假设寻找研究问题的思路和途径搜集二手资料在研究中应优先考虑第二十二页,共一百三十四页,2022年,8月28日二手数据的评估数据是谁搜集的?可信度评估为什么目的而搜集的?数据是怎样搜集的?什么时候搜集的?第二十三页,共一百三十四页,2022年,8月28日数据的直接来源

(原始数据)调查数据通过调查方法获得的数据通常是对社会现象而言通常取自有限总体实验数据通过实验方法得到的数据通常是对自然现象而言也被广泛运用到社会科学中如心理学、教育学、社会学、经济学、管理学等第二十四页,共一百三十四页,2022年,8月28日抽样方法抽样方式概率抽样非概率抽样简单随机抽样分层抽样整群抽样系统抽样多阶段抽样方便抽样判断抽样自愿样本滚雪球抽样配额抽样§1.2调查数据第二十五页,共一百三十四页,2022年,8月28日概率抽样与非概率抽样的比较概率抽样依据随机原则抽选样本样本统计量的理论分布存在可根据调查的结果推断总体非概率抽样不是依据随机原则抽选样本样本统计量的分布是不确定的无法使用样本的结果推断总体第二十六页,共一百三十四页,2022年,8月28日搜集数据的基本方法搜集数据的基本方法调查的数据实验的数据自填式面访式电话式第二十七页,共一百三十四页,2022年,8月28日各调查方法的比较自填式面访式电话式调查时间慢中等快捷调查费用低高低问卷难度要求容易可以复杂要求容易有形辅助物的使用中等利用充分利用无法利用调查过程控制简单复杂容易调查员作用的发挥无法发挥充分发挥一般发挥回答率最低较高一般第二十八页,共一百三十四页,2022年,8月28日实验租和对照组将研究对象分为两组:实验组和对照组实验组和随机组的产生应遵循随机原则,而且应该匹配匹配指对实验单位的背景材料进行分析比较,将情况类似的每对单位分别随机地分配到实验组和对照组§1.3实验数据第二十九页,共一百三十四页,2022年,8月28日实验中的若干问题人的意愿研究的对象是人的时候,在划分实验组和对照组时的随机原则将面临挑战心理问题人们对被研究非常敏感,这使得他们更加注意自我,从而走到事物的另一个极端道德问题当某种实验涉及道德问题时,人们会处于进退两难的尴尬境地第三十页,共一百三十四页,2022年,8月28日实验中的统计实验设计本身就是一个统计问题确定进行实验所需要的单位的个数,以保证实验可以达到统计显著的结果将统计的思想融入到实验设计中,使实验设计符合统计分析的标准对实验数据进行分析时,统计可以提供最恰当的分析方法第三十一页,共一百三十四页,2022年,8月28日§1.4数据的误差第三十二页,共一百三十四页,2022年,8月28日抽样误差

(samplingerror)由于抽样的随机性所带来的误差所有样本可能的结果与总体真值之间的平均性差异影响抽样误差的大小的因素样本量的大小总体的变异性第三十三页,共一百三十四页,2022年,8月28日非抽样误差

(non-samplingerror)相对抽样误差而言除抽样误差之外的,由于其他原因造成的样本观察结果与总体真值之间的差异存在于所有的调查之中概率抽样,非概率抽样,全面性调查有抽样框误差、回答误差、无回答误差、调查员误差、测量误差第三十四页,共一百三十四页,2022年,8月28日误差的控制抽样误差可计算和控制非抽样误差的控制调查员的挑选调查员的培训督导员的调查专业水平调查过程控制调查结果进行检验、评估现场调查人员进行奖惩的制度第三十五页,共一百三十四页,2022年,8月28日统计数据的质量要求1.精

度:最低的抽样误差或随机误差2.准确性:最小的非抽样误差或偏差3.关联性:满足用户决策、管理和研究的需要4.及时性:在最短的时间里取得并公布数据5.一致性:保持时间序列的可比性6.最低成本:以最经济的方式取得数据第三十六页,共一百三十四页,2022年,8月28日§2数据的整理与显示§2.1

数据的预处理§2.2分类和顺序数据的整理与显示§2.3数值型数据的整理与显示§2.4统计表第三十七页,共一百三十四页,2022年,8月28日学习目标了解数据预处理的内容和目的掌握分类和顺序数据的整理与显示方法掌握数值型数据的整理与显示方法用R作频数分布表和形图合理使用统计表第三十八页,共一百三十四页,2022年,8月28日数据的审核检查数据中的错误数据的筛选找出符合条件的数据数据排序升序和降序寻找数据的基本特征§2.1数据的预处理

第三十九页,共一百三十四页,2022年,8月28日数据审核—原始数据

(rawdata)审核的内容完整性审核检查应调查的单位或个体是否有遗漏所有的调查项目或指标是否填写齐全准确性审核检查数据是否真实反映客观实际情况,内容是否符合实际检查数据是否有错误,计算是否正确等第四十页,共一百三十四页,2022年,8月28日数据的审核—原始数据

(rawdata)审核数据准确性的方法逻辑检查从定性角度,审核数据是否符合逻辑,内容是否合理,各项目或数字之间有无相互矛盾的现象主要用于对分类和顺序据的审核计算检查检查调查表中的各项数据在计算结果和计算方法上有无错误主要用于对数值型数据的审核第四十一页,共一百三十四页,2022年,8月28日数据的审核—二手数据

(secondhanddata)适用性审核弄清楚数据的来源、数据的口径以及有关的背景材料确定数据是否符合自己分析研究的需要时效性审核尽可能使用最新的数据确认是否必要做进一步的加工整理第四十二页,共一百三十四页,2022年,8月28日数据筛选

(datafilter)当数据中的错误不能予以纠正,或者有些数据不符合调查的要求而又无法弥补时,需要对数据进行筛选数据筛选的内容包括将某些不符合要求的数据或有明显错误的数据予以剔除将符合某种特定条件的数据筛选出来,而不符合特定条件的数据予以剔除第四十三页,共一百三十四页,2022年,8月28日要弄清所面对的数据类型,因为不同类型的数据,所采取的处理方式和方法是不同的对分类数据和顺序数据主要是做分类整理对数值型数据则主要是做分组整理适合于低层次数据的整理和显示方法也适合于高层次的数据;但适合于高层次数据的整理和显示方法并不适合于低层次的数据§2.2分类和顺序数据的整理与显示第四十四页,共一百三十四页,2022年,8月28日分类数据的整理

(基本过程)1. 列出各类别2.计算各类别的频数3.制作频数分布表4.用图形显示数据分类频数比例百分比比率ABCDE第四十五页,共一百三十四页,2022年,8月28日分类数据的整理

(可计算的统计量)频数(frequency)

:落在各类别中的数据个数比例(proportion)

:某一类别数据占全部数据的比值百分比(percentage)

:将对比的基数作为100而计算的比值,即比例X100%比率(ratio)

:不同类别数值的比值第四十六页,共一百三十四页,2022年,8月28日分类数据整理—频数分布表

(例题分析)【例】一家市场调查公司为研究不同品牌饮料的市场占有率,对随机抽取的一家超市进行了调查。调查员在某天对50名顾客购买饮料的品牌进行了记录,如果一个顾客购买某一品牌的饮料,就将这一饮料的品牌名字记录一次。右边就是记录的原始数据用R制作频数分布表第四十七页,共一百三十四页,2022年,8月28日例1读取某公司雇员数据(SPSS数据文件),保存为R数据文件,指定因子各水平的标签,分析性别、是否少数民族、工作类型、教育程度等频数分布。y=read.spss('E:/RandStatistics/RTeaching/dataset/Employeedata.sav',use.value.labels=F,to.data.frame=T,max.value.labels=Inf,s=FALSE)Names(y);[1]"ID""GENDER""BDATE""EDUC""JOBCAT""SALARY"[7]"SALBEGIN""JOBTIME""PREVEXP""MINORITY"yy$MINORITY=factor(y$MINORITY,levels=sort(unique(y$MINORITY),decreasing=T),labels=c("Yes","No"),exclude=NA,order=F)第四十八页,共一百三十四页,2022年,8月28日y$JOBCAT=factor(y$JOBCAT,levels=sort(unique(y$JOBCAT),decreasing=T),labels=c("经理","保管员","服务员"),exclude=NA,order=F)Edata=y;save(Edata,file="E:/R/Employeedata.Rdata")load("E:/R/Edata.Rdata");attach(Edata);table(Edata$JOBCAT)经理保管员服务员

8427363第四十九页,共一百三十四页,2022年,8月28日>table(Edata$GENDER)fm216258>table(Edata$MINORITY)YesNo104370>table(Edata$EDUC)8121415161718192021531906116591192721第五十页,共一百三十四页,2022年,8月28日分类数据的图示—条形图

(barChart)用宽度相同的条形的高度或长短来表示各类别数据的图形有单式条形图、复式条形图等形式主要用于反映分类数据的频数分布绘制时,各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图第五十一页,共一百三十四页,2022年,8月28日分类数据的图示—条形图

(例题分析)第五十二页,共一百三十四页,2022年,8月28日例2对公司雇员数据,做出性别、工作类型、教育程度等条形图。plot(Edata$GENDER)plot(Edata$JOBCAT)hist(Edata$EDUC)第五十三页,共一百三十四页,2022年,8月28日第五十四页,共一百三十四页,2022年,8月28日第五十五页,共一百三十四页,2022年,8月28日第五十六页,共一百三十四页,2022年,8月28日分类数据的图示—饼图

(pieChart)也称圆形图,是用圆形及圆内扇形的角度来表示数值大小的图形主要用于表示总体或样本中各组成部分所占的比例,对于研究结构性问题十分有用绘制圆形图时,总体中各部分所占的百分比用园内的各个扇形角度表示,这些扇形的中心角度,是按各部分数据百分比占3600的相应比例确定的第五十七页,共一百三十四页,2022年,8月28日分类数据的图示—饼图

(例题分析)第五十八页,共一百三十四页,2022年,8月28日例3对公司雇员数据,做出性别、工作类型、教育程度等饼图。pie(table(Edata$GENDER))pie(table(Edata$JOBCAT))pie(table(Edata$EDUC))第五十九页,共一百三十四页,2022年,8月28日第六十页,共一百三十四页,2022年,8月28日第六十一页,共一百三十四页,2022年,8月28日第六十二页,共一百三十四页,2022年,8月28日顺序数据的整理

(可计算的指标)1.累积频数(cumulativefrequencies):各类别频数的逐级累加2.累积频率(cumulativepercentages):各类别频率(百分比)的逐级累加第六十三页,共一百三十四页,2022年,8月28日顺序数据的频数分布表

(例题分析)【例】在一项城市住房问题的研究中,研究人员在甲乙两个城市各抽样调查300户,其中的一个问题是:“您对您家庭目前的住房状况是否满意?

1.非常不满意;2.不满意;3.一般;4.满意;5.非常满意。甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)百分比(%)向上累积向下累积户数(户)百分比(%)户数(户)百分比(%)非常不满意不满意一般满意非常满意24108934530836311510241322252703008.044.075.090.0100.03002761687530100.092562510合计300100.0————第六十四页,共一百三十四页,2022年,8月28日顺序数据的频数分布表

(例题分析)乙城市家庭对住房状况评价的频数分布回答类别乙城市户数(户)百分比(%)向上累积向下累积户数(户)百分比(%)户数(户)百分比(%)非常不满意不满意一般满意非常满意21997864387.033.026.021.312.7211201982623007.040.066.087.3100.030027918010238100.093.060.034.012.7合计300100.0————第六十五页,共一百三十四页,2022年,8月28日顺序数据的图示—累计频数分布图

(例题分析)243001322252700100200300400

非常不满意

不满意

一般

满意

非常满意累积户数(户)(a)向上累积27616830300750100200300400

非常不满意

不满意

一般

满意

非常满意累积户数(户)(b)向下累积甲城市家庭对住房状况评价的累积频数分布第六十六页,共一百三十四页,2022年,8月28日环形图

(annularchart)环形图中间有一个“空洞”,总体中的每一部分数据用环中的一段表示环形图与圆形图类似,但又有区别圆形图只能显示一个总体各部分所占的比例环形图则可以同时绘制多个总体的数据系列,每一个总体的数据系列为一个环环形图可用于结构比较研究环形图主要用于展示分类和顺序数据第六十七页,共一百三十四页,2022年,8月28日环形图

(例题分析)8%36%31%15%7%33%26%21%13%10%

非常不满意

不满意

一般

满意

非常满意

甲乙两城市家庭对住房状况的评价第六十八页,共一百三十四页,2022年,8月28日分组方法等距分组异距分组单变量值分组组距分组§2.3数值型数据的整理与显示第六十九页,共一百三十四页,2022年,8月28日单变量值分组

(要点)1.将一个变量值作为一组2.适合于离散变量3.适合于变量值较少的情况第七十页,共一百三十四页,2022年,8月28日组距分组

(要点)将变量值的一个区间作为一组适合于连续变量适合于变量值较多的情况需要遵循“不重不漏”的原则可采用等距分组,也可采用不等距分组第七十一页,共一百三十四页,2022年,8月28日组距分组

(步骤)确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时,可以按Sturges提出的经验公式来确定组数K确定组距:组距(ClassWidth)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即

组距=(最大值-最小值)÷组数

统计出各组的频数并整理成频数分布表第七十二页,共一百三十四页,2022年,8月28日组距分组

(几个概念)1.下限(lowlimit)

:一个组的最小值2.上限(upperlimit)

:一个组的最大值3.组距(classwidth)

:上限与下限之差4.组中值(classmidpoint)

:下限与上限之间的中点值下限值+上限值2组中值=第七十三页,共一百三十四页,2022年,8月28日频数分布表的编制

(例题分析)【例】某电脑公司2002年前四个月各天的销售量数据(单位:台)。试对数据进行分组。

第七十四页,共一百三十四页,2022年,8月28日频数分布表的编制

(步骤)确定组数:根据Sturges

提出的经验公式得组数K为:确定各组的组距:

组距=(237-141)÷10=9.610用R制作频数分布表

第七十五页,共一百三十四页,2022年,8月28日等距分组表

(上下组限重叠)第七十六页,共一百三十四页,2022年,8月28日等距分组表

(上下组限间断)第七十七页,共一百三十四页,2022年,8月28日等距分组表

(使用开口组)第七十八页,共一百三十四页,2022年,8月28日组距分组与不等距分组

(在表现频数分布上的差异)等距分组各组频数的分布不受组距大小的影响可直接根据绝对频数来观察频数分布的特征不等距分组各组频数的分布受组距大小不同的影响各组绝对频数的多少不能反映频数分布的实际状况需要用频数密度(频数密度=频数/组距)反映频数分布的实际状况第七十九页,共一百三十四页,2022年,8月28日分组数据—直方图

(histogram)用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图直方图下的总面积等于1数值型数据的图示第八十页,共一百三十四页,2022年,8月28日分组数据的图示

(直方图的绘制)140150210直方图下的面积之和等于1?某电脑公司销售量分布的直方图190200180160170频数(天)25201510530220230240第八十一页,共一百三十四页,2022年,8月28日例4对公司雇员数据,做出工资数据直方图。hist(Edata$SALARY)hist(Edata$SALARY,labels=T)第八十二页,共一百三十四页,2022年,8月28日第八十三页,共一百三十四页,2022年,8月28日第八十四页,共一百三十四页,2022年,8月28日分组数据—直方图

(直方图与条形图的区别)条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义直方图的各矩形通常是连续排列,条形图则是分开排列条形图主要用于展示分类数据,直方图则主要用于展示数值型数据第八十五页,共一百三十四页,2022年,8月28日分组数据—折线图

(frequencypolygon)折线图也称频数多边形图是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉折线图的两个终点要与横轴相交,具体的做法是第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的第八十六页,共一百三十四页,2022年,8月28日分组数据的图示

(折线图的绘制)折线图与直方图下的面积相等!140150210某电脑公司销售量分布的折线图190200180160170220230240频数(天)25201510530第八十七页,共一百三十四页,2022年,8月28日未分组数据—茎叶图

(stem-and-leafdisplay)用于显示未分组的原始数据的分布由“茎”和“叶”两部分构成,其图形是由数字组成的以该组数据的高位数值作树茎,低位数字作树叶树叶上只保留一位数字对于n(20n300)个数据,茎叶图最大行数不超过

L=[10×lg(n)]

6.茎叶图类似于横置的直方图,但又有区别直方图可观察一组数据的分布状况,但没有给出具体的数值茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息第八十八页,共一百三十四页,2022年,8月28日未分组数据—茎叶图

(例题分析)第八十九页,共一百三十四页,2022年,8月28日未分组数据—茎叶图

(扩展的茎叶图)第九十页,共一百三十四页,2022年,8月28日未分组数据—箱线图

(boxplot)用于显示未分组的原始数据的分布箱线图由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成其绘制方法是:首先找出一组数据的5个特征值,即最大值、最小值、中位数Me和两个四分位数(下四分位数QL和上四分位数QU)连接两个四分(位)数画出箱子,再将两个极值点与箱子相连接第九十一页,共一百三十四页,2022年,8月28日未分组数据—单批数据箱线图

(箱线图的构成)中位数4681012QUQLX最大值X最小值简单箱线图第九十二页,共一百三十四页,2022年,8月28日未分组数据—单批数据箱线图

(例题分析)最小值141最大值237中位数182下四分位数170.25上四分位数197140150160170180190200210220230240某电脑公司销售量数据的箱线图第九十三页,共一百三十四页,2022年,8月28日分布的形状与箱线图

对称分布QL中位数

QU左偏分布QL中位数

QU右偏分布QL

中位数

QU不同分布的箱线图第九十四页,共一百三十四页,2022年,8月28日例5对公司雇员数据,做出工资数据箱线图。boxplot(Edata$SALARY,data=Edata,col="lightgray");第九十五页,共一百三十四页,2022年,8月28日未分组数据—多批数据箱线图

(例题分析)【例】从某大学经济管理专业二年级学生中随机抽取11人,对8门主要课程的考试成绩进行调查,所得结果如表。试绘制各科考试成绩的批比较箱线图,并分析各科考试成绩的分布特征11名学生各科的考试成绩数据课程名称学生编号1234567891011英语经济数学西方经济学市场营销学财务管理基础会计学统计学计算机应用基础76659374687055859095818775739178975176857092688171748869846573957078669073788470936379806087816786918377769070828382928481706972787578918866948085718674687962818155787075687177第九十六页,共一百三十四页,2022年,8月28日未分组数据—多批数据箱线图

(例题分析)8门课程考试成绩的箱线图第九十七页,共一百三十四页,2022年,8月28日11名学生8门课程考试成绩的箱线图Min-Max25%-75%Medianvalue455565758595105学生1学生2学生3学生4学生5学生6学生7学生8学生9学生10学生11未分组数据—多批数据箱线图

(例题分析)第九十八页,共一百三十四页,2022年,8月28日例6对某公司雇员数据,分析性别与工作类型、性别与是否少数民族的特征,作出交叉频数分布表。>ftable(Edata[c('GENDER','JOBCAT')])JOBCAT经理保管员服务员

GENDERf100206m7427157ftable(Edata[c('GENDER','MINORITY')])MINORITYYesNoGENDERf40176m64194第九十九页,共一百三十四页,2022年,8月28日例7对某公司雇员数据,分析不同性别、工作类型、少数民族的收入差异,作出多批数据箱线图。boxplot(Edata$SALARY~Edata$GENDER,data=Edata,col="lightgray");boxplot(Edata$SALARY~Edata$JOBCAT,data=Edata,col="lightgray");boxplot(Edata$SALARY~Edata$MINORITY,data=Edata,col="lightgray");

第一百页,共一百三十四页,2022年,8月28日第一百零一页,共一百三十四页,2022年,8月28日第一百零二页,共一百三十四页,2022年,8月28日第一百零三页,共一百三十四页,2022年,8月28日例8对某公司雇员数据,分析不同性别、工作类型之间的收入差异,作出多批数据箱线图。boxplot(split(Edata$SALARY,list(Edata$JOBCAT,Edata$GENDER)),col="lightgray");boxplot(split(Edata$SALARY,list(Edata$GENDER,Edata$JOBCAT)),col="lightgray");不同性别在不同工作类型上的当前工资比较。与工资增长率不同,性别差异在工资水平上的差异十分明显,男性的工资水平无论在Clerical还是Manager上都比女性的平均工资水平高。第一百零四页,共一百三十四页,2022年,8月28日splitpackage:baseRDocumentationDivideintoGroupsDescription:'split'dividesthedatainthevector'x'intothegroupsdefinedby'f'.Theassignmentformsreplacevaluescorrespondingtosuchadivision.Unsplitreversestheeffectof'split'.Usage:split(x,f,drop=FALSE,...)split(x,f,drop=FALSE,...)<-valueunsplit(value,f,drop=FALSE)Arguments:x:vectorordataframecontainingvaluestobedividedintogroups.

第一百零五页,共一百三十四页,2022年,8月28日

f:a"factor"inthesensethat'as.factor(f)'definesthegrouping,oralistofsuchfactorsinwhichcasetheirinteractionisusedforthegrouping.drop:logicalindicatingiflevelsthatdonotoccurshouldbedropped(if'f'isa'factor'oralist).value:alistofvectorsordataframescompatiblewithasplittingof'x'.Recyclingappliesifthelengthsdonotmatch....:furtherpotentialargumentspassedtomethods.Details:'split'and'split<-'aregenericfunctionswithdefaultand'data.frame'methods.'f'isrecycledasnecessaryandifthelengthof'x'isnotamultipleofthelengthof'f'awarningisprinted.'unsplit'worksonlywithlistsofvectors.Thedataframemethodcanalsobeusedtosplitamatrixintoalistofmatrices,andtheassignmentformlikewise,providedtheyareinvokedexplicitly.第一百零六页,共一百三十四页,2022年,8月28日

Anymissingvaluesin'f'aredroppedtogetherwiththecorrespondingvaluesof'x'.Value:Thevaluereturnedfrom'split'isalistofvectorscontainingthevaluesforthegroups.Thecomponentsofthelistarenamedbythe_used_factorlevelsgivenby'f'.(If'f'islongerthan'x'thensomeofthecomponentswillbeofzerolength.)Theassignmentformsreturntheirrighthandside.'unsplit'returnsavectorforwhich'split(x,f)'equals'value'References:Becker,R.A.,Chambers,J.M.andWilks,A.R.(1988)_TheNewSLanguage_.Wadsworth&Brooks/Cole.SeeAlso:'cut'第一百零七页,共一百三十四页,2022年,8月28日Examples:require(stats)n<-10;nn<-100;g<-factor(round(n*runif(n*nn)))x<-rnorm(n*nn)+sqrt(as.numeric(g));xg<-split(x,g);boxplot(xg,col="lavender",notch=TRUE,varwidth=TRUE);sapply(xg,length);sapply(xg,mean)##Calculatez-scoresbygroupz<-unsplit(lapply(split(x,g),scale),g)tapply(z,g,mean)#orz<-x;split(z,g)<-lapply(split(x,g),scale);tapply(z,g,sd)##Splitamatrixintoalistbycolumnsma<-cbind(x=1:10,y=(-4:5)^2);split(ma,col(ma));split(1:10,1:2)第一百零八页,共一百三十四页,2022年,8月28日第一百零九页,共一百三十四页,2022年,8月28日第一百一十页,共一百三十四页,2022年,8月28日boxplot(split(Edata$SALARY,list(Edata$GENDER,Edata$JOBCAT)),plot=F);ValueListwiththefollowingcomponents:stats:amatrix,eachcolumncontainstheextremeofthelowerwhisker,thelowerhinge,themedian,theupperhingeandtheextremeoftheupperwhiskerforonegroup/plot.n:avectorwiththenumberofobservationsineachgroup.conf:amatrixwhereeachcolumncontainsthelowerandupperextremesofthenotch.out:thevaluesofanydatapointswhichliebeyondtheextremesofthewhiskers.group:avectorofthesamelengthasoutwhoseelementsindicatewhichgrouptheoutlierbelongstonames:avectorofnamesforthegroups第一百一十一页,共一百三十四页,2022年,8月28日$stats[,1][,2][,3][,4][,5][,6][1,]34410.038700NA295501575019650[2,]41550.054900NA301502145026700[3,]45187.563750NA307502400029850[4,]55750.073750NA309752775034950[5,]58125.0100000NA319503705046000$n

[1]1074027206157$conf

[,1][,2][,3][,4][,5][,6][1,]38092.6160287.8NA30499.1423306.4728809.69[2,]52282.3967212.2NA31000.8624693.5330890.31$out

[1]103750135000110625103500243003375034500352503525028500[11]38850540005100038550408003765052650800005055066875[21]49000$group

[1]222244444455555566666$names[1]"f.经理""m.经理""f.保管员""m.保管员""f.服务员""m.服务员"第一百一十二页,共一百三十四页,2022年,8月28日例9对某公司雇员数据,分析不同性别、民族之间的收入差异;作出多批数据箱线图。boxplot(split(Edata$SALARY,list(Edata$MINORITY,Edata$GENDER)),col="lightgray");boxplot(split(Edata$SALARY,list(Edata$GENDER,Edata$MINORITY)),col="lightgray");第一百一十三页,共一百三十四页,2022年,8月28日第一百一十四页,共一百三十四页,2022年,8月28日第一百一十五页,共一百三十四页,2022年,8月28日例10对某公司雇员数据,分析不同民族、工作类型之间的收入差异;作出多批数据箱线图。boxplot(split(Edata$SALARY,list(Edata$JOBCAT,Edata$MINORITY)),col="lightgray");boxplot(split(Edata$SALARY,list(Edata$MINORITY,Edata$JOBCAT)),col="lightgray");第一百一十六页,共一百三十四页,2022年,8月28日第一百一十七页,共一百三十四页,2022年,8月28日第一百一十八页,共一百三十四页,2022年,8月28日时间序列数据—线图

(lineplot)绘制线图时应注意以下几点时间一般绘在横轴,指标数据绘在纵轴图形的长宽比例要适当,其长宽比例大致为10:7一般情况下,纵轴数据下端应从“0”开始,以便于比较。数据与“0”之间的间距过大时,可以采取折断的符号将纵轴折断第一百一十九页,共一百三十四页,2022年,8月28日时间序列数据—线图

(例题分析)【例】已知1991~2000年我国城乡居民家庭的人均收入数据如表。试绘制线图¥

1991~2000年城乡居民家庭人均收入年份城镇居民农村居民19911992199319941995199619971998199920001700.62026.62577.43496.24283.04838.95160.35425.15854.06280.0708.6784.0921.61221.01577.71

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论