《统计学-基于R》第3章-数据的描述统计量(R3)_第1页
《统计学-基于R》第3章-数据的描述统计量(R3)_第2页
《统计学-基于R》第3章-数据的描述统计量(R3)_第3页
《统计学-基于R》第3章-数据的描述统计量(R3)_第4页
《统计学-基于R》第3章-数据的描述统计量(R3)_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据分析

(方法与案例)

作者贾俊平版权所有违者必究StatisticswithR统计学R语言第3章数据的描述统计量3.1

描述水平的统计量

3.2描述差异的统计量3.3描述分布形状的统计量3.4数据的综合描述

ummaryS3.1描述水平的统计量

3.1.1平均数

3.1.2分位数

3.1.3众数第3章数据的描述统计量

3.1.1平均数3.1描述水平的统计量2018-9-25平均数

(mean)也称为均值,常用的统计量之一消除了观测值的随机波动易受极端值的影响根据总体数据计算的,称为总体平均数,记为

;根据样本数据计算的,称为样本平均数,记为

x2018-9-25计算简单平均数#计算30名学生考试分数的平均数

load("C:/example/ch3/example3_1.RData")mean(example3_1$分数)设一组数据为:x1,x2,…,xn(总体数据xN)样本平均数总体平均数

2018-9-25计算加权平均数#计算30名学生考试分数的加权平均数

load("C:/example/ch3/example3_2.RData")

weighted.mean(example3_2$组中值,example3_2$人数)

样本加权平均数总体加权平均数

3.1.2分位数3.1描述水平的统计量2018-9-25中位数

(median)排序后处于中间位置上的值。不受极端值影响Me50%50%位置确定数值确定

2018-9-25计算中位数#计算10名学生考试分数的中位数【例3—2】30名学生的考试分数的中位数load("C:/example/ch3/example3_1.RData")median(example3_1$分数)2018-9-25四分位数

(quartile)用3个点等分数据。排序后处于25%和75%位置上的值Q25%Q50%Q75%25%25%25%25%SPSS算法R算法:type=6R算法——共9种。参见help

2018-9-25计算四分位数#计算30名学生考试分数的四分位数(example3_1)#汇总输出基本的描述统计量(example3_1)

用R计算汇总输出基本的描述统计量load("C:/example/ch3/example3_1.RData")quantile(example3_1$分数,probs=c(0.25,0.75),type=6)load("C:/example/ch3/example3_1.RData")summary(example3_1$分数)#默认使用type=72018-9-25百分位数

(percentile)

2018-9-25计算百分位数#计算30名学生考试分数的百分位数(example3_1)load("C:/example/ch3/example3_1.RData")quantile(example3_1$分数,probs=c(0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9),type=6)3.1.3众数3.1描述水平的统计量2018-9-25众数

(mode)一组数据中出现次数最多的变量值适合于数据量较多时使用不受极端值的影响一组数据可能没有众数或有几个众数2018-9-25计算众数#编写函数计算众数(example3_1)#which.max函数

—无众数返回1,双众数只返回第一个

load("C:/example/ch3/example3_1.RData")mode<-function(x){ux<-sort(unique(x))#列出每一个的数值并排序tab<-tabulate(match(x,ux))#比较x与ux中相同的数值,列出它们在ux中位置,再计算每个位置的频数ux[tab==max(tab)]#找出ux对象中频数最多的元素}mode(example3_1$分数)#使用mode函数计算对象的众数load("C:/example/ch3/example3_1.RData") which.max(table(example3_1$分数))14#众数在频数分布表的第14位3.2描述差异的统计量

3.2.1极差和四分位差

3.2.2方差和标准差

3.2.3变异系数

3.2.4标准分数第3章数据的描述统计量

3.2.1极差和四分位差3.2描述差异的统计量2018-9-25极差

(range)一组数据的最大值与最小值之差离散程度的最简单测度值易受极端值影响未考虑数据的分布计算公式为:load("C:/example/ch3/example3_1.RData")R<-max(example3_1$分数)-min(example3_1$分数);R#或写为:R<-diff(range(example3_1$分数));R

2018-9-25四分位差

(interquartilerange)也称四分位距。上四分位数与下四分位数之差反映了中间50%数据的离散程度不受极端值的影响用于衡量中位数的代表性R函数:

IQR(example3_1$分数,type=6)2018-9-25四分位差

(interquartilerange)【例3—7】计算30名学生考试分数极差和四分位差例#计算极差

#计算四分位差

load("C:/example/ch3/example3_1.RData")range<-max(example3_1$分数)-min(example3_1$分数);rangeIQR(example3_1$分数,type=6)3.2.2方差和标准差3.2描述差异的统计量2018-9-25方差和标准差

(varianceandstandarddeviation)数据离散程度的最常用测度值反映各变量值与均值的平均差异根据总体数据计算的,称为总体方差(标准差),记为

2();根据样本数据计算的,称为样本方差(标准差),记为s2(s)

样本标准差s

2018-9-25计算方差和标准差【例3—8】计算30名学生考试分数的方差和标准差。

#方差#标准差load("C:/example/ch3/example3_1.RData")var(example3_1$分数)sd(example3_1$分数)3.2.3变异系数3.2描述差异的统计量2018-9-25变异系数

(coefficientofvariation)标准差与其相应的均值之比对数据相对离散程度的测度消除了数据水平高低和计量单位的影响用于对不同组别数据离散程度的比较计算公式为

2018-9-25变异系数

(例题分析)【例3—9】评价哪名运动员的发挥更稳定纳塔利娅·帕杰林娜郭文珺卓格巴德拉赫·蒙赫珠勒妮诺·萨卢克瓦泽维多利亚·柴卡莱万多夫斯卡·萨贡亚斯娜·舍卡里奇米拉·内万苏10.010.09.39.89.38.110.28.78.510.510.010.39.410.39.69.310.010.48.710.010.49.29.99.210.210.48.39.510.19.99.910.310.610.19.210.210.29.89.39.810.510.39.510.710.510.49.110.09.89.48.510.49.29.99.79.79.710.710.710.610.59.410.09.99.510.89.29.19.810.79.39.99.39.79.210.88.69.69.99.72018-9-25用R计算变异系数#计算变异系数#绘制凹槽箱线图

【例3—9】评价哪名运动员的发挥更稳定load("C:/example/ch3/example3_9.RData")mean<-apply(example3_9,2,mean)sd<-apply(example3_9,2,sd)cv<-sd/meanx<-data.frame("平均环数"=mean,"标准差"=sd,"变异系数"=cv)round(x,4)par(cex=.6,mai=c(.7,.7,.1,.1))boxplot(example3_9,notch=TRUE,col="lightblue",ylab="射击环数",xlab="运动员")3.2.4标准分数3.2描述差异的统计量2018-9-25标准分数

(standardscore)对某一个值在一组数据中相对位置的度量。也称标准化值可用于判断一组数据是否有离群点(outlier)计算公式为【例3—10】(数据:example3_1.RData)沿用例3—1。计算30名学生考试分数的标准分数

load("C:/example/ch3/example3_1.RData")as.vector(round(scale(example3_1$分数),4))2018-9-25经验法则

经验法则表明:当一组数据对称分布时约有68%的数据在平均数加减1个标准差的范围之内约有95%的数据在平均数加减2个标准差的范围之内约有99%的数据在平均数加减3个标准差的范围之内3.3描述分布形状的统计量

3.3.1偏度系数

3.3.2峰度系数第3章数据的描述统计量

2018-9-25偏度与偏度系数

(skewness)

2018-9-25峰度与峰度系数

(kurtosis)

2018-9-25不同分布的偏度系数和峰度系数##来自不同分布的模拟数据,样本量=5000library(e1071)#加载“skewness”和“kurtosis”函数包par(mfrow=c(1,3),mai=c(0.7,0.5,0.2,0.1))mf<-function(x){hist(x,probability=T,col='lightblue',xlab="x",ylab="Density",sub=paste("skewness=",round(skewness(x),digits=4)),main=paste("kurtosis=",round(kurtosis(x),digits=4)))lines(density(x),col='red',lwd=2)}n<-5000mf(rchisq(n,10))mf(rnorm(n))mf(-rchisq(n,10)+36)2018-9-25计算偏度系数和峰度系数【例3—11】沿用例3—1。计算30名学生考试分数的偏度系数和峰度系数#计算偏度系数#计算峰度系数

library(agricolae)skewness(example3_1$分数)kurtosis(example3_1$分数)3.4数据的综合描述

3.4.1几个常用的R函数3.4.2一个综合描述的例子第3章数据的描述统计量

2018-9-25综合描述的R函数

(例题3—9)#绘制使用pastecs包中的stat.desc()函数计算描述统计量

#使用psych包中的describe()函数计算描述统计量

load("C:/example/ch3/example3_9.RData")library(pastecs)round(stat.desc(example3_9),4)library(psych)describe(example3_9)2018-9-25综合分析

(例题3—12)【例3—12】60个大学生的调查数据(部分)性别家庭所在地月生活费支出性别家庭所在地月生活费支出女中小城市1500女乡镇地区1850男大型城市2000女乡镇地区2000男大型城市1800女中小城市1700女中小城市1600女大型城市1800女中小城市2000男中小城市1860女大型城市2100男乡镇地区1950男大型城市1100女中小城市1900男大型城市1780男中小城市2000………………2018-9-25计算汇总统计量

(例题3—12)#使用summary函数对类别数据计数和对数值数据计算描述统计量(example3_12)

summary(example3_12)2018-9-25绘制图形反映分布

(例题3—12)#绘制带有箱线图、轴须线和密度估计的直方图#绘制茎叶图library(aplpack)load("C:/example/ch3/example3_12.RData")attach(example3_12)par(fig=c(0,0.8,0,0.8),cex=0.8)hist(月生活费支出,xlab="月生活费支出",ylab="密度",freq=FALSE,col="lightblue",main="")rug(jitter(月生活费支出))lines(density(月生活费支出),col="red")par(fig=c(0,0.8,0.35,1),new=TRUE)boxplot(月生活费支出,horizontal=TRUE,axes=FALSE)library(aplpack)stem.leaf(example3_12$月生活费支出)2018-9-25用R计算汇总描述统计量

(例题3—12)#按性别和家庭所在地分类描述(编写函数如下)my_summary<-function(x){library(agricolae)with(x,data.frame(N=length(月生活费支出),"平均数"=mean(月生活费支出),"中位数"=median(月生活费支出),"标准差"=sd(月生活费支出),"全距"=max(月生活费支出)-min(月生活费支出),"变异系数"=sd(月生活费支出)/mean(月生活费支出),"偏度系数"=skewness(月生活费支出)))}library(plyr)ddply(example3_12,.(性别),my_summary)ddply(example3_12,.(家庭所在地),my_summary)2018-9-25用R计算汇总描述统计量

(例题3—12)#同时按性别和家庭所在地分类描述library(reshape)library(agricolae)mys

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论