2024年-R语言与数据描性分析_第1页
2024年-R语言与数据描性分析_第2页
2024年-R语言与数据描性分析_第3页
2024年-R语言与数据描性分析_第4页
2024年-R语言与数据描性分析_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1第二节R与数据描述性分析描述统计分析推断统计分析绘制统计图型编制统计表格计算描述统计量参数估计假设检验数据建模数据挖掘…数据的统计分析张金龙R初步2010-6-322.1用统计量描述数据R基本统计分析函数命令解释max(x)返回向量x中最大元min(x)返回向量x中最小元which.max(x)返回x最大元的下标which.min(x)返回x最小元的下标mean(x)计算样本x的均值median(x)计算样本x的中位数var(x)计算样本x的方差sd(x)计算样本x的标准差fiveenum(x)计算样本x的五数概括quantile(x,pro=c())计算样本x的常用分位数(默认五数概括)summary(x)计算样本x的(五数概括+均值)张金龙R初步2010-6-33sum(x)(cumsum(x))给出样本x的总和(积累和)mad(x)计算中位绝对离差1.4826median(abs(x-median(x)))range(x)返回向量c(min(x),max(x))或(min(x)-max(x))IQR(x)计算样本x的四分位数极差sort(x)sort(x)按升序排序,选项decreasing=TRUE表降序skewness(x)样本的偏度系数(需加载fBasics程序包)kurtosis(x)样本的峰度系数(需加载fBasics程序包)basicStats(x)fBasics包中的命令,计算常用的统计量Stat.desc(x)Pastecs包中命令,计算多个统计量和均值置信区间Describe.by(x)psych包,Hmise包中命令,计算常用的统计特征量var(x,y),cov(x,y)计算样本x,y的协方差或协方差矩阵cor(x,y)计算样本x,y的相关系数col(row)means(x)矩阵x行(列)均值scale(x,center=T)对矩阵或数据框x中心化,(,+scale=T)标准化aggregate(x,by,fun)对数据框x的指定分组变量按指定函数统计分析apply(s,t,lpply)对矩阵(列表或向量、因子)指定分组变量使用函数张金龙R初步2010-6-34张金龙R初步2010-6-352.1.1一维数据分布的特征数据水平(位置)数据差异

(分散程度)分布形状(偏态和峰态)张金龙R初步2010-6-36(一)水平的度量(数据的“位置”)1.均值

mean()消除了观测值的随机波动易受极端值的影响2.

中位数median()me50%50%排序后处于中间位置上的值。不受极端值影响张金龙R初步2010-6-37其中x(i)是第i个顺序统计量的样本值,按升序排列为:x(1)≤x(2)≤…≤x(n)在R中,sore()给出样本的次序统计量的观察值。sore(x):数据按升序排列,decreasing=TRUE

为降序。sore(x,na):有缺失值的数据,不处理缺失数据。sore(x,na.last=T):排序保留缺失数据,排在最后。sore(x,na.last=F):排序保留缺失数据,排在最前。与sore(x)相关的函数:

order()给出排序后的下标。

rank()给出样本的秩统计量。张金龙R初步2010-6-38set.seed(1);z=sample(1:100,9);z#设置种子,在1~100中任取9个数,比较与sample(1:100,9,rep=T)和去掉set.seed(1)的不同,

[1]273757892086976258sort(z)[1]202737575862868997sort(z,decreasing=TRUE)[1]978986625857372720order(z)

[1]

512398647z[order(z)]

[1]273757892086976258which(z==max(z))#给出最大值下标,等价于which.max[1]7which(z==median(z))#给出中位数下标[1]9例2.1

(排序,次序统计量的样本值,最大值、中位数下标)

张金龙R初步2010-6-393.众数(mode):一组数据中出现次数最多的变量值适合于数据量较多时使用不受极端值的影响一组数据可能没有众数或有几个众数momo在R中,样本x的众数如下计算:which(table(x)==max(table(x)))例2.1

x<-c(2,2,4,4,4,6,6,6,8)

table(x)#x的频数表

max(table(x))#众数出现的次数

which(table(x)==max(table(x)))#

众数在table(x)第几个:4,6.张金龙R初步2010-6-310左偏分布均值

中位数

众数对称分布

均值=

中位数=

众数右偏分布众数

中位数均值众数、中位数和平均数的关系均值是观测值的重心:对称分布或接近对称分布时代表性较好中位数是观测值的中心:数据分布偏斜程度较大时代表性接好众数是观测值的重点:偏斜程度较大且有明显峰值时代表性较好张金龙R初步2010-6-3114.

分位数quantile()p分位数上四分位数下四分位数1stQu3stQu、quantile(x):给出0%,25%,50%,75%,100%分位数。quantile(x,prob=seq(0,1,0.2),na.rm=TRUE):给出0%,20%,40%,60%,80%,100%分位数,且可处理缺失值。quantile(x,(0,25,0.75)):给出25%,75%分位数。张金龙R初步2010-6-3125.最大值

max()

与最小值min()6.五数概括fiveenum(x)或quantile(x)Min,1stQu,Median,3stQu,Max7.描述统计量summary()Min.1stQu.MedianMean3rdQu.Max.8.截尾

trimmed

()比如:Trimmed=0.2基于中间60%的数据,最高和最低20%的数值被忽略张金龙R初步2010-6-313占25%数据量位置的分位数50%位置的分位数占75%数据量位置的分位数最大

观测值最小

观测值中位数上四分位数下四

分位数(1stQuartile)(3stquartile)有50%的观测值小于中位数有50%的观测值位于上下四分位数之间有50%的观测值大于中位数四分位数五数概括按照位置来确定四分位数meX(n)X(1)张金龙R初步2010-6-314(二)差异的度量(数据的“尺度”)1.方差

var()2.标准差sd()3.变异系数CV=100×sd()/mean()对数据相对离散程度的测度消除了数据水平高低和计量单位的影响用于对不同组别数据离散程度的比较张金龙R初步2010-6-3154.样本矫正平方和CSS=CSS<-sum(x-mean(x))^2),CSS5.样本未矫正平方和USS=USS<-sum(x^2),USS6.极差rang=max(x)-

min(x)=x(n)-x(1)R<-max(x)-min(x)7.四分位差IQR(x)反映了中间50%数据的离散程度不受极端值的影响用于衡量中位数的代表性离散程度的最简单测度值易受极端值影响未考虑数据的分布张金龙R初步2010-6-316异常值:x>上四分位数+1.5×(上四分位数-下四分位数)x<下四分位数-1.5×(上四分位数-下四分位数)极端异常值:x>上四分位数+3×(上四分位数-四百分位数)x<下四分位数-3×(上四分位数-四百分位数)10.异常(极端)值8.标准误SE.mean:SE.mean<-sd(x)/n^0.5盒型图中有显示9.中位数绝对离差函数mad():mad(x)=1.4826*median(abs(x-median(x)))该数约等于1/qnorm(3/4),保证正态或大样本下对标准差估计的一致性张金龙R初步2010-6-317(三)分布形态的度量左偏分布偏态右偏分布扁平分布尖峰分布与标准正态分布比较!峰态Sk<0Sk>0K<0K>0张金龙R初步2010-6-3181.偏度系数skewness()2.峰度系数kurtosis()需加载包:fBasics,Pastecs,psych等对分布曲线尖削程度的测度K<0,平缓K>0,尖峭对分布偏斜方向和程度的测度Sk<0,左偏Sk>0,右偏张金龙R初步2010-6-3192.1.2多维数据的特征分析对多维数据,可认为来自多元总体,除了分析各个分量的取值特征,这些是进行比较或区分的根据,更重要的分析各分量之间的相关关系,对多元数据的相关分析,是多元统计分析的基础。假设n元数据集张金龙R初步2010-6-320201.样本均值mane()矩阵形式其中张金龙R初步2010-6-321212.样本协方差矩阵cov()sjk=skj

,cov(X)是对称矩阵。张金龙R初步2010-6-322223.样本相关系数矩阵cor()其中张金龙R初步2010-6-323234.数据的中心化和标准化处理中心化:标准化:其中scale(x,center=T)scale(x,center=T,scale=T)此时张金龙R初步2010-6-324例2.3

a<-read.table("Billianaires.TXT",sep=",",header=T,na.string="-")#读取文本“Billianaires.TXT”,福克斯富豪排行榜数据.(1)对单组数据a[3]=Net.Worth的描述统计afivenum(a$Net.Worth)[1]1.01.42.13.669.0quantile(a$Net.Worth,prob=c(0.25,0.5,0.75))25%50%75%1.42.13.6

quantile(a$Net.Worth)0%25%50%75%100%1.01.42.13.669.0

summary(a$Net.Worth)

Min.1stQu.MedianMean3rdQu.Max.1.0001.4002.1003.7343.60069.000which(table(a[3])==max(table(a[3])))1.13

众数是1.1张金龙R初步2010-6-325

library(fBasics)basicStats(a$Net.Worth)X..a.Net.Worthnobs1223.000000NAs0.000000Minimum1.000000Maximum69.0000001.Quartile1.4000003.Quartile3.600000Mean3.733688Median2.100000Sum4566.300000SEMean0.146241LCLMean3.446777UCLMean4.020598Variance26.155456Stdev5.114240Skewness5.386001Kurtosis44.748740library(pastecs)stat.desc(a[3])

Net.Worthnbr.val1223.0000000nbr.null0.0000000nbr.na0.0000000min1.0000000max69.0000000range68.0000000sum4566.3000000median2.1000000mean3.7336877SE.mean0.1462406CI.mean.0.950.2869105var26.1554559std.dev5.1142405coef.var1.3697558附注:均值95%置信区间:(mean

±CI.mean.0.95)

张金龙R初步2010-6-326

RankNameNet.WorthMin.:1.0RobertMiller:2Min.:1.0001stQu.:304.0A.JerroldPerenchio:11stQu.:1.400Median:601.0AbdulAzizAlGhurair&family:1Median:2.100Mean:596.6AbdullaAlFuttaim:1Mean:3.7343rdQu.:913.0AbdullahAlRajhi:13rdQu.:3.600Max.:1153.0AbigailJohnson:1Max.:69.000(Other):1216AgeSourceCountry.of.CitizenshipMin.:0.00realestate:70UnitedStates:4211stQu.:52.00diversified:58Russia:96Median:62.00investments:50China:95Mean:62.39retail:46Germany:553rdQu.:72.00hedgefunds:29India:48Max.:101.00banking:28HongKong:38NA's:32(Other):942(Other):4701.summary(a)该函数可同时对多组数据进行分别概述,注意结果合理性(2)对多组数据的描述统计张金龙R初步2010-6-327summary(a[,c(3,4)])

Net.WorthAgeMin.:1.000Min.:0.001stQu.:1.4001stQu.:52.00Median:2.100Median:62.00Mean:3.734Mean:62.393rdQu.:3.6003rdQu.:72.00Max.:69.000Max.:101.00NA's:32对于分类变量Source和Country.of.Citizenship可考虑:按频数排序,并找到众数,中位数等sort(table(a[,6]))which(table(a[,6])==median(table(a[,6])))which(table(a[,6])==max(table(a[,6])))张金龙R初步2010-6-328

788MalaysiaSwitzerlandMexico9911SwedenIsraelFrance111315ItalySpainIndonesia161617AustraliaSouthKoreaJapan182024TaiwanCanadaTurkey242634UnitedKingdomBrazilHongKong363738IndiaGermanyChina485595RussiaUnitedStates96421

>which(table(a[,6])==median(table(a[,6])))#频数中位数对应地区或国家

AustriaLebanonNetherlandsPhilippines3293439>which(table(a[,6])==max(table(a[,6])))#频数最大值对应地区或国家UnitedStates58张金龙R初步2010-6-329

2.library(psych)describe(a)

varsnmeansdmediantrimmedmadminRank11223596.58342.25601.0597.73452.191Name*21223611.76352.88612.0611.83453.681Net.Worth312233.735.112.12.601.261Age4119162.3913.6162.062.244.830Source*51223266.03138.99262.0268.16174.951Country.of.Citizenship*6122338.5419.8843.040.1822.241maxrangeskewkurtosisseRank11531152-0.01-1.219.79Name*122212210.00-1.2010.09Net.Worth69685.3944.750.15Age101101-0.100.300.39Source*519518-0.10-1.123.97Country.of.Citizenship*5958-0.44-1.410.57该函数可对多组数据的描述统计量同时进行概述,注意结果合理性,*号的不适合用张金龙R初步2010-6-330library(psych)describe(a[,3:4])

varsnmeansdmediantrimmedmadminmaxNet.Worth112233.735.112.12.601.26169Age2119162.3913.6162.062.2414.830`rangeskewkurtosisseNet.Worth685.3944.750.15Age101-0.100.300.39

3.aggregat(x,by,fun)aggregate(a[,3],list(a[,6]),mean)#计算不同国家富豪平均财富X为数据框by指定分类变量Fun指出统计函数,比如mean另有apply,tapply,sapply,lapply等函数也用来处理多组数据的描述统计4.cov(),cor()#多元数据相关性分析张金龙R初步2010-6-331二、频数(率)表描述数据适合数据类型:1.离散值变量.2.定性变量(分类数据).3.连续值变量离散化(分组).命令解释table()样本的频数表,多类别因子的k维频数表(列联表)xtabs(formula,data)根据公式或数据框或矩阵创建一个列联表prop.table()(*100)频数表转化为频率(百分比)margin.table(table,)边际频数表addmargin(table,)边际累加频数表prop.table(table,)边际频率表ftable(table)紧凑多维频数表R中常用频数,频率表即列联表函数张金龙R初步2010-6-332library(MASS)quineattach(quine)table(Age)table(Sex,Age);tab=xtabs(~Sex+Age,quine);unclass(tab)tapply(Days,Age,mean)tapply(Days,list(Sex,Age),mean)张金龙R初步2010-6-3331.离散值数据>table(a[,4])#富豪年龄频数表

0272829303132333435363738394041424344

3211211123215813951421

45464748495051525354555657585960616263

21242430272926292626283132373041293624

64656667686970717273747576777879808182

28253630362832272018272418211417121915

83848586878889909192939496101

1415131561272541311例2.4b<-read.table("某地区毕业生调查.txt“,header=T);b>table(b[,4])#花费时间频数表

0

1

2

3

4

5

6

7

8

9

10

1215

363

24416763

22

71

3

3

1

2

1张金龙R初步2010-6-3342.定性或分类数据

table(b[,6],b[,7])#“学校层次”与“是否找到工作”频数表12

3

09013242

199380212

prop.table(table(b[,6],b[,7]))*100#相应频率表

123

09.42408413.8219904.397906

110.36649239.79057622.198953prop.table(table(b[,1],b[,6]))#“性别”与“是否找到工作频率

0110.12041880.3026178

20.15602090.4209424张金龙R初步2010-6-3353.连续值数据分组

s<-factor(cut(b[,3],breaks=0+20*(0:7)))table(s)s(0,20](20,40](40,60](60,80](80,100]4853659157b$cl<-s;b;table(b[,5],b[,11])张金龙R初步2010-6-336R中数据分布相关的基本作图函数命令解释pie(x)饼图boxplot(x)箱形图polygon(x,y)绘多边形hist(x,breaks=“”,freq=T,)频率直方图(分组组距,频率(数),标题,坐标.填充色等)barplot(x)x的条形图density(x,…)直方图上核密度估计曲线ecdf(x)经验分布函数stem(x)茎叶图pplot(x,y,…)散点图par(mfrow=c(,)根据向量c(,)按行分割图形par(mfcol=c(,)根据向量c(,)按列分割图形stars(x)星图2.2用图形描述数据分布张金龙R初步2010-6-337利用图表表示数据时,首先要确定数据所属类型是定性数据还是定量数据定性数据常用的图形表示:条形图饼图定量数据常用的图形表示:直方图茎叶图箱线图散点图核密度估计图雷达、星形图脸谱图小提琴图…张金龙R初步2010-6-3382.2.1.直方图hist()hist(x,breaks="Sturges",freq=T,probability=!freq,…)break规定了直方图的组距(必须覆盖数据的范围);freq是逻辑变量,TRUE是频率直方图,FALSE是密度直方图;probability和freq相反,par(mfrow=c(1,3))hist(a$Net.Worth)hist(a$Net.Worth,freq=F,col=“red”)hist(a$Net.Worth,freq=F,xlab="Net.Worth")张金龙R初步2010-6-3392.2.2.核密度估计density()用density()函数可以绘制与直方图配套的核密度估计。density的一般用法为:

density(x,bw="nrd0",adjust=1,kernel=c("gaussian","…"),window=kernel,width…)bw是带宽,默认值R画出光滑图形;kernel是核函数;adjust表示实际带宽是adjust*bw。张金龙R初步2010-6-340w<-c(75,64,47.4,66.9,62.2,62.2,58.7,63.5,66.6,64,57,69,56.9,50,72)hist(w,freq=F);lines(density(w),col="blue")x<-44:76;lines(x,dnorm(x,mean(w),sd(x)),col="red")张金龙R初步2010-6-341若要在R中画出经验分布函数,则用plot函数:

plot(ecdf(x),ylab="Fn(x)",verticals=FALSE,col.01line="gray70")verticals是逻辑变量,TRUE时表示画竖线,否则不画竖线;col.01line是0-1线的颜色。

plot(ecdf(w),verticals=T);

x<-44:78;lines(x,pnorm(x,mean(w),sd(w)))2.2.3.经验分布函数ecdf()张金龙R初步2010-6-3422.2.4.盒型图boxplot()箱线图boxplot()直观地展现数据分布的主要特征,五数概括的图形表述。boxplot()有三种基本的用法:

>boxplot(x,…)>boxplot(x,…,range=1.5,width,varwidth,notch=FALSE,outline=TRUE,…,horizontal=FALSE,add=FALSE,at=NULL)>boxplot(formula,data,…,subset,na.action=NULL);x是数据构成的数值型向量;range控制了“触须”的范围(默认值1.5);notch=TRUE时,箱线图带有切口;outline是逻辑变量,TRUE时标出异常点;horizontal是逻辑变量,TRUE表示把箱线图绘制成水平状;

add是逻辑变量,TRUE时表示在原图上画图,否则替换一张图。fomular是公式;data给出了公式作用的对象;subset是可选参数,给定要绘制的数据子集

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论