语言数据及代码2r第二讲_第1页
语言数据及代码2r第二讲_第2页
语言数据及代码2r第二讲_第3页
语言数据及代码2r第二讲_第4页
语言数据及代码2r第二讲_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二讲加工R对象:管理数据基本描述统计加工R对象:管理数据L2_1.R例:读入60名学生的成绩数据1读入60名学生的成绩数据2将两份数据合并数据子集的横向合并,前提:有共同的关键字merge(数据框名1,数据框名2,by="关键字")数据子集的合并格式:对象名<-R表达式R表达式:由R对象、常量、函数、算术运算符、关系运算符、逻辑运算符等组成的式子例:计算每个同学的总分和平均分按总分降序排序数据按性别和总分降序排序数据检查性别取值是否正确性别数据的处理:名义类型转换为因子;1标记为M,2标记为FR对象的基本加工例:计算每个同学的总分和平均分向量的算数运算符:+(加),-(减),*(乘),^(乘方),/(除)注意:各向量包含的元素个数应相等R对象的基本算术运算向量B+(-*/)向量C=向量A例:按总分降序排序数据;按性别和总分降序排序数据排序函数:对指定向量取值排序,返回排序后的个案号码order(向量名,na.last=TRUE/FALSE/NA,decreasing=FALSE/TRUE)na.last:对于缺失值的处理,缺失排在前或后或剔除decreasing:排列顺序,默认升序R对象数据的排序例:检查性别取值是否正确得到分类变量的类别值unique(向量名):获得类别取值检查R对象的取值例:性别数据的处理分类变量转换为因子,并重新设置水平值的标记factor(向量名,levels=levels,labels=levels):向量自动转化为因子型,且因子水平值进行重新标记省略levels和labels,则因子水平值默认为原值利用levels指定水平数的具体取值否则默认是从小到大,即最小值为第一水平,最大值为最后一个水平描述因子:第一:水平标签(字符);第二:水平值(整型);水平值与标签一一对应分类变量值的转换和编码例:提取男生(性别为M)的数据提取男生(性别为M)且平均成绩不及格(小于60分)的学生数据方法一:subset(对象名,条件表达式)条件表达式由关系运算符、逻辑运算符等组成的式子,运算结果:TRUE/FALSE访问数据子集关系运算符:==(等于),!=(不等于),>(大于),<(小于),>=(大于等于),<=(小于等于)逻辑运算符:&(逻辑与),|(逻辑或),!(逻辑非)方法二:对象名[逻辑向量名,]:只显示逻辑向量取值为TRUE的行访问数据子集例:将加工好的学生数据保存到文本文件中保存方法:利用write.table函数write.table(对象名,file="",sep="",quote=FALSE,append=FALSE,na="NA",s=FALSE,s=TRUE)将对象数据写到file指定的文件中sep:数据项的分隔符quote:字符型数据项是否用引号括起来append:追加写或覆盖写na:文件中是什么表示缺失值s,s:是否写行名或列名将数据集保存到文本文件中基本描述统计L2_2.R例:对于学生成绩(成绩集合并后的)计算各门课程的平均分、标准差等统计量分性别计算各门课程的平均分、标准差等计算基本描述统计量计算指定向量的描述统计量mean(向量名,an.rm=true)an.rm:对于NA是否剔除。不剔除则无法计算sd(向量名,an.rm=true)max(向量名,an.rm=true)summary(向量名)利用茎叶图反映变量的分布特征stem(向量名)计算基本描述统计量如何方便地计算每门课程的描述统计量?sapply(ReportCard[,3:10],FUN=mean,na.rm=TRUE)对数据框的指定列(域)依次计算FUN指定的函数,计算结果存放到一个向量中注意:sapply函数要求的数据必须是数据框colMeans(ReportCard[,3:10],na.rm=TRUE)colSums(ReportCard[,3:10],na.rm=TRUE)如何方便地计算每个学生的平均成绩Av.Person<-rowMeans(ReportCard[,3:10],na.rm=TRUE)Sum.Person<-rowSums(ReportCard[,3:10],na.rm=TRUE)计算基本描述统计量分性别计算政治课程的描述统计量tapply(ReportCard$poli,INDEX=ReportCard$sex,FUN=mean,na.rm=TRUE)根据INDEX的分类水平,分别计算第一参数的FUN指定的函数值第二个参数的类型为factorFUN还可为:mean,sd,sum,max,min等计算基本描述统计量分性别计算所有课程的均值?MaleCard<-subset(ReportCard,ReportCard$sex=="M")Av.Male<-sapply(MaleCard[3:10],FUN=mean,na.rm=TRUE)FeMaleCard<-subset(ReportCard,ReportCard$sex=="F")Av.FeMale<-sapply(FeMaleCard[3:10],FUN=mean,na.rm=TRUE)Av.Course.Sex<-cbind(Av.Male,Av.FeMale)计算基本描述统计量例:对于学生成绩数据计算各门课程的协方差矩阵var(ReportCard[,3:10],na.rm=TRUE)计算各门课程的相关系数矩阵cor(ReportCard[,3:10],use="complete.obs",method="pearson")use:对于缺失的处理,complete.obs表示剔除带有缺失值的样本后计算method:指定相关系数的种类pearson,kendall,spearman数值型变量的相关性例:对于职工数据性别的分布,职称的分布,结果为table(数组)table(FacultyData$XB)table(FacultyData$ZC)计算性别和职称的交叉列联表,结果为矩阵table(FacultyData$XB,FacultyData$ZC)高维列联表的结果为数组分类变量的分布和相关性常用的描述统计函数矩阵的转置:t(矩阵名)矩阵的合并:cbind(矩阵名1,矩阵名2)rbind(矩阵名1,矩阵名2)矩阵乘法:%*%提取或修改矩阵的对角元素:diag(矩阵名);diag(矩阵名)<-元素值;diag(矩阵名)<-元素值向量矩阵的基本运算创建单位阵diag(矩阵大小)创建对角元素为指定值,其余元素均为0的方阵diag(向量)创建对角元素为指定值,其余元素均为0的任意阵diag(向量,nrow=…,ncol=…)求矩阵的逆:solve(矩阵名)求矩阵的特征值和特征向量:eigen(矩阵名)矩阵的基本运算ISIT.txt是深海浮游发光生物的数据,编写R程序,实现:读入数据样本来自几个站点(station)各个站点各多少样本计算样本深度(SampleDepth)的最小值,最大值,中位数,均值,标准差计算各个站点样本深度的最小值,最大值,中位数,均值,标准差将4月份(Month)样本深度超过2000米的样本保存到文本文件中分析各站点是关于哪些年份和月份的抽样数据例:站点1是2001年4月的抽样数据计算

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论