




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
R语言的安装R是免费开源软件,主要用于各领域的定量分析、数据分析编程、数据可视化等方面。R语言的一个重要特点是其灵活性和可扩展性,截至2020年初,R语言已经有16000个包(package),各个包均有极为较为详细的使用说明。同时,R语言可以较为方便与其他语言,如python、C、C++等进行整合。为比较方便使用R语言,需要安装R和Rstudio两个软件。安装R后再安装Rstudio。R的安装:/CRAN/。下载完成后默认安装即可。Rstudio的安装:/products/rstudio/download/。下载完成后默认安装即可。R的打开:双击Rstudio安装目录中bin文件夹中的rstudio.exe,即可打开R语言的工作界面。注意:两个软件的安装位置建议不要有中文路经。下图为Rstudio界面:打开Rstudio后,为了后续更快地安装R包,需要对Rstudio进行简单设置。依次从目录中点击以下路径:Tools->Gloabaloptions->Packages,在PrimaryCRANrepository中选择China(Beijing1)[https]-TUNATeam,TsinghuaUniversity使用帮助R语言拥有良好的帮助系统,所有的包(包括系统默认加载的包)均有标准化的文档用于描述可用的函数。R语言帮助可通过多种途径获得:通过网站获取访问R语言网站/,即可在里面查找到各个包的完整说明书的pdf版。通过在R中输入代码获取R中可以通过两种途径获取帮助:假设已经加载了包含函数geom_point的包ggplot2,可以通过在命令行中输入?geom_point或者help("geom_point")获得相关信息。假设没有加载了包含函数geom_point的包ggplot2,可以通过在命令行中输入??geom_point或者help.search("geom_point")获得相关信息。包的安装及使用汽车厂商制造汽车不会从轮子开始造起,而是通过购买零部件,将零部件组装成汽车。同理,利用R语言进行数据分析、编程,也没必要所有代码都自己写,可以通过下载R语言包,调用已有的包进行工作。R语言有大量的包,比较常用的包括ggplot2、mlogit等等。R语言包的安装相当简单,如安装ggplot2,只需后输入如下代码即可:install.packages("ggplot2")如果需要使用ggplot2包,只需输入以下语句即可:library(ggplot2)数据结构及操作运算R语言不需要定义变量,可直接进行运算1+3##[1]41+3是代码,##[1]后面的是代码运算的结果2^3##[1]8#余数
7%%4##[1]3#整除
7%/%4##[1]1#对数,默认以自然常数e为底,
log(10)##[1]2.3#指定对数的底
log(10,base=10)##[1]1向量#利用<-给变量赋值
#与python等类似,不用显式指定变量的类型
a<-1
a#这行代码用于显示a##[1]1以上代码注意几点:R语言标准的赋值符号是<-,当然也可使用=与c语言等不同,R语言的变量在使用前,不需要定义其类型#变量命名与C语言等类似,唯一不同的是R中变量可以包括.号
#以下命名规则都是可行的
avariable<-1
a_variable<-1
a.variable<-1#向量是用于存储数值型、字符型或逻辑型数据的一维数组。向量一般由函数c()生成,也可由其他函数生成。
a<-c(1,2,-5,1,3,-10)
a##[1]12-513-10#取向量a的第1个元素
a[1]##[1]1#取向量a的第1、3个元素
a[c(1,3)]##[1]1-5#取向量a中除第1个元素外的其他元素
a[-1]##[1]2-513-10#取向量a中除第1、3个元素外的其他元素
a[c(-1,-3)]##[1]213-10#获取向量长度
a<-c(1,2,3,4)
length(a)##[1]4b<-c('Feb','July',"June",'Oct')#单引号与双引号效果一样
b##[1]"Feb""July""June""Oct"#TRUE与T等效,表示的是真;同理,FALSE与F等效
c<-c(TRUE,FALSE,T,F)
c##[1]TRUEFALSETRUEFALSE#生成一列数,数据的间隔为2
d<-seq(from=1,to=10,by=2)
d##[1]13579#生成一列数,这列数的长度为8
d<-seq(from=1,to=10,length.out=8)
d##[1]1.002.293.574.866.147.438.7110.00#对向量进行复制以生成新的向量
rep(c(1,2,3),times=3)##[1]123123123#对向量进行复制以生成新的向量
rep(c(1,2,3),each=3)##[1]111222333#向量运算
c(1,2,3,4)+c(2,3,4,5)##[1]3579#两个向量长度不一样,但第一个向量长度为4,第二个长度为2
#R对第二个向量进行了广播,使其称为c(2,3,2,3),再与第一个向量相加
#因而实际上是c(1,2,3,4)+c(2,3,2,3)
c(1,2,3,4)+c(2,3)##[1]3557#广播
c(1,2,3,4)*2##[1]2468#用NA表示缺失值
a<-c(1,2,3,4,NA)
a##[1]1234NA#判断是否为缺失值
is.na(a)##[1]FALSEFALSEFALSEFALSETRUE矩阵矩阵是一个二维数组,只是每个元素都拥有相同的模式(数值型、字符型或逻辑型)。可通过函数matrix创建矩阵。y1<-matrix(1:20,nrow=5,ncol=4)
y1##[,1][,2][,3][,4]
##[1,]161116
##[2,]271217
##[3,]381318
##[4,]491419
##[5,]5101520y2<-matrix(1:20,nrow=5,ncol=4,byrow=T)
y2##[,1][,2][,3][,4]
##[1,]1234
##[2,]5678
##[3,]9101112
##[4,]13141516
##[5,]17181920#取y2的第1行
y2[1,]##[1]1234#取y2的第1、3行
y2[c(1,3),]##[,1][,2][,3][,4]
##[1,]1234
##[2,]9101112#取y2的第1列
y2[,1]##[1]1591317#对行及列命名
rnames<-c("R1","R2","R3","R4","R5")
cnames<-c("C1","C2","C3","C4")
y3<-matrix(1:20,nrow=5,ncol=4,byrow=T,
dimnames=list(rnames,cnames))
y3##C1C2C3C4
##R11234
##R25678
##R39101112
##R413141516
##R517181920因子类别(名义型)变量和有序类别(有序型)变量在R中称为因子(factor)。因子在R中非常重要,因为它决定了数据的分析方式以及如何进行视觉呈现。函数factor()以一个整数向量的形式存储类别值,整数的取值范围是[1…k](其中k是名义型变量中唯一值的个数),同时一个由字符串(原始值)组成的内部向量将映射到这些整数上。因子分为无序因子和有序因子两类:##无序因子
type<-c('a','b','a','c','b')#字符串向量
type_f<-factor(type)#将向量type转换为无序因子
#type_f<-factor(type)将此向量存储为(1,2,1,3,1)
#并在内部将其关联为1=a,2=b,3=c(具体赋值根据字母顺序而定)
paste("type的类别是",class(type))##[1]"type的类别是character"paste("type_f的类别是",class(type_f))##[1]"type_f的类别是factor"##有序因子
sat<-c("dissatisfied","satisfied","neutral","satisfied","dissatisfied")
sat_f<-factor(sat,ordered=TRUE,
levels=c("dissatisfied","neutral","satisfied"))
str(sat_f)##Ord.factorw/3levels"dissatisfied"<..:13231列表列表(list)是一些对象的有序集合。列表允许你整合若干(可能无关的)对象到单个对象名下。例如,某个列表中可能是若干向量、矩阵、数据框,甚至其他列表的组合。可以使用函数list()创建列表。a<-"abcdefsds"
b<-1:10
c<-matrix(1:20,nrow=2)
a_list<-list(a_string=a,a_vector=b,a_matrix=c)
a_list##$a_string
##[1]"abcdefsds"
##
##$a_vector
##[1]12345678910
##
##$a_matrix
##[,1][,2][,3][,4][,5][,6][,7][,8][,9][,10]
##[1,]135791113151719
##[2,]2468101214161820str(a_list)##Listof3
##$a_string:chr"abcdefsds"
##$a_vector:int[1:10]12345678910
##$a_matrix:int[1:2,1:10]12345678910...数据框数据框是进行数据分析时候,最常使用的一个数据格式。数据框的每一行表示一个样本,每一列表示一个特征。如下是一个典型的数据框。data(mtcars)
head(mtcars)##mpgcyldisphpdratwtqsecvsamgearcarb
##MazdaRX421.061601103.902.6216.50144
##MazdaRX4Wag21.061601103.902.8817.00144
##Datsun71022.84108933.852.3218.61141
##Hornet4Drive21.462581103.083.2119.41031
##HornetSportabout18.783601753.153.4417.00032
##Valiant18.162251052.763.4620.21031数据框的创建很简单,如下是一种简单的数据框创建方式:id<-1:5
status<-c("poor","improved","excellent","poor",'improved')
gender<-c('female','male','female','male','male')
df<-data.frame(id,status,gender)
df##idstatusgender
##11poorfemale
##22improvedmale
##33excellentfemale
##44poormale
##55improvedmale选取数据框的某一类,可通过数据框名称$特征值名称的方式df$id##[1]12345#查看数据框的列名
names(df)##[1]"id""status""gender"对数据框进行初步分析,可采用如下方式:summary(df)##idstatusgender
##Min.:1Length:5Length:5
##1stQu.:2Class:characterClass:character
##Median:3Mode:characterMode:character
##Mean:3
##3rdQu.:4
##Max.:5为数据框df增加新列,可采用如下操作:df$b<-c(3,4,1,2,3)
df$c<-df$b>3
head(df)##idstatusgenderbc
##11poorfemale3FALSE
##22improvedmale4TRUE
##33excellentfemale1FALSE
##44poormale2FALSE
##55improvedmale3FALSE根据某列数据,对数据框进行排序:#升序
newdf<-df[order(df$b),]
head(newdf)##idstatusgenderbc
##33excellentfemale1FALSE
##44poormale2FALSE
##11poorfemale3FALSE
##55improvedmale3FALSE
##22improvedmale4TRUE#降序
newdf<-df[order(-df$b),]
head(newdf)##idstatusgenderbc
##22improvedmale4TRUE
##11poorfemale3FALSE
##55improvedmale3FALSE
##44poormale2FALSE
##33excellentfemale1FALSE#根据多个特征进行排序
#负号表示降序排列,多个变量用逗号分隔
newdf<-df[order(gender,-df$b),]
head(newdf)##idstatusgenderbc
##11poorfemale3FALSE
##33excellentfemale1FALSE
##22improvedmale4TRUE
##55improvedmale3FALSE
##44poormale2FALSE选择某些特征:vars<-names(df)%in%c("id","gender")
newdf<-df[vars]
head(newdf)##idgender
##11female
##22male
##33female
##44male
##55male选择某些行:#&表示且
#|表示或
newdf<-subset(df,gender=="female"&status=="poor")
newdf##idstatusgenderbc
##11poorfemale3FALSE数据的输入输出一般情况下,我们较少从键盘上输入数据,更多的是从硬盘的文件中导入数据。经常使用的数据格式包括:csv,txt,xls,dta格式等。下图所示的是常用的csv数据格式,数据与数据之间用,分隔,对于这种数据格式,可以用read.table函数导入为数据框。df1<-read.table("data1.csv",header=T,sep=",")
#header用于表征每列是否有名称
#sep用于表征数据与数据之间的分隔符,csv格式的分隔符是","
#如果读取文件的路径不是R默认的路径,应该写入绝对路径:
#df1<-read.table("D:/datafile/data1.csv",header=T,sep=",")
head(df1)##Xmpgcyldisphpdratwtqsecvsamgearcarb
##1MazdaRX421.061601103.902.6216.50144
##2MazdaRX4Wag21.061601103.902.8817.00144
##3Datsun71022.84108933.852.3218.61141
##4Hornet4Drive21.462581103.083.2119.41031
##5HornetSportabout18.783601753.153.4417.00032
##6Valiant18.162251052.763.4620.21031
#excel中可以保存为csv格式
#如果是csv格式,可以用更简单的函数导入数据
#read.csv中将分隔符设置为","
df2<-read.csv("data1.csv",header=T)
head(df2)##Xmpgcyldisphpdratwtqsecvsamgearcarb
##1MazdaRX421.061601103.902.6216.50144
##2MazdaRX4Wag21.061601103.902.8817.00144
##3Datsun71022.84108933.852.3218.61141
##4Hornet4Drive21.462581103.083.2119.41031
##5HornetSportabout18.783601753.153.4417.000
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 人教版一年级下册数学10.两位数加一位数、整十数的计算方法 习题
- 2025汽车零部件区域代理合同汽车零部件区域代理合同范本
- 建筑防水合作协议合同范本
- 版仓库保管员雇佣合同
- 2025合同管理与招标投标
- 2025私营企业员工劳动合同模板
- 联动汽车租赁合同简约范本
- 2025招商代理服务合同(标准版)
- 2025物流企业货车租赁合同范本
- 2025经纪人聘用劳动合同
- (WORD版可修改)JGJ59-2023建筑施工安全检查标准
- 工程造价毕业设计完整版
- DB37-T 5222-2022建筑施工悬挑脚手架安全技术与管理标准
- 市政道路投标方案设计大纲
- 肠梗阻-PPT课件 (2)
- 报批稿20160301-浙江嘉化能源化工股份有限公司年产16万吨多品种脂肪醇(酸)产品项目
- 教学资源库建设方案-金融专业
- 铝合金牌号对照
- C6-5-2设备单机试运转记录
- 管道夜间施工方案
- 正交试验设计与数据处理.ppt
评论
0/150
提交评论